Phase Based Spectro-Temporal Features for Building a Robust ASR System

Dutta, Anirban; Ashishkumar, Gudmalwar; Rao, Ch. V. Rama

doi:10.21437/interspeech.2020-2258

Cited by 3 publications

(9 citation statements)

References 11 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

Section: A Espectrogramas Do Sinal De Falaunclassified

“…No contexto geral de sistemas de ASR, atributos de tempofrequência (espectrogramas) provenientes dos espectros de magnitude |X n (e jω )|, obtidos da STFT 1 do sinal de fala x(n), têm apresentado resultados satisfatórios em aplicações de ASR operando em ambientes acústicos com alta SNR [6], [10]. Nesses ambientes, os espectrogramas de magnitude são capazes de capturar as características harmônicas e de transição entre diferentes unidades fonéticas (fonemas) [10]. A fim de preservar essas características acústicas, em esse problema, [5], [10] e [11] usam uma versão modificada da função atraso de grupoτ n (e jω ) (modified group delay -MOGD) para representar o espectro de fase da STFT, a qual pode ser definida como uma aproximação da derivada do espectro de fase 2 θ n [X n (e jω )] e expressa por τ n (e jω ) = Y I (e jω )X I (e jω ) + Y R (e jω )X R (e jω ) |X n (e jω )| 2γ .…”

Section: A Espectrogramas Do Sinal De Falaunclassified

“…Nesses ambientes, os espectrogramas de magnitude são capazes de capturar as características harmônicas e de transição entre diferentes unidades fonéticas (fonemas) [10]. A fim de preservar essas características acústicas, em esse problema, [5], [10] e [11] usam uma versão modificada da função atraso de grupoτ n (e jω ) (modified group delay -MOGD) para representar o espectro de fase da STFT, a qual pode ser definida como uma aproximação da derivada do espectro de fase 2 θ n [X n (e jω )] e expressa por τ n (e jω ) = Y I (e jω )X I (e jω ) + Y R (e jω )X R (e jω ) |X n (e jω )| 2γ .…”

Section: A Espectrogramas Do Sinal De Falaunclassified

Section: Introductionunclassified

“…Em [5], [10], [11] e [12], sistemas de ASR e KWS têm tirado proveito da informação do sinal de fase obtido através da STFT. Em [10] e [11], os sinais de magnitude e fase são considerados de forma independente. Enquanto, em [12], os sinais (magnitude e fase) são considerados conjuntamente; entretanto, em nosso conhecimento, tal abordagem não está sendo ainda aplicada aos sistemas de ASR atuais.…”

Section: Introductionunclassified

See 4 more Smart Citations

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Silva¹,

Seara²

2021

Anais Do XXXIX Simpósio Brasileiro De Telecomunicações E Processamento De Sinais

View full text Add to dashboard Cite

Resumo-A demanda por sistemas de detecção de palavraschave (keyword spotting -KWS) vem crescendo consideravelmente para as mais diversas aplicações do mundo real. No entanto, o desempenho desses sistemas é fortemente degradado em condições de operação com baixa razão sinal-ruído (signal-to-noise ratio -SNR). Visando a obtenção de sistemas de KWS robustos ao ruído, este trabalho de pesquisa investiga o processo de extração de atributos nesses sistemas. Particularmente, o presente trabalho propõe o uso de estratégias de combinação de atributos considerando os espectrogramas de magnitude e de fase dos sinais de fala. Dessa forma, sistemas de KWS utilizando extração de atributos considerando a combinação da magnitude e da fase são contrastados com aqueles que utilizam apenas espectrogramas de magnitude. Resultados de simulação numérica são apresentados e avaliados com vistas à acurácia de reconhecimento de palavraschave, confirmando a eficácia das estratégias utilizadas neste trabalho.Palavras-Chave-Comitê de classificadores, detecção de palavras-chave, espectrogramas do sinal de fase, extração de atributos.

show abstract

Section: A Espectrogramas Do Sinal De Falaunclassified

Section: Introductionunclassified

See 3 more Smart Citations

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Silva¹,

Seara²

2021

Anais Do XXXIX Simpósio Brasileiro De Telecomunicações E Processamento De Sinais

View full text Add to dashboard Cite

show abstract

Multichannel CNN-BLSTM Architecture for Speech Emotion Recognition System by Fusion of Magnitude and Phase Spectral Features Using DCCA for Consumer Applications

Prabhakar

Basel

Dutta

et al. 2023

IEEE Trans. Consumer Electron.

View full text Add to dashboard Cite

Phase characteristics of vocal tract filter can distinguish speakers

Okada,

Ito

2023

Front. Appl. Math. Stat.

View full text Add to dashboard Cite

IntroductionSpeaker recognition has been performed by considering individual variations in the power spectrograms of speech, which reflect the resonance phenomena in the speaker's vocal tract filter. In recent years, phase-based features have been used for speaker recognition. However, the phase-based features are not in a raw form of the phase but are crafted by humans, suggesting that the role of the raw phase is less interpretable. This study used phase spectrograms, which are calculated by subtracting the phase in the time-frequency domain of the electroglottograph signal from that of speech. The phase spectrograms represent the non-modified phase characteristics of the vocal tract filter.MethodsThe phase spectrograms were obtained from five Japanese participants. Phase spectrograms corresponding to vowels, called phase spectra, were then extracted and circular-averaged for each vowel. The speakers were determined based on the degree of similarity of the averaged spectra.ResultsThe accuracy of discriminating speakers using the averaged phase spectra was observed to be high although speakers were discriminated using only phase information without power. In particular, the averaged phase spectra showed different shapes for different speakers, resulting in the similarity between the different speaker spectrum pairs being lower. Therefore, the speakers were distinguished by using phase spectra.DiscussionThis predominance of phase spectra suggested that the phase characteristics of the vocal tract filter reflect the individuality of speakers.

show abstract

Phase Based Spectro-Temporal Features for Building a Robust ASR System

Cited by 3 publications

References 11 publications

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Estratégias de Combinação de Espectrogramas de Magnitude e de Fase Aplicadas em Sistemas Robustos de Detecção de Palavras-Chave

Multichannel CNN-BLSTM Architecture for Speech Emotion Recognition System by Fusion of Magnitude and Phase Spectral Features Using DCCA for Consumer Applications

Phase characteristics of vocal tract filter can distinguish speakers

Contact Info

Product

Resources

About