1997 IEEE International Conference on Acoustics, Speech, and Signal Processing
DOI: 10.1109/icassp.1997.596101
|View full text |Cite
|
Sign up to set email alerts
|

Using word temporal structure in HMM speech recognition

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1

Citation Types

0
5
0
3

Publication Types

Select...
8

Relationship

0
8

Authors

Journals

citations
Cited by 10 publications
(8 citation statements)
references
References 5 publications
0
5
0
3
Order By: Relevance
“…onde k, 1 ≤ k ≤ K, refere-se a k-ésima (linha) componente do t−ésimo segmento da matriz e n, 1 ≤ n ≤ N (coluna), refere-se a ordem da TCD. Dessa forma, obtém-se a matriz de duas dimensões, onde o interesse está nos coeficientes de baixa ordem de k e n que codificam as variações de longo prazo do envelope espectral do sinal de voz [6]. Este procedimentoé realizado para cada palavra falada.…”
Section: Geração Da Matriz Temporal Bidimensional-tcdunclassified
See 1 more Smart Citation
“…onde k, 1 ≤ k ≤ K, refere-se a k-ésima (linha) componente do t−ésimo segmento da matriz e n, 1 ≤ n ≤ N (coluna), refere-se a ordem da TCD. Dessa forma, obtém-se a matriz de duas dimensões, onde o interesse está nos coeficientes de baixa ordem de k e n que codificam as variações de longo prazo do envelope espectral do sinal de voz [6]. Este procedimentoé realizado para cada palavra falada.…”
Section: Geração Da Matriz Temporal Bidimensional-tcdunclassified
“…Os outros estados, em vez disso, são rapidamente atravessados devido a sua distribuição não se adaptar bem ao restante da observação. Esses erros, portanto, não dependem da confusão intrínseca de palavras de acústica semelhantes, mas principalmente pela falta de boa modelagem da duração do evento acústico o que produz hipótese fracamente relacionadaà acústica da palavra correta [6]. Para justificar a estrutura dinâmica dos vetores de observação, incluindo as variações locais e globais, este artigo, propõe um sistema de reconhecimento de voz de dígitos isolados que não se baseia diretamente no modelamento da duração estado/palavra; em vez disso, baseia-se nas variações globais das características espectrais de cada palavra e sua correlação no tempo, duas importantes características que são exploradas parcialmente pelo HMM clássico.…”
unclassified
“…onde k, 1 ≤ k ≤ K, refere-se a k-ésima linha(n o de coeficientes mel-cepstrais), componente do t−ésimo segmento da matriz e n, 1 ≤ n ≤ N , refere-se a n-ésima coluna(ordem da TCD), mf cc k (t) representa os coeficientes mel-cepstrais. Dessa forma, obtém-se a matriz de duas dimensões, onde o interesse está nos coeficientes de baixa ordem de k e n que codificam as variações de longo prazo do envelope espectral do sinal de voz [17]. Este procedimentoé realizado para cada palavra falada.…”
Section: B Geração Da Matriz Temporal Bidimensional-tcdunclassified
“…Thus, the two-dimensional time matrix, where the interesting low-order coefficients and that encode the longterm variations of the spectral envelope of the speech signal is obtained [9]. Thus, there is a two-dimensional time matrix ( , ) for each input speech signal.…”
Section: A Two-dimensional Time Matrix Dct Codingmentioning
confidence: 99%