2016 Ieee Andescon 2016
DOI: 10.1109/andescon.2016.7836212
|View full text |Cite
|
Sign up to set email alerts
|

A case study of speech recognition in Spanish: From conventional to deep approach

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1

Citation Types

0
1
0
2

Year Published

2017
2017
2024
2024

Publication Types

Select...
6
2

Relationship

0
8

Authors

Journals

citations
Cited by 10 publications
(3 citation statements)
references
References 14 publications
0
1
0
2
Order By: Relevance
“…They found that Kaldi achieved the best WER value of 2.7% using the Wall Street Journal (WSJ) English corpus. In another work, Becerra et al [10] presented a comparative case study for Spanish between the conventional HMM-GMM architecture and the recent HMM-DNN model using Kaldi. The audio corpus used includes 1,836 sentences from 87 speakers sampled at 16 kHz, which are a mixture of human voices and text-to-speech utterances.…”
Section: Related Workmentioning
confidence: 99%
“…They found that Kaldi achieved the best WER value of 2.7% using the Wall Street Journal (WSJ) English corpus. In another work, Becerra et al [10] presented a comparative case study for Spanish between the conventional HMM-GMM architecture and the recent HMM-DNN model using Kaldi. The audio corpus used includes 1,836 sentences from 87 speakers sampled at 16 kHz, which are a mixture of human voices and text-to-speech utterances.…”
Section: Related Workmentioning
confidence: 99%
“…Los sistemas de reconocimiento automático del habla (ASR por sus siglas en inglés) resultan de gran relevancia en entornos académicos y empresariales debido a la facilidad de interacción que ofrecen. Se ha visto un creciente interés en la investigación de dichos sistemas los cuales han migrado de modelos probabilísticos a sistemas de redes neuronales profundas [5] que se han convertido en el estándar para aplicaciones profesionales de transformación de audio a texto. Estos sistemas a menudo utilizan un modelo acústico para realizar el reconocimiento en un primer nivel y posteriormente son pasados a modelos de lenguaje para su corrección [9].…”
Section: Introductionunclassified
“…Tradicionalmente los algoritmos utilizados para transformar audio a texto han sido diseñados usando modelos probabilísticos, como los modelos ocultos de Markov. Sin embargo, con el resurgimiento de la redes neuronales, también se están desarrollando redes neuronales profundas [3], lo que ha permitido generar reconocedores de voz más precisos. Ahora bien, cuando estos reconocedores se utilizan en dominios muy específicos, es de esperarse que su error se incremente.…”
Section: Introductionunclassified