Interspeech 2013 2013
DOI: 10.21437/interspeech.2013-610
|View full text |Cite
|
Sign up to set email alerts
|

Automatic human utility evaluation of ASR systems: does WER really predict performance?

Abstract: We propose an alternative evaluation metric to Word Error Rate (WER) for the decision audit task of meeting recordings, which exemplifies how to evaluate speech recognition within a legitimate application context. Using machine learning on an initial seed of human-subject experimental data, our alternative metric handily outperforms WER, which correlates very poorly with human subjects' success in finding decisions given ASR transcripts with a range of WERs.

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
2

Citation Types

0
9
0
2

Year Published

2015
2015
2024
2024

Publication Types

Select...
4
3
2

Relationship

0
9

Authors

Journals

citations
Cited by 22 publications
(11 citation statements)
references
References 13 publications
0
9
0
2
Order By: Relevance
“…Le WER se calculera de la manière suivante : Bien qu'il soit le plus utilisé, le WER présente de nombreuses lacunes (Favre et al, 2013 ;Morris et al, 2004 ;Nanjo et al, 2005 ;Park et al, 2008 ;Wang et al, 2003). Tout d'abord, le WER est un taux qui n'a pas de limite supérieure : le nombre d'ajouts étant illimité, le pourcentage d'erreurs de mots peut être supérieur à 100 %, ce qui ne permet pas de savoir si le système est bon, mais seulement s'il est meilleur qu'un autre.…”
Section: Mesure La Plus Utilisée : Le Werunclassified
See 1 more Smart Citation
“…Le WER se calculera de la manière suivante : Bien qu'il soit le plus utilisé, le WER présente de nombreuses lacunes (Favre et al, 2013 ;Morris et al, 2004 ;Nanjo et al, 2005 ;Park et al, 2008 ;Wang et al, 2003). Tout d'abord, le WER est un taux qui n'a pas de limite supérieure : le nombre d'ajouts étant illimité, le pourcentage d'erreurs de mots peut être supérieur à 100 %, ce qui ne permet pas de savoir si le système est bon, mais seulement s'il est meilleur qu'un autre.…”
Section: Mesure La Plus Utilisée : Le Werunclassified
“…Bien qu'il soit le plus utilisé, le WER présente de nombreuses lacunes (Favre et al, 2013 ;Morris et al, 2004 ;Nanjo et al, 2005 ;Park et al, 2008 ;Wang et al, 2003). Tout…”
Section: Mesure La Plus Utilisée : Le Werunclassified
“…However, none seem to have been used to the same extent as WER despite criticism from many researchers such as those mentioned by Kuhn, Kersken and Zimmermann who add that "ASR output should be validated for real-world use-cases" [5]. So, although WER may provide insights into the accuracy levels of automatic captions and transcriptions [6] there remain other factors that can be explored to provide additional feedback for ASR training models.…”
Section: Introductionmentioning
confidence: 99%
“…WER is calculated from a literal word-level comparison of ground-truth with the hypothesis. There is an increasing interest among the speech community to consider an alternate evaluation metric [1,2], since WER does not capture the semantic correctness of the hypothesis generated. Consider the ground-truth as 'I am going to die', and the two hypotheses from ASR be 'I m going to die' and 'I am going to live'.…”
Section: Introductionmentioning
confidence: 99%