2005
DOI: 10.1016/j.specom.2005.02.015
|View full text |Cite
|
Sign up to set email alerts
|

Data-driven multimodal synthesis

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
2
0
2

Year Published

2007
2007
2015
2015

Publication Types

Select...
4
1
1

Relationship

0
6

Authors

Journals

citations
Cited by 6 publications
(4 citation statements)
references
References 44 publications
0
2
0
2
Order By: Relevance
“…For intelligibility assessment, the type of stimuli used varies from isolated bisyllabic words [42], [64], multi-syllable nonsense words [65], isolated real words [39], [66], or sentences [2], [39]. Accuracy can be measured using the word, syllable or phone recognition rate, or it might involve keyword spotting in synthesized sentences [55]. The advantage of shorter stimuli for intelligibility testing is that the accuracy of particular speech gestures can be measured, but it is difficult to gauge the accuracy of modelling the longer term aspects of speech articulation.…”
Section: A Evaluating Visual Speech Synthesizersmentioning
confidence: 99%
“…For intelligibility assessment, the type of stimuli used varies from isolated bisyllabic words [42], [64], multi-syllable nonsense words [65], isolated real words [39], [66], or sentences [2], [39]. Accuracy can be measured using the word, syllable or phone recognition rate, or it might involve keyword spotting in synthesized sentences [55]. The advantage of shorter stimuli for intelligibility testing is that the accuracy of particular speech gestures can be measured, but it is difficult to gauge the accuracy of modelling the longer term aspects of speech articulation.…”
Section: A Evaluating Visual Speech Synthesizersmentioning
confidence: 99%
“…For instance, in [29,31] the participants were asked about how natural and realistic are the animations in a five-point scale, and in [17] the individuals were asked to choose the more realistic animation between two different ones, generated by different methods. Other kind of perceptual evaluations are reported in [32,33], where the contribution of the animated avatar to intelligibility of speech in noisy conditions is analyzed. This evaluation approach has the advantage of objectively quantify the perceived quality of the animation.…”
Section: Introductionmentioning
confidence: 99%
“…Ως γνωστόν, αποτέλεσε πρόδρομο της μεθόδου σύνθεσης μέσω γραμμικής πρόβλεψης (Linear Prediction Coding (LPC) synthesis) που αν και τα formants δύναται να προσδιορίζονται αυτόματα, η τελική σύνθεση είναι χαμηλής ποιότητας ενώ παραμένει το πρόβλημα της μη αυτόματης εξαγωγής κανόνων. Η έρευνα στρέφεται κυρίως γύρω από συνιστώσες που αφορούν την επαρκή μοντελοποίηση των παραμέτρων της πηγής και των formants [Frölich, 2001;Vincent, 2005], όσο και σε θέματα υβριδικής χρήσης μεταξύ μηχανών σύνθεσης formant και επιλογής ακουστικών μονάδων [Carlson, 2005;Hertz, 2002]. Η εγγενείς δυσκολία στην πρωταρχική μορφή σύνθεσης με formants αφορά όχι τόσο στην δυνατότητα παραγωγής του σήματος φωνής από την παραμετρική του αναπαράσταση, αλλά από την παραγωγή και τον χειρισμό των ίδιων των παραμέτρων με τους κανόνες έτσι ώστε να πληρούν τις προδιαγραφές που θέτει το κείμενο.…”
Section: σύνθεση με κανόνεςunclassified
“…Οι υβριδικές τεχνικές αναφέρονται σε προσπάθειες αποδοτικού συνδυασμού των υπαρχόντων προσεγγίσεων με στόχο την εκμετάλλευση των πλεονεκτημάτων που προσφέρει η καθεμία. Οι γνωστότερες υβριδικές τεχνικές αφορούν προσπάθειες ενοποίησης: α) της σύνθεσης με formants με την βοήθεια HMM [Acero, 1999], της σύνθεσης με formants και της σύνθεσης με επιλογή και συρραφή ακουστικών μονάδων [Hertz, 2002;Carlson, 2005], γ) της articulatory σύνθεσης με την βοήθεια HMM , Toda, 2008] και δ) της σύνθεσης με ΗΜΜ και της σύνθεσης με επιλογή και συρραφή ακουστικών μονάδων ].…”
Section: υβριδικές τεχνικέςunclassified