Despite recent breakthroughs in automatic speaker recognition (ASpR), system performance still degrades when utterances are short and/or when within-speaker variability is large. This study used short test utterances (2-3sec) to investigate the effect of within-speaker variability on state-of-the-art ASpR system performance. A subset of a newly-developed UCLA database is used, which contains multiple speech tasks per speaker. The short utterances combined with a speaking-style mismatch between read sentences and spontaneous affective speech degraded system performance, for 25 female speakers, by 36%. Because humans are more robust to utterance length or withinspeaker variability, understanding human perception might benefit ASpR systems. Perception experiments were conducted with recorded read sentences from 3 female speakers, and a model is proposed to predict the perceptual dissimilarity between tokens. Results showed that a set of voice quality features including F0, F1, F2, F3, H1*-H2*, H2*-H4*, H4*-H2k*, H2k*-H5k, and CPP provides information that complements MFCCs. By fusing the feature set with MFCCs, human response prediction RMS error was .12, which represents a 12% relative error reduction compared to using MFCCs alone. In ASpR experiments with short utterances from 50 speakers, the voice quality feature set decreased the error rate by 11% when fused with MFCCs.
Caractéristiques acoustiques des voyelles fermées tendues, relâchées et allongées en français québécois (Dumas, 1978: 128), quoique des exemples de relâchées dévoisées sont également présentés dans la littérature (Gendron, 1959 : 104; Dumas, 1987 : 103). Le phénomène peut se produire lorsque la voyelle est en contact avec au moins une consonne non voisée (Brent, 1971 : 36; Dumas, 1978 : 128), notamment si cette dernière suit la voyelle (Cedergren et Simoneau, 1985 :107). Le dévoisement est spécialement fréquent lorsque la voyelle se situe entre deux consonnes non voisées (Cedergren et Simoneau, 1985 : 104; Vinay, 1973:352). Par exemple:1.1.2 Réduction et syncope En FQ, les voyelles fermées peuvent également s'abréger, au point parfois de s'amuïï. Tout comme dans le cas du dévoisement, la réduction et la syncope peuvent survenir lorsque les voyelles sont brèves, tendues et non accentuées. Ces deux phénomènes semblent affecter plus fréquemment les l\l que les /y/, et les /y/ que les lui (Dumas, 1978 :130). L'environnement consonantique favorisant la réduction et la syncope est toutefois différent (au moins en partie) de celui favorisant le dévoisement. En effet, la réduction et la syncope se produisent notamment lorsque la voyelle est précédée de M, de /I/, d'une consonne fricative ou nasale, ou encore lorsqu'elle est située entre une occlusive et une fricative (Walker, 1984 : 75). Par exemple :1 Pour des informations et des références complémentaires, nous invitons le lecteur ou la lectrice à consulter le site internet PHONO (Dolbec et Paradis, 1998). RelâchementLe contraste entre les voyelles fermées tendues et relâchées se manifeste en FQ par une position du dos de la langue plus basse pour les relâchées (Dalton, 2011a(Dalton, , 2011b (Brent, 1971 : 34; Vinay, 1973 : 351 ; Paradis, 1985 : 95). Le relâchement se produit en syllabe fermée par une consonne non allongeante (c'est-à-dire toute autre consonne que lui, NI, IzI, I3I et le groupe /VB/). 45 Il est systématique en syllabe finale de mot, et facultatif ailleurs (Dumas, 1974 :32). Par exemple :De plus, Dumas (1974: 33) (Dumas, 1974 :18). Par exemple :2 Dans d'autres langues, le relâchement peut aussi se traduire par un avancement de la racine de la langue (Ladefoged et Maddieson, 1996:302). 3 D'après Reighard (1986 : 290) et Côté (2010, les voyelles fermées relâchées constitueraient plutôt des phonèmes à part entière. Déchaîne (1990) et Hannahs (1989 (tels que rapportés dans Dawn Armstrong, 1999: 21) proposent quant à eux que les voyelles fermées du FQ sont relâchées par défaut et se tendent en syllabe ouverte. 4 Boulanger (1986) (entre autres) rapporte que dans certaines régions, notamment en Beauce, mais aussi au Saguenay-Lac-Saint-Jean, les voyelles fermées peuvent ne pas être allongées devant M, IzI et I3I, mais relâchées. Nous n'avons cependant décelé qu'une seule occurrence de ce type dans notre corpus (voir le point 3.1 pour plus de détails). 5 Marchai (1980: 85) rapporte que devant les occlusives sonores Ibl, 161 et /g/, les voyelles fermé...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.