The objective of this paper is to critically evaluate the performance of a nonstationary analysis method in tracking speech formant frequencies as they change with time due to the natural variations in the vocal-tract system during speech production. The method of instantaneous frequency estimation is applied to the tracking of speech formant frequencies to observe the time variations in the vocal-tract system characteristics within a pitch period. An implementation of an instantaneous frequency estimator based on the source}"lter model of speech production is described for voiced speech formants. Based on experimental results from simulated as well as natural speech data, it is shown that the accuracy of the frequency estimates is heavily dependent on the nature of the glottal excitation waveform, the fundamental frequency and the frequency spacing of the formants in the speech signal. The choice of various analysis parameters on the accuracy of the estimates is discussed. It is shown that only when the formants are well separated and there are distinct regions of the glottal cycle in which the source excitation can be considered to be negligible, does the instantaneous frequency estimate accurately represent the actual formant frequency. Experimental results on natural speech vowels which show di!erences in formant frequencies in the di!erent phases of the glottal cycle are presented.2000 Elsevier Science B.V. All rights reserved.
ZusammenfassungDas Ziel dieses Artikels ist es, die LeistungsfaK higkeit einer nichtstationaK ren Analysemethode zum Verfolgen der zeitlichen A G nderungen der Formantfrequenzen, wie sie durch die natuK rlichen Variationen des Vokaltraktes waK hrend der Spracherzeugung entstehen, zu evaluieren. Um Schwankungen in der Charakteristik des Sprachtrakts innerhalb einer Pitch-Periode zu beobachten wird die Methode der SchaK tzung der Momentanfrequenz zum Verfolgen der Formantfrequenzen angewandt. Eine Implementierung der MomentanfrequenzschaK tzung fuK r stimmhafte Formanten, basierend auf dem Quelle}Filter-Modell der Spracherzeugung, wird beschrieben. Basierend auf experimentellen Ergebnissen sowohl mit simulierten als auch mit natuK rlichen Sprachsignalen wird gezeigt, dass die Genauigkeit der FrequenzschaK tzungen stark von der Art des Glottis-Signals, der Grundfrequenz und dem Frequenzabstand der Formanten im Sprachsignal abhaK ngt. Der Ein#uss der Wahl verschiedener Analyseparameter auf die Genauigkeit der SchaK tzung wird diskutiert. Es wird gezeigt, dass nur bei gut separierten Formanten und bei ausgepraK gten Bereichen des Glottis-Zyklus, in denen das Anregungssignal als vernachlaK ssigbar betrachtet werden kann, die SchaK tzung der Momentanfrequenz die tatsaK chlichen Formantenfrequenzen richtig wiedergibt. Experimentelle Ergebnisse mit natuK rlich erzeugten Vokalen, die Unterschiede in den Formantfrequenzen waK hrend der unterschiedlichen Phasen des Glottis-Zyklus aufweisen, werden vorgestellt.2000 Elsevier Science B.V. All rights reserved.
Re2 sume2L'objectif de cet art...