In this article the authors normalize the speech signal based on the publicly available AN4 database. The authors added to the algorithm of calculating the MFCC coefficients, the normalization procedure, that uses pitch of the voice. As demonstrated by empirical tests authors were able to improve speech recognition accuracy rate of about 20%.Streszczenie. W niniejszym artykule autorzy normalizują sygnał mowy wykorzystując publicznie dostępną bazę danych AN4. Autorzy dodali do algorytmu obliczania współczynników MFCC, procedurę normalizacji, wykorzystującą wysokość tonu głosu. Jak wynika z przeprowadzonych testów, autorzy uzyskali poprawę dokładności rozpoznawania mowy o około 20% (Wykorzystanie wysokości tonu głosu w systemach rozpoznawania mowy ciągłej z dużą ilością słów).
This paper presents a simple and useful method of vowel recognition of the Polish language. It relies on determining some characteristic bands of frequencies for each vowel. These bands are chosen so as to provide maximum separability of all vowels. Within each band we determine three parameters: average, a standard deviation and a maximum value. Comparing these values with the previously designated boundary values, we can classify a given vowel. As shown by the test, this method has a low percentage of an incorrectly recognized vowel. An additional advantage is its efficiency. It is four times faster than the method based on the formants.
In this article authors proposed a hybrid system in which the full covariance matrix is used only at the initial stage of learning. At the further stage of learning, the amount of covariance matrix increases significantly, which, combined with rounding errors, causes problems with matrix inversion. Therefore, when the number of matrices with a determinant of 0 exceeds 1%, the system goes into the model of diagonal covariance matrices. Thanks to this, the hybrid system has achieved a better result of about 11%. Streszczenie. W niniejszym artykule autorzy zaproponowali system hybrydowy, w którym pełna macierz kowariancji wykorzystywana jest tylko w początkowym etapie procedury treningowej. W dalszym etapie uczenia, znacząco wzrasta liczba macierzy kowariancji, co w połączeniu z błędami zaokrąglania powoduje problemy z odwróceniem tego typu macierzy. Dlatego też, gdy liczba macierzy o wyznaczniku równym 0 przekracza 1%, system przechodzi do modelu wykorzystującego macierze diagonalne. Dzięki temu system hybrydowy osiągnął wynik lepszy o około 11%. (Wykorzystanie pełnej macierzy kowariancji w systemie rozpoznawania mowy CMU Sphinx III).
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.