Zezwala się na korzystanie z artykułu na warunkach licencji Creative Commons Uznanie autorstwa 3.0
WprowadzenieNaturalnym sposobem komunikacji międzyludzkiej jest komunikacja werbalna, dlatego w kontekście interakcji człowiek-maszyna dąży się do opracowywania systemów automatycznego rozpoznawania mowy (ARM). Funkcjonalność ta jest szczególnie ważna w przypadku robotów społecznych [1]. Roboty społeczne to roboty przeznaczone do działania razem z człowiekiem w jego codziennym otoczeniu, przy czym ich cechą charakterystyczną jest komunikowanie się z człowiekiem za pomocą sygnałów werbalnych i niewerbalnych. Zagadnienie automatycznego rozpoznawania mowy dotyczy nie tylko robotów społecznych [2][3][4][5], ale m.in. również kontrolowania trajektorii ruchu manipulatorów przemysłowych [6,7] lub pojazdów bezzałogowych [8].Proces automatycznego rozpoznawania mowy polega na zamianie mowy ludzkiej zarejestrowanej przez mikrofon na tekst. Obecnie do rozwiązania tego zagadnienia najczęściej wykorzystuje się metody oparte na statystycznym rozpoznawaniu wzorców z użyciem tzw. niejawnych modeli Markowa HMM (ang. Hidden Markov Models). Niejawne modele Markowa pozwalają określić najbardziej prawdopodobną sekwencję kolejnych stanów nieobserwowalnego procesu na podstawie sekwencji obserwacji cechujących się pewną wariancją. W przypadku systemów ARM stany procesu mogą być fonemami, czyli elementami z pewnego skończonego zbioru, jakie fonologia wyróżnia w sygnałach dźwiękowych wszystkich wypowiedzi w danym języku. Obserwacjami natomiast są pewne charakterystyczne cechy ekstrahowane z kolejnych segmentów czasowych sygnału dźwiękowego konkretnej wypowiedzi, którą chcemy zamienić na tekst. Znane są także próby stosowania metod sztucznej inteligencji w rozpoznawaniu mowy, a konkretnie sztucznych sieci neuronowych [9].Systemy ARM dzielimy w zależności od charakteru planowanego zastosowania na systemy typu: Streszczenie: W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy -głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zd...