In this article, we present the results of our experiments on sentiment and emotion recognition for English and Polish texts, aiming to work in the context of a therapeutic chatbot. We created a dedicated dataset by adding samples of neutral texts to an existing English-language emotion-labeled corpus. Next, using neural machine translation, we developed a Polish version of the English database. A bilingual, parallel corpus created in this way, named CORTEX (CORpus of Translated Emotional teXts), labeled with three sentiment polarity classes and nine emotion classes, was used for experiments on classification. We employed various classifiers: Naïve Bayes, Support Vector Machines, fastText, and BERT. The results obtained were satisfactory: we achieved the best scores for the BERT-based models, which yielded accuracy of over 90% for sentiment (3-class) classification and almost 80% for emotion (9-class) classification. We compared the results for both languages and discussed the differences. Both the accuracy and the F1-scores for Polish turned out to be slightly inferior to those for English, with the highest difference visible for BERT.
Zezwala się na korzystanie z artykułu na warunkach licencji Creative Commons Uznanie autorstwa 3.0 WprowadzenieNaturalnym sposobem komunikacji międzyludzkiej jest komunikacja werbalna, dlatego w kontekście interakcji człowiek-maszyna dąży się do opracowywania systemów automatycznego rozpoznawania mowy (ARM). Funkcjonalność ta jest szczególnie ważna w przypadku robotów społecznych [1]. Roboty społeczne to roboty przeznaczone do działania razem z człowiekiem w jego codziennym otoczeniu, przy czym ich cechą charakterystyczną jest komunikowanie się z człowiekiem za pomocą sygnałów werbalnych i niewerbalnych. Zagadnienie automatycznego rozpoznawania mowy dotyczy nie tylko robotów społecznych [2][3][4][5], ale m.in. również kontrolowania trajektorii ruchu manipulatorów przemysłowych [6,7] lub pojazdów bezzałogowych [8].Proces automatycznego rozpoznawania mowy polega na zamianie mowy ludzkiej zarejestrowanej przez mikrofon na tekst. Obecnie do rozwiązania tego zagadnienia najczęściej wykorzystuje się metody oparte na statystycznym rozpoznawaniu wzorców z użyciem tzw. niejawnych modeli Markowa HMM (ang. Hidden Markov Models). Niejawne modele Markowa pozwalają określić najbardziej prawdopodobną sekwencję kolejnych stanów nieobserwowalnego procesu na podstawie sekwencji obserwacji cechujących się pewną wariancją. W przypadku systemów ARM stany procesu mogą być fonemami, czyli elementami z pewnego skończonego zbioru, jakie fonologia wyróżnia w sygnałach dźwiękowych wszystkich wypowiedzi w danym języku. Obserwacjami natomiast są pewne charakterystyczne cechy ekstrahowane z kolejnych segmentów czasowych sygnału dźwiękowego konkretnej wypowiedzi, którą chcemy zamienić na tekst. Znane są także próby stosowania metod sztucznej inteligencji w rozpoznawaniu mowy, a konkretnie sztucznych sieci neuronowych [9].Systemy ARM dzielimy w zależności od charakteru planowanego zastosowania na systemy typu: Streszczenie: W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy -głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zd...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.