Распознавание эмоций является актуальной задачей ввиду активного развития систем человеко-машинного взаимодействия и цифровых систем коммуникации. В области автоматического распознавания эмоций исследуется, как правило, поведенческая компонента структуры эмоций, которую проще всего анализировать бесконтактно и без участия испытуемого. Экспрессивная компонента эмоций может быть представлена в различных модальностях: мимические выражения, поза и двигательная активность тела, вербальное и невербальное речевое поведение. Наряду с другими модальностями, невербальное речевое поведение может быть использовано для опосредованного распознавания эмоций. Его анализ становится особенно актуальным в случае недостатка или отсутствия данных других модальностей, а также в моделях многомодального распознавания. В данной статье рассматриваются вопросы распознавания эмоций в речи на основе обработки признаковых представлений записей речи в пространстве признаков eGeMAPS, позволяющем выделить наиболее значимую информацию о невербальном проявлении эмоций в аудиосигнале. Распознавание эмоций выполнялось на следующих наборах данных: CREMA-D, IEMOCAP, Emo-DB, RAVDESS, SAVEE, TESS, а также на их комбинациях. Для предварительной оценки применимости того или иного набора данных в рассматриваемом признаковом пространстве была использована предварительная визуализация данных при помощи алгоритма t-SNE. В качестве методов классификации были выбраны методы, основанные на метрической оценке взаимного расположения данных относительно друг друга: метод k-ближайших соседей и метод опорных векторов. В статье приводятся результаты оценки качества классификации исследуемых алгоритмов на основе следующих метрик: доля правильных ответов, точность, полнота. Проведенные эксперименты показали, что метод опорных векторов показывает лучшие результаты в задаче многоклассовой классификации, в то время как метод k-ближайших соседей — в задаче бинарной классификации. При распознавании отдельных классов оба метода достигают наибольшую, не ниже 0,55, точность при распознавании «гнева», наименьшую для классов «счастья» и «отвращения».
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.