This article addresses the problem of developing an effective method for automatically classifying the aviation personnel emotions (announcer) by voice. To this end, it is possible to create a dictatorial independent algorithm capable of performing a multi-grade classification of the seven emotional states of a person (joy, fear, anger, sadness, disgust, surprise and neutrality) on the basis of a set of 48 informative features. These features are formed from the digital recording of the speech signal by calculating Mel Frequency Cepstral coefficient and the main tone frequency for individual recording frames. The increase of informativeness and the reduction of the dimension for the Mel Frequency Cepstral coefficient is achieved by processing said coefficients with the aid of a deep, convergent neural network. The model of the classifier is realized by means of logistic regression, which was trained on the basis of emotionally colored English speech samples by these informative features. As a result of the training on the test sample, the correct recognition response accuracy is equal to 0.96. The inventive solution can be used for improving human-machine interfaces, as well as in the field of aviation, medicine, marketing etc.
В данной статье рассматривается проблема разработки эффективного метода автоматической классификации эмоций авиационного персонала (диктора) по голосу. Для этого решается задача по созданию дикторонезависимого алгоритма, способного выполнять многоклассовую классификацию семи эмоциональных состояний человека (радость, страх, гнев, печаль, отвращение, удивление и нейтральное состояние) на основании набора из 48 информативных признаков. Данные признаки формируются из цифровой записи речевого сигнала путем расчета мел-частотных кепстральных коэффициентов и частоты основного тона для отдельных фреймов звукозаписи. Повышение информативности и снижение размерности для мел-частотных кепстральных коэффициентов выполняется за счет их обработки при помощи глубокой сверточной нейронной сети. Модель классификатора реализована при помощи логистической регрессии, которая обучалась по указанным информативным признакам на базе записей эмоционально окрашенных образцов английской речи. В результате обучения на тестовой выборке доля правильных ответов распознавания составляет accuracy = 0,96. Предложенное в работе решение может быть использовано для улучшения человеко-машинных интерфейсов, а также в области авиационных перевозок, медицине, маркетинге и пр.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.