И.А. РАХМАНЕНКО, Р.В. МЕЩЕРЯКОВ АНАЛИЗ ИДЕНТИФИКАЦИОННЫХ ПРИЗНАКОВ В РЕЧЕВЫХ ДАННЫХ С ПОМОЩЬЮ GMM-UBM СИСТЕМЫ ВЕРИФИКАЦИИ ДИКТОРАРахманенко И.А., Мещеряков Р.В. Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора. Аннотация. Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система).Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мел-кепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер.Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления.Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.Ключевые слова: распознавание диктора, верификация диктора, Гауссовы смеси, GMM-UBM система, мел-кепстральные коэффициенты, речевые признаки, отбор признаков, обработка речи, генетический алгоритм, жадный алгоритм.1. Введение. Задача автоматической идентификации диктора яв-ляется одной из наиболее сложных задач в области обработки речи. Ме-тоды, используемые в современных системах идентификации диктора далеко не идеальны, что накладывает на такие системы определенные ограничения. Некоторые системы отлично работают в хороших акусти-ческих условиях, при минимальном уровне шума, однако заметно теря-ют в точности распознавания в условиях малого соотношения сигнал-шум. Требования к точности идентификации говорящего для подобных систем задают определенную планку, которая повышается с каждым годом. Повышение точности идентификации позволяет расширить об-ласть применения таких систем, включая системы биометрической мно-гофакторной аутентификации, системы дистанционного банковского обслуживания, системы контроля доступа и многие другие. Таким обра-32