The proposed architecture of the identification software system in the form of class and sequence diagrams. The main criteria for assessing the accuracy of speaker identification were studied and possible sources of loss of speaker identification accuracy were identified, which can be used when building a speaker identification system. A software system based on the proposed architecture and previously developed identification algorithms and methods was created. The following conclusions can be drawn on the basis of the performed research: approaches to the construction of existing announcer identification systems are considered; the main criteria for assessing the accuracy of announcer identification were investigated and the main sources of loss of accuracy during announcer identification were identified; the structural construction of the announcer identification system is considered, taking into account the identified sources of loss of accuracy during announcer identification; the proposed architecture of the speaker identification system in the UML language in the form of class and sequence diagrams; a software system was built that implements the functions of speech signal identification according to the methods and algorithm proposed in previous works. The software system uses a ranking method based on three different criteria. These include: calculation of the proximity of two-dimensional probability density function curves for the frequency of the main tone and the location in the spectrum of three frequency ranges that are extracted from the speech recorded in the speech signal; calculation of the proximity of the probability density function curves for each of these features separately; calculation of the degree of closeness of the absolute maxima of the formant spectra extracted from the speech recorded in the speech signal.
Розглянуто питання підвищення точності ідентифікації мовця завдяки аналізу фізичної природи формування особливостей мовного сигналу та математичного опису структури сигналу. Здійснено огляд процесу ідентифікації особи, зроблено висновок, що в сигналі мають бути постійні самоподібні структури, які формуються під час мовлення кожної конкретної особи. Подібність структур самим собі можлива за рахунок їхнього масштабування в мовних фрагментах. На підставі проведеного аналізу визначено основні параметри опису індивідуальних особливостей голосу мовця у вигляді частоти основного тону та спектральних характеристик мовного сигналу. Проведений огляд методів визначення частоти основного тону дав змогу виділити напрями поліпшення точності ідентифікації мовця внаслідок точнішого математичного опису унікальних ознак мовного сигналу. Під час аналізу зроблено висновок, що найвдалішим інструментом виявлення самоподібних структур можна вважати фрактальний та вейвлет-аналіз. Обґрунтовано використання комплексного вейвлету Морле для опису мовного сигналу. У вигляді оцінки частоти основного тону мовного сигналу в роботі розглянуто відстані між локальними частотними максимумами скейлограм. Важливим фактором стійкості і достовірності оцінок частоти основного тону для цього методу є можливість оцінки частоти основного тону не тільки по локальних максимумах, але і по кореляції між фрагментами областей максимумів. На підставі вейвлет-перетворення та мультифрактального спектра запропоновано алгоритм виділення характеристик самоподібних структур, притаманних мовцю, та розроблені методи оброблення мовного сигналу дають змогу використовувати їх для побудови систем ідентифікації мовного сигналу та для створення інтелектуальних систем взаємодії користувача й комп'ютера. На підставі алгоритму запропоновано метод підвищення інформативності частоти основного тону для мовної ідентифікації особи, в якому, на відміну від наявних, за ознаку для розпізнавання використано значення коефіцієнтів вейвлет-перетворення на відрізках мовного сигналу, де спостерігаються екстремуми кореляційних функцій частоти основного тону. Проведений аналіз точності запропонованого методу показав достатній для використання рівень його ефективності.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.