Diarization is an important task when work with audiodata is executed, as it provides a solution to the problem related to the need of dividing one analyzed call recording into several speech recordings, each of which belongs to one speaker. Diarization systems segment audio recordings by defining the time boundaries of utterances, and typically use unsupervised methods to group utterances belonging to individual speakers, but do not answer the question “who is speaking?” On the other hand, there are biometric systems that identify individuals on the basis of their voices, but such systems are designed with the prerequisite that only one speaker is present in the analyzed audio recording. However, some applications involve the need to identify multiple speakers that interact freely in an audio recording. This paper proposes two architectures of speaker identification systems based on a combination of diarization and identification methods, which operate on the basis of segment-level or group-level classification. The open-source PyAnnote framework was used to develop the system. The performance of the speaker identification system was verified through the application of the AMI Corpus open-source audio database, which contains 100 h of annotated and transcribed audio and video data. The research method consisted of four experiments to select the best-performing supervised diarization algorithms on the basis of PyAnnote. The first experiment was designed to investigate how the selection of the distance function between vector embedding affects the reliability of identification of a speaker’s utterance in a segment-level classification architecture. The second experiment examines the architecture of cluster-centroid (group-level) classification, i.e., the selection of the best clustering and classification methods. The third experiment investigates the impact of different segmentation algorithms on the accuracy of identifying speaker utterances, and the fourth examines embedding window sizes. Experimental results demonstrated that the group-level approach offered better identification results were compared to the segment-level approach, and the latter had the advantage of real-time processing.
У галузі машинного навчання одним із основних напрямків є опрацювання та розпізнавання мовлення. Серед важливих завдань роботи з аудіоданими є діаризація. Діаризація визначає часові межі в аудіозаписі, що належать окремим мовцям, тобто образно кажучи, вирішує задачу «коли хто говорить?». Проте відомі комерційні та відкриті засоби діаризації використовують кластеризацію сегментів, але не відповідають на питання «хто саме зараз говорить?». Існують системи, які ідентифікують мовця, але такі системи розраховані на те, що у аудіозапису присутній є лише один мовець. Тому актуальним завданням є створення системи діаризації, яка уможливлює ідентифікацію багатьох мовців, які довільним чином змінюються у аудіозаписах. У даному дослідженні запропоновано дві архітектури систем ідентифікації мовців на основі діаризації, які працюють відповідно на засадах по-сегментного та по-кластерного аналізу. Для побудови системи використано бібліотеку PyAnnote, що є у відкритому доступі. Верифікація роботи системи ідентифікації мовців здійснювалася на відкритій базі аудіозаписів AMI Corpus, у якому зібрано 100 годин анотованих та транскрибованих аудіо- та відеоданих. Розглянуто різні метрики оцінювання точності діаризації та, враховуючи специфіку розробленої системи, обґрунтовано доцільність застосування такої оцінки як F-Міра ідентифікації. Описано методику проведення досліджень, яка передбачала проведення трьох експериментів. Перший експеримент націлений на дослідження архітектури системи ідентифікації, що базується на по-сегментному аналізі, а другий експеримент – на дослідження архітектури, що застосовує по-кластерний аналіз. Третій експеримент стосується визначення оптимальної тривалості навчальної вибірки для класифікаторів системи ідентифікації. Результати експериментів показали, що по-кластерний підхід показав кращі результати ідентифікації порівняно із по-сегментним підходом. Також встановлено, що оптимальною тривалістю вибірки аудіоданих для тренування класифікатора під кожного конкретного мовця становить 20 секунд.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.