2021
DOI: 10.1007/978-3-030-87802-3_55
|View full text |Cite
|
Sign up to set email alerts
|

Speaker-Aware Training of Speech Emotion Classifier with Speaker Recognition

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3

Citation Types

0
1
0
2

Year Published

2022
2022
2023
2023

Publication Types

Select...
2
2
2

Relationship

0
6

Authors

Journals

citations
Cited by 6 publications
(3 citation statements)
references
References 16 publications
0
1
0
2
Order By: Relevance
“…Например, для набора данных Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) [2] точность распознавания известных методов оказывалась равной 70 -80 % [13 -15], что может быть недостаточно для промышленного применения. Поэтому в предыдущей работе авторов [16] представлен новый подход, основанный на идее дикторозависимого распознавания речи [17,18], позволяющий увеличить точность распознавания эмоций по видеоизображению лиц путём адаптации модели под выражения лица конкретного пользователя.…”
Section: Introductionunclassified
See 1 more Smart Citation
“…Например, для набора данных Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) [2] точность распознавания известных методов оказывалась равной 70 -80 % [13 -15], что может быть недостаточно для промышленного применения. Поэтому в предыдущей работе авторов [16] представлен новый подход, основанный на идее дикторозависимого распознавания речи [17,18], позволяющий увеличить точность распознавания эмоций по видеоизображению лиц путём адаптации модели под выражения лица конкретного пользователя.…”
Section: Introductionunclassified
“…Эти данные накапливаются и используются для дообучения нейросетевого классификатора для конкретного пользователя. При применении подобного подхода для распознавания выражений лиц по видео используются термины «дикторозависимая» (персональная) и «дикторонезависимая» (универсальная) модель, широко применяющиеся в литературе по распознаванию эмоций в речи [17]. Проведено обширное экспериментальное исследование с использованием разных моделей EmotiEffNet [12] для извлечения визуальных признаков из кадров.…”
Section: Introductionunclassified
“…[10] propose a cascade schema that progresses from macro-categories of emotions gradually towards the discrimination of more specific emotions. [11] proposes to fine-tune several SER classifiers for specific speakers and to select the classifier to use with a speaker recognition system. [12] applies a unsupervised multi-source domain adaptation strategy to learn emotion features independent from the speaker identity.…”
Section: Introductionmentioning
confidence: 99%