2008
DOI: 10.1109/tcsvt.2008.2005613
|View full text |Cite
|
Sign up to set email alerts
|

Audio-Assisted Movie Dialogue Detection

Abstract: Abstract-An audio-assisted system is investigated that detects if a movie scene is a dialogue or not. The system is based on actor indicator functions. That is, functions which define if an actor speaks at a certain time instant. In particular, the crosscorrelation and the magnitude of the corresponding the crosspower spectral density of a pair of indicator functions are input to various classifiers, such as voted perceptrons, radial basis function networks, random trees, and support vector machines for dialog… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
1
1

Citation Types

0
6
0
1

Year Published

2011
2011
2023
2023

Publication Types

Select...
5
2
1

Relationship

0
8

Authors

Journals

citations
Cited by 13 publications
(7 citation statements)
references
References 26 publications
0
6
0
1
Order By: Relevance
“…Observamos que o parâmetro de áudio MFCC demonstrou-se ser superior na coleta de informações do áudio para identificação de cenas de violência doméstica em comparação com os outros parâmetros ZCR e Energia, alcançando uma acurácia média de 73,14%. Além disso, pelo fato de até o momento dessa pesquisa não termos encontrados em nossas nenhum estudo dessa natureza sendo realizado, abordando especificamente cenas de violência doméstica, consideramos que nossa abordagem apresenta bons resultados se comparados com outros trabalhos envolvendo apenas reconhecimento de algum outro tipo de cena acústica, utilizando parâmetros de áudios, e que obtiveram resultados de acurácias não tão distantes dos nossos, como por exemplo em [Kotti et al 2008] com 82%, [Stowell et al 2015] apresentando sistemas com acurácias entre 55% e 77% , [Yang et al 2016] com 79,9%, [Elizalde et al 2016] Para trabalhos futuros, poderemos utilizar uma abordagem de utilização de diferentes classificadores utilizando os parâmetros MFCC e Energia isoladamente e em conjunto para o aprendizado de máquina, pois demonstraram ter melhores resultados do que ZCR, considerando a ampliação do número de amostras de áudios em nossa base de dados, pois acreditamos que essa evolução da base pode ampliar a capacidade de aprendizado de máquina e consequentemente alcançar uma melhor acurácia como resultado.…”
Section: Conclusãounclassified
“…Observamos que o parâmetro de áudio MFCC demonstrou-se ser superior na coleta de informações do áudio para identificação de cenas de violência doméstica em comparação com os outros parâmetros ZCR e Energia, alcançando uma acurácia média de 73,14%. Além disso, pelo fato de até o momento dessa pesquisa não termos encontrados em nossas nenhum estudo dessa natureza sendo realizado, abordando especificamente cenas de violência doméstica, consideramos que nossa abordagem apresenta bons resultados se comparados com outros trabalhos envolvendo apenas reconhecimento de algum outro tipo de cena acústica, utilizando parâmetros de áudios, e que obtiveram resultados de acurácias não tão distantes dos nossos, como por exemplo em [Kotti et al 2008] com 82%, [Stowell et al 2015] apresentando sistemas com acurácias entre 55% e 77% , [Yang et al 2016] com 79,9%, [Elizalde et al 2016] Para trabalhos futuros, poderemos utilizar uma abordagem de utilização de diferentes classificadores utilizando os parâmetros MFCC e Energia isoladamente e em conjunto para o aprendizado de máquina, pois demonstraram ter melhores resultados do que ZCR, considerando a ampliação do número de amostras de áudios em nossa base de dados, pois acreditamos que essa evolução da base pode ampliar a capacidade de aprendizado de máquina e consequentemente alcançar uma melhor acurácia como resultado.…”
Section: Conclusãounclassified
“…Researchers have found that audio may play more important than video for the content analysis of audiovideo sometimes [18], and audio information processing is much faster than video information processing [19]. Hence,audio information is used in film content analysis and understanding more and more in recent years.…”
Section: Introductionmentioning
confidence: 99%
“…In film content analysis and understanding, audio event change detection is the most important step, which is base of movie audio content analysis and understanding. In past, there are some film audio processing reports which focus on the detection people and music, for example, University of Southern California have studied two people dialogue, many people dialogue and mixture events in movies [5], Aristotle University of Thessaloniki used audio detect movie dialogue [19]. Asian Institute of Technology of Thailand classified movies into several kinds by detection music and song in movies.…”
Section: Introductionmentioning
confidence: 99%
“…An important aim of an external mediator is to obtain a good yet general blueprint of a dialog situation by analyzing the ongoing conversational dynamics, intended as the alternating speech behavior exploited by the partners during negotiation [2,4,3]. The ability to carefully capture and classify conversational dynamics could also be employed to enhance the performance of a wide range of applications, such as dialog detection [9], speaker recognition/verification [5], and event detection in meeting scenarios [10], also considering video cues. More consistently, it would improve social signalling applications [1][2][3][11][12][13][14], such as the ones that link conversational dynamics to social roles (e.g., dominance [15], mirroring [3] and others [1]), or those that face interesting and complex challenges such as the ''thin slice'' detection, i.e., the ability of predicting the outcome of a specific conversational exchange in very limited time [13].…”
Section: Introductionmentioning
confidence: 99%