Anais Do XVIII Encontro Nacional De Inteligência Artificial E Computacional (ENIAC 2021) 2021
DOI: 10.5753/eniac.2021.18259
|View full text |Cite
|
Sign up to set email alerts
|

Deep Learning and Mel-spectrograms for Physica Violence Detection in Audio

Abstract: Há um crescente interesse em sistemas de detecção de violência de forma automática por meio do áudio ambiente. Neste trabalho, construímos e avaliamos 4 classificadores com essa proposta. Porém, em vez de processar diretamente os sinais de áudio, nós os convertemos para imagens, conhecidas como mel-spectrograms, e em seguida utilizamos Redes Neurais Convolucionais (CNN) para tratar como um problema de classificação de imagens utilizando-se de redes pre-treinadas neste contexto. Testou-se as arquiteturas Incept… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1

Citation Types

0
0
0
3

Year Published

2023
2023
2024
2024

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(3 citation statements)
references
References 18 publications
0
0
0
3
Order By: Relevance
“…Em 2021, Lacerda et al [10] desenvolveu e avaliou quatro classificadores para a detecc ¸ão automática de violência no áudio ambiente. Em vez de processar diretamente os sinais de áudio, Redes Neurais Convolucionais (CNN) pré-treinadas foram utilizadas para classificar as imagens geradas a partir de mel-espectrogramas convertidos em imagens com a utilizac ¸ão do HEAR Dataset, um conjunto de dados criado especificamente para a pesquisa alcanc ¸ando uma acurácia de 78,9%.…”
Section: A Abordagem Acústica Na Detecc ¸ãO De Violênciaunclassified
See 2 more Smart Citations
“…Em 2021, Lacerda et al [10] desenvolveu e avaliou quatro classificadores para a detecc ¸ão automática de violência no áudio ambiente. Em vez de processar diretamente os sinais de áudio, Redes Neurais Convolucionais (CNN) pré-treinadas foram utilizadas para classificar as imagens geradas a partir de mel-espectrogramas convertidos em imagens com a utilizac ¸ão do HEAR Dataset, um conjunto de dados criado especificamente para a pesquisa alcanc ¸ando uma acurácia de 78,9%.…”
Section: A Abordagem Acústica Na Detecc ¸ãO De Violênciaunclassified
“…1) HEAR Dataset: O HEAR Dataset é um conjunto de dados utilizado para a detecc ¸ão de violência em áudio, utilizado no estudo de Tiago Lacerda et al em 2021 [10]. Esse dataset contém 30 mil exemplos de áudios, com durac ¸ão fixa de dez segundos, que incluem eventos de agressão física, como socos e tapas, acompanhados de áudio de fundo.…”
Section: A Selec ¸ãO E Preparac ¸ãO Dos Dadosunclassified
See 1 more Smart Citation