O presente trabalho aborda a necessidade urgente de desenvolver tecnologias que visem reduzir a incidencia de eventos violentos em nossa sociedade, particularmente no contexto brasileiro, onde populações marginalizadas como jovens negros enfrentam temores constantes de violencia letal. Nesse contexto, a abordagem acústica surge como uma vertente promissora devido as suas vantagens intrínsecas, como a capacidade de detecção automatizada e a não oclusão do ambiente. Este trabalho tem como objetivo principal contribuir para o problema da identificação de cenários de violência treinando um modelo de aprendizado de máquina capaz de identificar e classificar cenários tais como gritos, violencia física e disparos de armas de fogo. Foram testadas arquiteturas de redes neurais convolucionais, em particular as redes ResNet152 e MobileNet. Os resultados demonstram que ambos os modelos alcançaram precisões similares na tarefa de multi-classificação, com precis oes de 84,9% e 84,1%, respectivamente. Esses achados destacam a viabilidade e eficacia da abordagem proposta, mostrando o potencial das redes neurais convolucionais na classificação de cenários violentos utilizando apenas o audio.