This work is dedicated to my parents, my sister and my brother, who have always trusted me, giving me the opportunity to continue fulfilling my dreams. Thank you for your daily emotional support, and for always making me feel so close. To my co-supervisor Felipe, who motivates me to be a better researcher. Thank you for placing your trust and confidence in my abilities. To my dear Levi, thank you for your supporting love.
ResumoO sistema auditivo humano tem a capacidade de extrair significado do som, ajudando-nos a identificar e localizar sons em um ambiente acústico. O desenvolvimento de métodos computacionais inspirados nas capacidades e comportamentos humanos estabeleceu oportunidades para melhorar a escuta de máquinas. Estudos recentes baseados em aprendizado profundo mostram que o uso de redes neurais convolucionais e recorrentes é uma abordagem promissora para a tarefa de detecção e localização de eventos sonoros (SELD). Mas, dependendo do ambiente sonoro, o desempenho dos sistemas ainda está longe de atingir métricas satisfatórias, apesar de já ter superado o desempenho humano para algumas tarefas. Portanto, este projeto pretende aumentar o desempenho dos sistemas SELD estudados, melhorando diferentes etapas do processo. É proposto o uso de filtros auditivos Gammatone para a extração de características acústicas, e contempla-se a implementação de um bloco de convoluções temporais numa arquitetura de rede convolucional recorrente. O sistema suportará a detecção e localização de até três eventos sonoros que podem ser da mesma classe ou não. Além disso, devido à quantidade limitada de amostras de áudio contidas nos conjuntos de dados, também exploramos o uso de técnicas adequadas de aumento de dados. O sistema é avaliado em bases de dados que representam ambientes com diferentes níveis de dificuldade. Os resultados do trabalho mostram que os filtros Gammatone são uma ótima alternativa para modificar a resolução linear de frequência do espectrograma, pois modelam a distribuição da tonotopia produzida na cóclea. Em relação à arquitetura da rede, o bloco de convoluções temporais captura dependências de longo prazo dos dados, gerando uma extração de características mais profunda e que produz um número maior de parâmetros treináveis, sem aumentar muito a complexidade da arquitetura do sistema. Por fim, dentre as técnicas de aumento de dados avaliadas, as que mostraram os melhores resultados foram mascaramento de frequência, magnitude aleatória e troca dos canais Ambisônicos. A avaliação do sistema proposto superou todas as métricas do estado da arte obtidas nas quatro bases de dados utilizadas, mantendo um desempenho aceitável em ambientes reverberantes e com múltiplas fontes sonoras, e um desempenho quase perfeito em um ambiente anecoico.Palavras-chave: detecção e localização de eventos sonoros, filtros Gammatone, redes neurais temporais convolucionais, técnicas de aumento de dados.