Resumo-Neste artigo, propõe-se um sistema de reconhecimento de emoções em sinais de fala usando redes profundas convolucionais com as técnicas de transferência de aprendizado e aumento de base de dados. A transferência de aprendizado foi realizada a partir de uma rede residual (ResNet) de 34 camadas treinada para a base ImageNet. O aumento da base foi realizada alterando-se o pitch e alargando-se no tempo as amostras de sinais de fala das classes de felicidade, tristeza, raiva e neutra da base IEMOCAP (Interactive Emotional Dyadic Motion Capture). O sistema proposto foi capaz de classificar corretamente 81,26% das amostras.Palavras-Chave-Reconhecimento de emoções, Processamento da Fala, Redes Neurais Convolucionais, Transferência de Aprendizado.Abstract-In this article, we propose a system of speech emotion recognition using deep convolutional networks with transfer learning and data augmentation. The transfer learning was performed from a 34-layer residual network (ResNet) trained for the ImageNet database. The data augmentation was performed by altering the pitch and time-stretching the speech signal samples of the IEMOCAP (Interactive Emotional Dyadic Motion Capture) database for the happiness, sadness, anger and neutral classes. The proposed system was able to correctly classify 81.26% of samples.A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante, dado que elaé o meio mais rápido e natural de comunicação. Este adventoé consequente ao grande enfoque dado desde o final dos anos cinquentaà pesquisa relativa ao reconhecimento automático de fala por máquinas, o qual busca converter um discurso humano em uma sequência de palavras [1]. Podemos perceber a evolução dessaárea por meio do aumento da complexidade dos assistentes virtuais dos sistemas operacionais que utilizamos. Entretanto, nenhum desses assistentes consegue se comunicar com tanta naturalidade quanto um ser humano, pois ainda não possui a habilidade de compreender as emoções do falante ou usuário. A busca por essa naturalidade proporcionou a criação de um campo de pesquisa relativamente recente, o reconhecimento de emoções na fala, entendido como a classificação automática do estado emocional do falante através do sinal proveniente de sua fala [1].A maneira convencional de criar um mecanismo capaz de reconhecer a emoção da fala pode ser dividida em quatro principais etapas. Primeiramente, precisamos definir um modelo adequado de representação de emoções [2]. Dois modelos são geralmente encontrados na prática. O primeiro modeloé de classes discretas, como as seis categorias de emoções de Ekman, incluindo raiva, desgosto, medo, felicidade, tristeza e neutra. Já o segundo modelo possui uma abordagem de dimensão de valor contínuo eé formado por dois eixos: o eixo de ativação, caracterizado por uma escala bipolar como calmo/excitado; e o eixo de valência, queé caracterizado por uma escala bipolar como positivo/negativo [4].Uma vez definido o modelo de representação das emoções, e necessário a aquisição de ...