Deixo meus agradecimentos à Fundação CPqD, em especial aos pesquisadores Flávio Olmos Simões e Mário Uliani Neto, pelas preciosas contribuições ao trabalho.Agradeço ao apoio dos colegas das empresas em que trabalhei durante a realização desta pesquisa, Icaro Tech e Nubank.Aos amigos que me acompanharam ao longo desse período, Felipe, Thiago, Guilherme, Arthur e William, que me mostrou o valor da garra quando o cenário é adverso.Agradeço especialmente à minha orientadora, Profa. Dra. Paula Dornhofer Paro Costa, pela imensa dedicação e paciência, sem as quais este trabalho não seria possível. Seu exemplo me inspira a continuar trilhando a carreira acadêmica, mesmo nos tempos atuais, em que a Ciência não tem recebido o prestígio que merece.
ResumoAgentes conversacionais virtuais, ou talking heads, são representações em vídeo da face de um agente virtual, que simulam a fala de um interlocutor humano. São uma poderosa ferramenta de interface computacional, com potencial para tornar interações mais naturais e atraentes. Nesse contexto, o campo de Síntese de Animação Facial lida com a geração automática de vídeos de um agente virtual, a partir de um texto arbitrário ou de áudio produzido previamente. Em sistemas de síntese de animação baseados em texto, o desafio técnico pode ser separado em duas etapas: geração de trajetórias de articulação labial e demais movimentações faciais a partir de uma sequência de fonemas, e conversão dessas trajetórias em sequências de imagens finais. Este trabalho foca na primeira etapa. Um sistema, baseado em modelos ocultos de Markov, capaz de gerar trajetórias de movimentações a partir de textos arbitrários é descrito e avaliado. A implementação é realizada para o Português do Brasil e a modelagem leva em consideração a expressividade do agente, sendo capaz de gerar trajetórias para diferentes emoções. A abordagem de modelagem de variancia do sinal é utilizada pra reduzir o efeito de sobreamortecimento.