ResumoO uso de modelos de transferência de aprendizado em problemas de processamento de linguagem natural tornou-se uma prática padrão na academia e na indústria. Isso permite ajustar modelos pré-treinados em um conjunto de dados menor, obtendo maior generalização do que abordagens sem pré-treinamento. No entanto, quando a distribuição entre a tarefa pré-treinamento e a tarefa-alvo varia significativamente, por exemplo, ao considerar ambientes informais e gramática especializada, esses ganhos tendem a ser diminuídos. Nesse contexto, uma quantidade maior de dados na tarefa de destino torna-se necessária. A obtenção de dados supervisionados é complexa e cara. Para algumas aplicações, tornase inviável a operacionalização. Por isso, várias pequenas empresas se limitam a usar essa tecnologia no dia a dia.Esta dissertação de mestrado propõe uma nova abordagem para a aprendizagem por transferência curricular na qual tarefas intermediárias são criadas em uma sequência de etapas de treinamento. Nossa abordagem é guiada pelo "data hacking" que permite uma adaptação mais gradual entre o pré-treinamento e as distribuições alvo. Isso tem o potencial de reduzir significativamente os custos de geração de dados anotados. Nossa contribuição revela que a inserção de tarefas intermediárias no treinamento fim-a-fim de Sistemas de Diálogo Orientados a Tarefas permite uma melhor otimização do modelo final. Como consequência, uma avaliação de alto nível deste agente. Para avaliar essa metodologia, recorremos a dados bem estabelecidos na academia e projetamos um conjunto de dados para experimentação. Nesta metodologia, observamos uma melhora significativa em comparação com outras abordagens de pré-treinamento conhecidas.