Resumen. Las emociones centradas en el aprendizaje tienen un rol significativo en el proceso pedagógico del estudiante. Por esta razón, es relevante en los ambientes de aprendizaje virtual tomar en consideración no solo los aspectos cognitivos del estudiante si no también los aspectos afectivos. Algunos métodos como el auto reporte, observacional y las imágenes de actividad neuronal, han sido usados extensivamente para medir emociones. Sin embargo, hoy en día otros métodos de análisis de sentimientos y reconocimiento facial usando inteligencia artificial han demostrado ser una mejor alternativa para el reconocimiento automatizado de afecto. Los resultados son superiores cuando se combinan diferentes métodos para combinar el reconocimiento de expresiones faciales, expresiones textuales, aplicadas en ambientes de aprendizaje. Para la implementación de reconocedores, utilizamos nuestro propio corpus para la clasificación que emplea técnicas de aprendizaje profundo. Evaluamos la eficiencia de tres métodos de fusión comparándolas contra métodos unimodales de reconocimiento de emociones. La mejora de uno de los métodos (Representación basada en embebidos) de fusión fue de 4% (precisión de 86.20% y perdida 1.35%). Los resultados son muy prometedores y pensamos que serán mejor con tres o más reconocedores participando en el sistema multimodal.Palabras clave: reconocimiento de emociones, reconocimiento multimodal, método de fusión.Abstract. Learning-centered emotions have a significant role in the pedagogical process of a student. For this reason, it is relevant that virtual learning environments take into account not only the cognitive aspects of the student but also the affective ones. Some approaches such as self-report, observational, and neuroimaging have been used extensively to measure emotions. However, today other methods of artificial intelligence such as the recognition of facial expressions and sentimental analysis have proven to be a better alternative in the automatic recognition of affect, and the results are superior when we combine and integrate several modes of recognition. In this work, we present three different methods to combine the recognition of facial expressions and textual expressions, applied to virtual learning environments. For the implementation of recognizers, we use our own corpora with classifiers that employ deep learning techniques. We evaluate the efficiency of the three fusion methods by comparing them against unimodal methods of emotion recognition. The improvement of one 153