El principal objetivo de esta investigación es desarrollar un sistema integrado de reconocimiento de emociones para robots de servicios en tareas domésticas. Para construir y entrenar el modelo se utilizan la red convolucional densa DenseNet y el conjunto de datos audiovisuales Ryerson sobre lenguaje y canción emocional RAVDESS. El sistema está compuesto por dos lazos de reconocimiento de emociones que estiman el estado desde una perspectiva multimodal. Un primer lazo utiliza el rostro para establecer el estado emocional a partir de las facciones, mientras que el segundo utiliza la voz. Los resultados de las pruebas en laboratorio muestran un alto desempeño del sistema gracias a un modelo que aporta información cuando el otro es incapaz. Dicha interacción permite pensar en la integración de módulos adicionales para incrementar la confiabilidad del robot. En conclusión, la arquitectura en paralelo incrementa considerablemente la capacidad del sistema de reconocimiento de emociones.