Resumo-Este trabalho apresenta uma avaliação de agentes de aprendizagem profunda, utilizados em problemas de roteamento e alocação espectral em redes ópticas elásticas multibandas. A metodologia implementada avalia o estado da arte, por meio da variação de hiperparâmetros, dos agentes utilizados e da realização de novos treinamentos. Os resultados obtidos mostram que podem ser obtidos ganhos de performance nos agentes utilizados, obtendo-se melhores resultados em termos de probabilidade de bloqueio de chamadas, aproximadamente 9%, e média final de recompensa, aproximadamente 44,58, ambos valores superiores aos encontrados em treinamentos realizados na literatura.