A classificação e separação de documentos é uma etapa de extrema importância na análise de processos judiciais. Algoritmos de aprendizado profundo têm alcançado resultados promissores nesta tarefa, extraindo informações relevantes a partir dos textos destes documentos. No entanto, os documentos de processos judiciais têm se tornado cada vez mais heterogêneos, i.e. fotos, recibos, documentos de texto, etc., impactando diretamente a precisão na classificação. Este trabalho investiga o uso de redes convolucionais multimodais, combinando características extraídas de textos e imagens, para classificação de páginas de processos. Duas abordagens multimodais foram comparadas com quatro monomodais. Todos os algoritmos foram avaliados, em termos em acurácia e kappa, em uma base de dados composta por 117 processos judiciais. Os resultados mostraram que a abordagem que atingiu o melhor desempenho é multimodal, apresentando eficácia e eficiência na classificação de páginas de processos.