Redes neurais convolucionais (CNNs) têm sido amplamente empregadas em problemas de visão computacional, especialmente em aplicações que envolvem imagens convencionais, baseadas em captura pinhole. No entanto, há uma crescente demanda por soluções capazes de lidar com imagens esféricas e a adaptação bem-sucedida de métodos utilizados em imagens planas para imagens omnidirecionais não é uma tarefa direta. Neste trabalho, nosso objetivo é realizar uma análise comparativa entre duas arquiteturas de redes neurais para a classificação multirrótulo aplicada a imagens esféricas. A primeira rede utiliza convoluções convencionais, enquanto a segunda incorpora convoluções esféricas. Ambas foram treinadas em um subconjunto da base de dados Structured3D. Foram feitos dois experimentos com o conjunto de dados: no primeiro experimento consideramos imagens ERP não-rotacionadas e no segundo experimento foram utilizadas imagens ERP rotacionadas, simulando capturas inclinadas. Constatamos que para ambos experimentos a CNN esférica obteve um desempenho mais satisfatório em relação as três métricas analisadas: Hamming Loss (HL), Exact Match Ratio (EMR) e F1-score.