Estimativas automáticas do tom de pele enfrentam desafios devido a vieses raciais e de gênero em abordagens de aprendizado de máquina. Neste trabalho, exploramos um conjunto de dados rotulado e avaliamos duas abordagens computacionais amplamente exploradas na literatura, ITA e CASCo, a fim de investigar a robustez e limitações nessa tarefa. Nossos resultados mostram que essas abordagens ainda apresentam falhas significativas, comprometendo sua aplicação em contextos reais onde a precisão é essencial.