Neste artigo explora-se o uso de visão computacional e aprendizado de máquina no desenvolvimento de um algoritmo assistivo para pessoas com deficiência visual. Apesar dos progressos recentes em tecnologias assistivas, a literatura revela lacunas significativas na integração de detecção de objetos e estimativa de profundidade em tempo real. A metodologia empregada neste estudo utiliza dois modelos pré-treinados: um para detecção de objetos (YOLO) e outro para estimativa de profundidade (MiDaS). O algoritmo desenvolvido é capaz de processar imagens monoculares e de fornecer informações sobre as relações espaciais entre os objetos detectados, além de integrar a saída de texto a alertas sonoros. A avaliação de desempenho aborda a eficiência da combinação dessas arquiteturas em ambientes que operam tanto em CPU quanto em GPU, demonstrando o potencial desta abordagem para melhorar a qualidade de vida de indivíduos com deficiência visual.