Múltiplas frentes de pesquisa reportaram resultados altamente eficazes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que restringe o uso das mesmas em várias aplicações que dependem de dispositivos com capacidade computacional restrita, como relógios inteligentes e celulares. A localização de texto é um passo importante para várias aplicações importantes que podem ser executadas em ambientes embarcados, como tradução de textos e auxílio a deficientes visuais. Neste trabalho, tratamos deste problema a partir da investigação da possibilidade do uso de redes neurais eficientes usualmente empregadas para detecção de objetos. Propusemos a junção de duas arquiteturas leves, MobilenetV2 e Single Shot Detector (SSD) em nossa proposta nomeada MobText para resolver o problema da detecção de texto. Resultados experimentais nos conjuntos de dados ICDAR'11 e ICDAR'13 demonstram que nossa proposta está associada a bons resultados tanto em termos de eficácia quanto de eficiência. Em especial, o método proposto obteve resultados estado-da-arte no conjunto de dados ICDAR'11, com f-measure de 96, 09%, mantendo um tempo de processamento médio de 464ms em um ambiente de processamento restritivo. Uma outra contribuição do trabalho consistiu na proposta de uma ferramenta para automatizar o processo de avaliação de métodos de detecção e reconhecimento de textos em imagens de cena.