Técnicas de aprendizado profundo têm se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemasde reconhecimento de voz. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente em idiomas que apresentam poucos dados abertos disponíveis, como o Português Brasileiro. Considerando essa limitação, o Wav2vec 2.0, uma arquitetura que dispensa a necessidade de uma grande quantidade de áudios rotulados, pode ser uma alternativa interessante. Nesse sentido, este trabalho apresenta como objetivo avaliar o desenvolvimento de um reconhecedor de voz utilizando poucos dados disponíveis gratuitamente a partir do ajuste do modelo Wav2vec 2.0 pré-treinado em muitas línguas. Este trabalho mostra que é possível construir um sistema de reconhecimento de voz utilizando apenas 1h de fala transcrita para o Português Brasileiro. O modelo ajustado apresenta um WER de somente 34% contra o dataset da Common Voice.