O atual modelo de avaliação perceptivo-auditiva da voz está alicerçado em escalas analógicas visuais e buscam melhorias contínuas sob inúmeros aspectos, com destaque para a prescrição de uma boa avaliação referente a qualidade vocal, bem como o seu diagnóstico e monitoramento de tratamentos. Refletindo-se sobre as eventualidades que degradam os aspectos, constata-se a não padronização dos protocolos avaliativos comumente utilizados. Assim sendo, os objetivos principais deste artigo consistiram em desenvolver ferramentas computacionais dedicadas à estimação do parâmetro subjetivo, grau geral do desvio vocal. Mais especificamente, desenvolveu-se a técnica de fragmentação dos arquivos de áudios, a decomposição downsample desses dados para o nível seis dos coeficientes de energia da transformada wavelet packet referentes a seis filtros wavelets distintos, sendo eles: daubechies, symlets, coiflets, fejer-korovkin, biorthogonal e reverse biorthogonal, propondo uma metodologia automatizada para implementação das redes neurais perceptron multicamadas com a finalidade de integrar as variáveis advindas de tal decomposição. Resultados com amostras vocais reais são apresentados para demonstrar a eficiência das técnicas desenvolvidas, expondo taxas de acertos maiores que 98.7% para o método elaborado.