A soja é uma importante oleaginosa em todo o mundo e apresenta sensibilidade ao deficit hídrico, especialmente na fase inicial de desenvolvimento. Por isso, avaliar diferentes estratégias buscando selecionar cultivares de soja no início do desenvolvimento é extremamente necessário. Nesse sentido, são objetivos deste estudo: i) selecionar cultivares de soja tolerantes ao deficit hídrico utilizando os índices de seleção FAI-BLUP (Factor analysis and ideotype- design - Best Linear Unbiased Prediction) e o MGIDI (multi-trait genotype–ideotype distance index), além de indicar cultivares tolerantes ao deficit hídrico na fase inicial de desenvolvimento; ii) predizer o conteúdo de água nas folhas de soja e classificá-las quanto a condição hídrica, por meio de dados de espectroscopia NIR (near infrared) e diferentes modelos de machine learning. Dois experimentos foram avaliados envolvendo duas formas de imposição de estresse por deficit hídrico (em solo e em areia) em dois estádios diferentes (germinação e V1) e repetidos por duas épocas. Os experimentos envolveram 100 cultivares de soja, as quais foram submetidas a duas condições de disponibilidade hídrica (condição controle e condição estresse). Em ambos os experimentos, o estresse permaneceu por 20 dias. Os índices de seleção FAI-BLUP e MGIDI possibilitaram a seleção de 15 cultivares de soja. Foram selecionadas 12 cultivares comuns aos dois índices. As cultivares M 9144 RR, BMX TITAN RR foram as que mais se aproximaram do ideótipo. Em relação aos modelos de machine learning, todos os quatro modelos utilizados apresentaram boas performances ao realizar as tarefas de classificação e regressão. Os modelos PLS (Partial Least Squares) e SVM (Support Vector Machine) apresentaram os melhores resultados para classificar folhas de soja quanto à condição hídrica. Já para a tarefa de regressão, os modelos PLS e PCR (principal component regression) apresentaram os melhores desempenhos. Palavras-chave: Índices de seleção. Machine learning. Espectroscopia NIR. Seca.