Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, BrasilMachine learning for predictive analyses in health: an example of an application to predict death in the elderly in São Paulo, BrazilMachine learning para análisis predictivos en salud: ejemplo de aplicación para la predicción de óbitos en ancianos de São Paulo, Brasil Cad. Saúde Pública 2019; 35 (7):e00050818 QUESTÕES METODOLÓGICAS METHODOLOGICAL ISSUES Este é um artigo publicado em acesso aberto (Open Access) sob a licença Creative Commons Attribution, que permite uso, distribuição e reprodução em qualquer meio, sem restrições, desde que o trabalho original seja corretamente citado. Santos HG et al. 2 Cad. Saúde Pública 2019; 35(7):e00050818Introdução A análise preditiva consiste na aplicação de algoritmos para compreender a estrutura dos dados existentes e gerar regras de predição. Esses algoritmos podem ser utilizados em um cenário não supervisionado, em que apenas preditores (covariáveis) estão disponíveis no conjunto de dados, ou em problemas supervisionados, quando, além dos preditores, está disponível também uma resposta de interesse, responsável por guiar a análise 1 . Na área da saúde, modelos preditivos podem ser utilizados para estimar o risco de determinado desfecho ocorrer, dado um conjunto de características socioeconômicas, demográficas, relacionadas ao hábito de vida e às condições de saúde, entre outras. Seus resultados, quando combinados a medidas de saúde pública aplicadas em nível populacional, podem trazer implicações positivas na redução de custos e na efetividade de intervenções, como tratamentos e ações preventivas. Adicionalmente, conhecer o risco de um desfecho ocorrer pode auxiliar gestores responsáveis por formular e avaliar políticas públicas a direcionar intervenções preventivas, considerando a ponderação entre danos e benefícios 2,3 . Historicamente, alguns modelos têm sido desenvolvidos para tentar predizer a ocorrência de desfechos de interesse para a saúde da população. Pesquisadores do Framingham Heart Study desenvolveram funções de risco para doença cardiovascular 4,5 que motivaram políticas públicas para o estabelecimento de medidas preventivas direcionadas a indivíduos com maior risco 6 . Da mesma forma, modelos preditivos de diagnóstico e prognóstico de câncer de mama também têm sido relatados na literatura como ferramenta auxiliar na identificação de indivíduos com maior risco, para os quais, estratégias de rastreamento e tratamento profilático representam intervenções com potencial impacto benéfico no prognóstico da doença 7 .Esses modelos, em geral, são derivados do ajuste de modelos lineares, considerados algoritmos mais simples de machine learning, como o de regressão logística, para desfechos categóricos, e o de regressão linear, para desfechos contínuos. Na última década, novas abordagens têm sido desenvolvidas para acomodar relações não lineares, solucionar problemas de colinearidade e de alta dimensionalidade dos dados, entre outras particulari...