RESUMO:A ferrugem asiática é a mais importante doença da soja no Brasil. Apesar de sua epidemiologia ser conhecida, são escassos os estudos sobre os fatores que desencadeiam a doença com base em dados de campo. Este trabalho objetivou modelar a influência de variáveis meteorológicas a partir de um conjunto extenso de dados de ocorrência da ferrugem, por meio da técnica de indução de árvores de decisão. Os modelos foram desenvolvidos com dados de data de ocorrência da doença em quatro safras (2007/08 a 2010/11) e variáveis de temperatura e chuva em diferentes janelas de tempo prévias à data de detecção. Para cada registro de ocorrência, foi gerado um correspondente de "não ocorrência" como sendo o trigésimo dia anterior ao dia da detecção, assumindo-se a presença de inóculo, mas condições meteorológicas desfavoráveis à doença. O conjunto de treinamento para a modelagem foi composto de 45 variáveis de chuva e temperatura e 12.591 registros. O modelo preditivo escolhido resultou em uma árvore de decisão com, aproximadamente, 78% de taxa de acerto e 108 regras, determinadas por validação cruzada. O modelo interpretado, com 28 regras, considerou variáveis de temperatura como mais importantes, sendo que temperaturas abaixo de 15 °C e acima de 30 °C foram relacionadas com eventos de não ocorrência, enquanto temperaturas dentro da faixa favorável foram associadas com eventos de ocorrência, mostrando coerência com a literatura.
PALAVRAS-CHAVE:Phakopsora pachyrhizi, mineração de dados, previsão de doenças de plantas, epidemiologia, sistemas de suporte à decisão.
DECISION TREE FOR CLASSIFICATION OF SOYBEAN RUST OCCURENCE IN COMMERCIAL CROPS BASED ON WEATHER VARIABLESABSTRACT: Soybean rust is the most aggressive soybean disease in Brazil. Despite its epidemiology is known, there are few studies about factors that cause it based on field data. This paper aimed to report influence of weather variables on rust occurrence using the decision tree technique. The models were developed based on disease detection dataset during harvests (2007/08 to 2010/11), temperature and rainfall variables at varied time windows prior to disease detection. For each disease "occurrence" record, a corresponding "non-occurrence" was generated based on the assumption that disease was not present at the thirtieth day prior to the report date, due to unfavorable weather conditions. The training set for modeling consisted of 45 rainfall and temperature variables and 12,591 records. The chosen predictive model resulted in a decision tree with approximately 78% of accuracy and 108 rules, determined by cross-validation. The interpreted model, with 28 rules, considered the temperature variables as more important, of which temperatures below 15 °C and above 30 °C were related to events of non-occurrence, while temperatures within the favorable range have been associated with events of occurrence, showing consistency with the literature.