Recebido em 11/12/00; aceito em 4/2/02 VARIABLE SELECTION IN QSAR. The process of building mathematical models in quantitative structure-activity relationship (QSAR) studies is generally limited by the size of the dataset used to select variables from. For huge datasets, the task of selecting a given number of variables that produces the best linear model can be enormous, if not unfeasible. In this case, some methods can be used to separate good parameter combinations from the bad ones. In this paper three methodologies are analyzed: systematic search, genetic algorithm and chemometric methods. These methods have been exposed and discussed through practical examples.Keywords: systematic search; genetic algorithm; chemometric methods.
INTRODUÇÃOAs pesquisas na área de QSAR (Quantitative Structure-Activity Relationships) têm como principal objetivo a construção de modelos matemáticos que relacionem a estrutura química e a atividade biológica de uma série de compostos análogos. Em geral, esses compostos diferem entre si pela presença de um ou mais grupos substituintes em posições definidas da estrutura química comum da série [1][2][3][4] . A construção dos modelos requer a elaboração de conjunto ou matriz de dados contendo a medida quantitativa da atividade biológica e os parâmetros físico-químicos e estruturais capazes de descrever as propriedades dos compostos. Em resumo, o conjunto de dados contém os valores da atividade biológica Y e das m variáveis descritivas X referentes aos n compostos (Quadro 1). O conjunto de dados é a matéria prima para a construção dos modelos matemáti-cos, que em geral são lineares e multidimensionais, representados genericamente pela eq 1.Nessa equação, Y representa os valores previstos da resposta biológica; X 1 , X 2 , …, X k são as propriedades de caráter lipofílico, eletrônico, estéreo e polar 3 ; e b 0 , b 1 , …, b k são coeficientes de ajuste. Segundo o método de Hansch-Fujita 1-4 , esses coeficientes são obtidos através de regressão linear múltipla (RLM) [5][6][7] . A qualidade do ajuste do modelo aos valores observados da atividade biológica pode ser avaliada através do cálculo do coeficiente de correlação (R), do desvio-padrão (s) e do teste de Fischer (F). Em termos simplificados, um modelo bem ajustado deverá apresentar valor de R próximo à unidade, s pequeno e F grande.Deve-se notar que, apesar do conjunto de dados conter um total de m variáveis, apenas um subconjunto k será utilizado na construção de cada modelo. Existe limite para o valor de k, no caso de equações de regressões lineares, para que a mesma tenha solução única 8 . Do ponto de vista matemático, o valor máximo de k é igual a n -1. Assim, um modelo linear que inclui dezesseis compostos (n = 16) pode acomodar no máximo quinze variáveis (k = 15). Porém, à medida que k se aproxima de n ocorre overfitting, que pode ser traduzido como ajuste forçado. O overfitting consiste na obtenção de valor elevado do coeficiente de correlação decorrente do número excessivo de variáveis incluídas no modelo e não de seu ajuste na...