A new computer program called BuildQSAR has been designed to help the QSAR practitioner on the task of building and analyzing quantitative models through regression analysis. The main part of the program is a spreadsheet, in which the user can enter with the data set composed by the structure de®nition of the compounds, one or more types of biological activity values and many physicochemical properties. The program has an external data bank, which includes the values of many known substituent parameters. The common tasks that can be performed by the program are: (a) linear, quadratic and bilinear models; (b) graphics analysis; (c) correlation analysis and; (d) hypothesis testing.BuildQSAR can also: (e) build subsets of the data set that include groups of compounds chosen by the user; (f ) create new variables, derived from the existing ones, and create many types of indicator variables; (g) build data sets directly from the data bank by selecting the substituents and the variables therein; (h) perform variable selection by systematic search and genetic algorithm; (i) perform crossvalidation of speci®c models; ( j) eliminate outliers and analyze the resulting model; and others. The program was coded in Delphi 5 and runs in Windows 95y98y00yNT environments.
Recebido em 7/4/00; aceito em 15/12/00 PROPOSITION, VALIDATION AND ANALYSIS OF QSAR MODELS. The present paper aims to bring under discussion some theoretical and practical aspects about the proposition, validation and analysis of QSAR models based on multiple linear regression. A comprehensive approach for the derivation of extrathermodynamic equations is reviewed. Some examples of QSAR models published in the literature are analyzed and criticized.Keywords: quantitative structure-activity relationships; multiple linear regression; validation of QSAR models. Quim. Nova, Vol. 24, No. 5, 658-671, 2001. Divulgação INTRODUÇÃOEm sua sétima edição do ano de 1973, o Journal of Medicinal Chemistry publicou um artigo de autoria de Unger e Hansch 1 que é considerado por muitos como um marco no desenvolvimento de QSAR, abreviação em inglês para Relações Quantitativas entre Estrutura e Atividade. O artigo tornou-se célebre por estabelecer regras gerais para a elaboração e validação dos modelos matemáticos que correlacionam estrutura química e atividade biológica. A publicação desse artigo foi conseqüência da publicação anterior de dois outros artigos, em que seus autores apresentaram modelos matemáticos distintos para analisar a atividade biológica da mesma série de compostos.Tudo começou com o artigo de Hansch e Lien 2 , em que se analisou a atividade antiadrenérgica de vinte e dois compostos derivados da N,N-dimetil-α-bromo-feniletilamina (1), substituídos nas posições meta e para do anel fenila, cujos valores haviam sido determinados cinco anos antes 3 .desvio-padrão do modelo. Neste ponto cabe um esclarecimento. Optou-se por apresentar as equações citadas em sua forma original. Assim que o formato apropriado de apresentação dos modelos matemáticos de QSAR for mostrado (ver adiante), o leitor poderá comparar as diversas formas de apresentação já utilizadas ao longo do tempo. Em 1972, Cammarata 6 apresentou a eq 2 como alternativa para a representação da atividade dos compostos derivados da estrutura 1. Na eq 2, π m e σ m são as constantes lipofílica e eletrônica dos grupos químicos presentes na posição meta do anel fenila da estrutura 1 (X), r v p é o raio de van der Waals do substituinte na posição para (Y) e os números entre parênteses correspondem aos desvios-padrão dos coeficientes da equação.Os valores numéricos de R e s na eq 2 indicam que o modelo de Cammarata consegue explicar maior quantidade da variabilidade dos valores da atividade biológica do que o modelo representado pela eq 1. No entanto, deve-se levar em consideração que o segundo membro da eq 2 contém uma variável a mais do que a eq 1, o que certamente contribui para sua melhor qualidade.Em 1973, Unger e Hansch 1 reagiram ao modelo proposto por Cammarata, afirmando que o mesmo continha inconsistên-cias relativas às variáveis utilizadas para descrever a atividade biológica e de forma alguma apresentava embasamento bioquí-mico, o que o invalidava. Alguns dos argumentos citados foram: (a) o modelo não atribui efeito hidrofóbico aos substituintes presentes n...
Recebido em 11/12/00; aceito em 4/2/02 VARIABLE SELECTION IN QSAR. The process of building mathematical models in quantitative structure-activity relationship (QSAR) studies is generally limited by the size of the dataset used to select variables from. For huge datasets, the task of selecting a given number of variables that produces the best linear model can be enormous, if not unfeasible. In this case, some methods can be used to separate good parameter combinations from the bad ones. In this paper three methodologies are analyzed: systematic search, genetic algorithm and chemometric methods. These methods have been exposed and discussed through practical examples.Keywords: systematic search; genetic algorithm; chemometric methods. INTRODUÇÃOAs pesquisas na área de QSAR (Quantitative Structure-Activity Relationships) têm como principal objetivo a construção de modelos matemáticos que relacionem a estrutura química e a atividade biológica de uma série de compostos análogos. Em geral, esses compostos diferem entre si pela presença de um ou mais grupos substituintes em posições definidas da estrutura química comum da série [1][2][3][4] . A construção dos modelos requer a elaboração de conjunto ou matriz de dados contendo a medida quantitativa da atividade biológica e os parâmetros físico-químicos e estruturais capazes de descrever as propriedades dos compostos. Em resumo, o conjunto de dados contém os valores da atividade biológica Y e das m variáveis descritivas X referentes aos n compostos (Quadro 1). O conjunto de dados é a matéria prima para a construção dos modelos matemáti-cos, que em geral são lineares e multidimensionais, representados genericamente pela eq 1.Nessa equação, Y representa os valores previstos da resposta biológica; X 1 , X 2 , …, X k são as propriedades de caráter lipofílico, eletrônico, estéreo e polar 3 ; e b 0 , b 1 , …, b k são coeficientes de ajuste. Segundo o método de Hansch-Fujita 1-4 , esses coeficientes são obtidos através de regressão linear múltipla (RLM) [5][6][7] . A qualidade do ajuste do modelo aos valores observados da atividade biológica pode ser avaliada através do cálculo do coeficiente de correlação (R), do desvio-padrão (s) e do teste de Fischer (F). Em termos simplificados, um modelo bem ajustado deverá apresentar valor de R próximo à unidade, s pequeno e F grande.Deve-se notar que, apesar do conjunto de dados conter um total de m variáveis, apenas um subconjunto k será utilizado na construção de cada modelo. Existe limite para o valor de k, no caso de equações de regressões lineares, para que a mesma tenha solução única 8 . Do ponto de vista matemático, o valor máximo de k é igual a n -1. Assim, um modelo linear que inclui dezesseis compostos (n = 16) pode acomodar no máximo quinze variáveis (k = 15). Porém, à medida que k se aproxima de n ocorre overfitting, que pode ser traduzido como ajuste forçado. O overfitting consiste na obtenção de valor elevado do coeficiente de correlação decorrente do número excessivo de variáveis incluídas no modelo e não de seu ajuste na...
The applicability of the neural network computer package PSDD (Perceptron Simulator for Drug Design/Perceptron-type Neural Network Simulator) in structure-activity relationship (SAR) studies was investigated. A group of 1,4-dihydropyridine derivatives was used in order to compare the PSDD results with those obtained previously with PCA. Calculated atomic and molecular descriptors using the semiempirical AM1 method were mainly used. It was shown that the predictive capability demonstrated by PSDD in SAR analysis were almost equivalent to that of PCA.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.