Quatro conjuntos de dados de QSAR e QSPR foram selecionados da literatura e os modelos de regressão foram construídos com 75, 56, 50 e 15 amostras no conjunto de treinamento. Estes modelos foram validados por meio de validação cruzada excluindo uma amostra de cada vez, validação cruzada excluindo N amostras de cada vez (LNO), validação externa, randomização do vetor y e validação bootstrap. Os resultados das validações mostraram que o tamanho do conjunto de treinamento é o fator principal para o bom desempenho de um modelo, uma vez que este piora para os conjuntos de dados pequenos. Modelos oriundos de conjuntos de dados muito pequenos não podem ser testados em toda a sua extensão. Além disto, eles podem falhar e apresentar comportamento atípico em alguns dos testes de validação (como, por exemplo, correlações espúrias, falta de robustez na reamostragem e na validação cruzada), mesmo tendo apresentado um bom desempenho na validação cruzada excluindo uma amostra, no ajuste e até na validação externa. Uma maneira simples de determinar o valor crítico de N em LNO foi introduzida, usando o valor limite de 0,1 para oscilações em Q 2 (faixa de variações em único LNO e dois desvios padrões em LNO múltiplo). Foi mostrado que 10 -25 ciclos de randomização de y ou de bootstrapping são suficientes para uma validação típica. O uso do método bootstrap baseado na análise de agrupamentos por métodos hierárquicos fornece resultados mais confiáveis e razoáveis do que aqueles baseados somente na randomização do conjunto de dados completo. A qualidade de dados em termos de significância estatística das relações descritor -y é o segundo fator mais importante para o desempenho do modelo. Uma seleção de variáveis em que as relações insignificantes não foram eliminadas pode conduzir a situações nas quais elas não serão detectadas durante o processo de validação do modelo, especialmente quando o conjunto de dados for grande.Four quantitative structure-activity relationships (QSAR) and quantitative structure-property relationship (QSPR) data sets were selected from the literature and used to build regression models with 75, 56, 50 and 15 training samples. The models were validated by leave-one-out crossvalidation, leave-N-out crossvalidation (LNO), external validation, y-randomization and bootstrapping. Validations have shown that the size of the training sets is the crucial factor in determining model performance, which deteriorates as the data set becomes smaller. Models from very small data sets suffer from the impossibility of being thoroughly validated, failure and atypical behavior in certain validations (chance correlation, lack of robustness to resampling and LNO), regardless of their good performance in leave-one-out crossvalidation, fitting and even in external validation. A simple determination of the critical N in LNO has been introduced by using the limit of 0.1 for oscillations in Q 2 , quantified as the variation range in single LNO and two standard deviations in multiple LNO. It has been demonstrated that it is sufficien...
Neste trabalho, são apresentadas as técnicas usuais de quimiometria em estudos de relações quantitativas estrutura-atividade biológica (QSAR). Elas são introduzidas em ordem cronológica, iniciando pela análise de Hansch, e os métodos de análise exploratória de componentes principais e agrupamento hierárquico (PCA e HCA). Os métodos de regressão que usam a análise de componentes principais como fundamento (PCR e PLS) são apresentados a seguir. São introduzidos também os dois métodos de reconhecimento de padrões usados para classificação (KNN e SIMCA). Diferentes aplicações são usadas para ilustrar os diferentes métodos quimiométricos. É feito então um resumo da metodologia de regressão usada em QSAR-3D. Finalmente é apresentada uma nova metodologia, denominada PLS multilinear, já utilizada em química analítica, mas não explorada ainda pela comunidade de QSAR. Este método de regressão mantém a estrutura de ordem superior dos dados em lugar do desdobramento utilizado em QSAR-3D e apresenta vantagens computacionais, maior estabilidade e simplicidade do modelo, uma vez que o número de parâmetros calculados é bastante reduzido. In this work, the chemometric techniques most frequently used in QSAR (quantitative structureactivity relationships) studies are reviewed. They are introduced in chronological order, beginning with Hansch analysis and the exploratory data analysis methods of principal components and hierarchical clustering (PCA and HCA). Principal component regression and partial least squares regression methods (PCR and PLS) are discussed, followed by the pattern recognition methods (KNN and SIMCA). Different applications are presented to illustrate these chemometric techniques. The methodology used for regression in 3D-QSAR is presented (unfolding PLS). Finally, the higher order method called Multilinear PLS, already used in analytical chemistry but not yet explored by the QSAR community, is introduced. This method maintains the multiway structure of the data and has several advantages over bilinear PLS including speed in calculation, simplicity and stability, since the number of parameters to be estimated can be greatly reduced.
Mathematical models based on chemometric analyses of the coffee beverage sensory data and NIR spectra of 51 Arabica roasted coffee samples were generated aiming to predict the scores of acidity, bitterness, flavour, cleanliness, body and overall quality of coffee beverage. Partial least squares (PLS) were used to construct the models. The ordered predictor selection (OPS) algorithm was applied to select the wavelengths for the regression model of each sensory attribute in order to take only significant regions into account. The regions of the spectrum defined as important for sensory quality were closely related to the NIR spectra of pure caffeine, trigonelline, 5-caffeoylquinic acid, cellulose, coffee lipids, sucrose and casein. The NIR analyses sustained that the relationship between the sensory characteristics of the beverage and the chemical composition of the roasted grain were as listed below: 1 - the lipids and proteins were closely related to the attribute body; 2 - the caffeine and chlorogenic acids were related to bitterness; 3 - the chlorogenic acids were related to acidity and flavour; 4 - the cleanliness and overall quality were related to caffeine, trigonelline, chlorogenic acid, polysaccharides, sucrose and protein.
Recebido em 10/12/04; aceito em 20/5/05; publicado na web em 8/12/05 CHEMOMETRICS II: SPREADSHEETS FOR EXPERIMENTAL DESIGN CALCULATIONS, A TUTORIAL. This work describes, through examples, a simple way to carry out experimental design calculations applying an spreadsheets. The aim of this tutorial is to introduce an alternative to sophisticated commercial programs that normally are too complex in data input and output. An overview of the principal methods is also briefly presented. The spreadsheets are suitable to handle different types of computations such as screening procedures applying factorial design and the optimization procedure based on response surface methodology. Furthermore, the spreadsheets are sufficiently versatile to be adapted to specific experimental designs.Keywords: spreadsheets; experimental design; chemometrics. INTRODUÇÃOAtualmente, com o advento acelerado dos meios computacionais, cálculos muitas vezes simples podem ficar mascarados quando realizados por pacotes computacionais complexos. Os planejamentos fatoriais [1][2][3] , por ex., exigem após sua execução, cálculos simples, mas muitas vezes tediosos devido à grande quantidade de dados a serem processados. A maioria dos estudantes e profissionais aprende a utilizar softwares que realizam tais cálculos, entretanto, em muitos casos, sem o interesse e estímulo necessários para entender como os mesmos são processados.A importância do entendimento dos procedimentos realizados pelos softwares é fundamental para avaliação dos resultados obtidos, bem como para o questionamento da maneira pelo qual tais softwares os realizam.Há no mercado diversos tipos de softwares que realizam cálcu-los de planejamentos experimentais, tais como Statistica 4 , Unscrambler 5 , Statgraphics 6 , Design Expert 7 , Modde 8 , Minitab 9 dentre outros. Entre os programas gratuitos destaca-se o pacote de algoritmos executáveis disponível no web site Chemkeys 10 , sendo este até o momento, o único gratuito em português. Nota-se, portanto, que a maioria destes programas não são gratuitos e muitas vezes processam resultados complicados de serem entendidos por um pesquisador inexperiente. Ao contrário, as planilhas eletrôni-cas, já bastante difundidas e conhecidas, são práticas no sentido da entrada de dados e equações, além de proporcionarem excelente visualização dos resultados, fácil transferência de dados, gráficos e tabelas, sendo ferramentas poderosas para implementar e realizar diferentes tipos de cálculos, como os de planejamentos experimentais. É válido destacar que existem versões gratuitas disponí-veis na web tanto para sistemas operacionais Windows quanto para Linux, como a encontrada no pacote Openoffice 11 . O objetivo deste trabalho foi desenvolver, de maneira simples e didática, planilhas eletrônicas utilizando-se o software Excel ® da Microsoft 12 para realizar cálculos de planejamentos fatoriais e otimização empregando Metodologias de Superfície de Resposta (RSM). Desta maneira, o trabalho descreve, de modo amplo e objetivo, os métodos implementados empre...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.