This paper proposes multi-objective genetic algorithm for the problem of variable selection in multivariate calibration. We consider the problem related to the classification of biodiesel samples to detect adulteration, Linear Discriminant Analysis classifier. The goal of the multi--objective algorithm is to reduce the dimensionality of the original set of variables; thus, the classification model can be less sensitive, providing a better generalization capacity. In particular, in this paper we adopted a version of the Non-dominated Sorting Genetic Algorithm (NSGA-II) and compare it to a mono-objective Genetic Algorithm (GA) in terms of sensitivity in the presence of noise. Results show that the mono-objective selects 20 variables on average and presents an error rate of 14%. One the other hand, the multi-objective selects 7 variables and has an error rate of 11%. Consequently, we show that the multi-objective formulation provides classification models with lower sensitivity to the instrumental noise when compared to the mono-objetive formulation.
Resumo-Este trabalho tem por objetivo propor uma formulação multiobjetivo utilizando algoritmos genéticos para o problema de seleção de variáveis em calibração multivariada. Apresenta-se um problema envolvendo a classificação de amostras de biodiesel para detecção de adulteração por meio de um classificador denominado análise discriminante linear. O papel do algoritmo genético multiobjetivo consiste em reduzir a dimensionalidade do conjunto original de variáveis de modo a proporcionar um modelo de classificação mais robusto e consequentemente de melhor capacidade de generalização. Em particular o trabalho faz uma implementação da versão de elitismo rápido do algoritmo genético de ordenação por não dominância (NSGA-II).É feita uma comparação entre uma implementação monoobjetivo e multiobjetivo com relação ao modelo e robustez em relaçãoà presença de ruído. Os resultados mostram que em média o algoritmo genético monoobjetivo seleciona 20 variáveis e tem uma taxa de erro de 14% e o multiobjetivo seleciona 7 variáveis e tem uma taxa de erro de 11%. Foi possível demonstrar que a formulação multiobjetivo proporciona modelos de classificação com menor sensibilidade a ruído instrumental quando comparada a formulação monoobjetivo.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.