A aplicação de técnicas quimiométricas sofisticadas a grandes conjuntos de dados tem se tornado possível devido aos contínuos aprimoramentos tecnológicos em computadores comerciais. Recentemente, tais aprimoramentos têm sido obtidos principalmente através da introdução de processadores com múltiplos núcleos. Contudo, o uso eficiente de hardware com múltiplos núcleos requer o desenvolvimento de software apropriado para computação paralela. Este artigo trata da implementação de paralelismo empregando o Matlab Parallel Computing Toolbox, que requer somente pequenas modificações em códigos quimiométricos já existentes de modo a explorar os benefícios do processamento em múltiplos núcleos. Empregando essa ferramenta de software, mostra-se que implementações paralelas podem proporcionar expressivos ganhos computacionais. Em particular, considera-se o problema de seleção de variáveis empregando o algoritmo das projeções sucessivas e o algoritmo genético, bem como o uso de validação cruzada em mínimos quadrados parciais. Para ilustração, duas aplicações analíticas são apresentadas: determinação de proteína em trigo por espectrometria de reflectância no infravermelho próximo e classificação de óleos vegetais comestíveis por voltametria de onda quadrada. Empregando as implementações propostas para computação paralela, ganhos computacionais de até 204% foram obtidos.The application of sophisticated chemometrics techniques to large datasets has been made possible by continuing technological improvements in off-the-shelf computers. Recently, such improvements have been mainly achieved by the introduction of multi-core processors. However, the efficient use of multi-core hardware requires the development of software that properly address parallel computing. This paper is concerned with the implementation of parallelism using the Matlab Parallel Computing Toolbox, which requires only simple modifications to existing chemometrics code in order to exploit the benefits of multi-core processing. By using this software tool, it is shown that parallel implementations may provide substantial computational gains. In particular, the present study considers the problem of variable selection employing the successive projections algorithm and the genetic algorithm, as well as the use of cross-validation in partial least squares. For demonstration, two analytical applications are presented: determination of protein in wheat by near-infrared reflectance spectrometry and classification of edible vegetable oils by square-wave voltammetry. By using the proposed parallel computing implementations, computational gains of up to 204% were obtained.Keywords: parallel computation, successive projections algorithm, genetic algorithm, partial least squares, voltammetric analysis, near-infrared spectrometric analysis Soares et al. 1627 Vol. 21, No. 9, 2010
IntroductionModern techniques and instrumentation provide ever-growing amounts of data (in terms of variables and samples) that need to be processed for analytical purposes. Hyphenated methods 1 ...