ResumoEste artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura.
Palavras
AbstractThis paper proposes an approach to perform data clustering using the Symbiotic Organisms Search (SOS) algorithm using the Hadoop MapReduce, named MRCSOS. This combination provides an e cient exploration of the search space and the scalability with parallelism provided by the Hadoop. The main contribution of this work is the correlation analysis of purity, entropy and genotypic diversity using di erent metrics of data clustering during the optimization process. The results obtained with three di erent datasets showed that some clustering metrics did not maintain the clustering quality during the optimization process. In these cases the nal data clustering got worst quality than the quality obtained in previous iterations. Among the analyzed metrics, the Silhouette function (F5) was better than others. This function can maintain the best cluster through the whole optimization process. Furthermore, MRCSOS using the function F5 got better results, or at least competitive, when compared with other existing approaches in literature.