ResumoEste artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura. Palavras AbstractThis paper proposes an approach to perform data clustering using the Symbiotic Organisms Search (SOS) algorithm using the Hadoop MapReduce, named MRCSOS. This combination provides an e cient exploration of the search space and the scalability with parallelism provided by the Hadoop. The main contribution of this work is the correlation analysis of purity, entropy and genotypic diversity using di erent metrics of data clustering during the optimization process. The results obtained with three di erent datasets showed that some clustering metrics did not maintain the clustering quality during the optimization process. In these cases the nal data clustering got worst quality than the quality obtained in previous iterations. Among the analyzed metrics, the Silhouette function (F5) was better than others. This function can maintain the best cluster through the whole optimization process. Furthermore, MRCSOS using the function F5 got better results, or at least competitive, when compared with other existing approaches in literature.
RESUMORealizar tarefas de mineração de dados, como agrupamento, pode ser complexo devido alta dimensionalidade e volume dos dados minerados. Esse artigo propõe uma abordagem de agrupamento de dados utilizando Algoritmo Inspirado em Organismos Simbióticos (SOS) projetado na arquitetura MapReduce e analisa a evolução da qualidade dos agrupamentos, usando a medida de pureza, considerando 4 métricas de fitness diferentes. A qualidade dos agrupamentos obtidos por essa abordagem demonstram não apenas ser competitivos com a de outras abordagens como também verificou-se um aumento de desempenho utilizando a arquitetura MapReduce. Além disso, outra contribuição desse artigoé a análise da correlação da pureza do agrupamento com o valor de fitness obtido durante o processo de otimizacão. Percebeu-se que para algumas métricas de fitness existem alguns casos em que a pureza final encontrada no agrupamentoé inferior a pureza encontrada em um momento anterior no processo de otimização. Palavras-ChaveAgrupamento de Dados, Hadoop MapReduce, Algoritmos Bio-Inspirados. ABSTRACTPerforming data mining tasks such as clustering can be very complex due to the high dimensionality and volume of data being mined. This paper proposes an approach for data clustering using the Symbiotic Organisms Search algorithm (SOS) developed in the MapReduce parallel architecture. Also, the cluster quality evolution is analysed using the purity measured considering four different fitness metrics. The cluster qualities obtained by the proposed approach not only shows to be competitive with other approaches but also increased its performance using the MapReduce architecture. Another contribution of this work is to bring to light the correlation between the cluster purity and the fitness value obtained during the optimization process. It was noticed that for some fitness metrics the final purity found by the optimization algorithm is less than the purity found in an earlier stage in the optimization process.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.