Mineração em Grandes Massas de Dados Utilizando Hadoop MapReduce e Algoritmos Bio-inspirados: Uma Revisão Sistemática

Menezes, Sandro Loiola; Freitas, Rebeca Schroeder; Parpinelli, Rafael Stubs

doi:10.22456/2175-2745.58022

Cited by 4 publications

(3 citation statements)

References 41 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Uma revisão mais detalhada sobre algoritmos bio-inspirados que utilizam o paradigma MapReduce aplicados em problemas de mineração de dados pode ser encontrada em [14].…”

Section: Trabalhos Relacionadosunclassified

“…Esses algoritmos utilizam abordagens populacionais que processam um conjunto de indivíduos no qual cada indivíduo representa uma possível solução para o problema. Dada esta característica populacional, os indivíduos da população podem ser processados de forma paralela utilizando o paradigma MapReduce no contexto de mineração de dados [14]. Outra característica desses paradigmas bio-inspiradosé o não determinismo aliado com rotinas de intensificação e diversificação da busca.…”

Section: Introductionunclassified

See 1 more Smart Citation

Análise da Qualidade de Diferentes Métricas para Agrupamento de Dados Utilizando Algoritmo Bio-Inspirado e Arquitetura MapReduce

Menezes

Parpinelli

2016

Anais Do Simpósio Brasileiro De Sistemas De Informação (SBSI)

Self Cite

View full text Add to dashboard Cite

RESUMORealizar tarefas de mineração de dados, como agrupamento, pode ser complexo devido alta dimensionalidade e volume dos dados minerados. Esse artigo propõe uma abordagem de agrupamento de dados utilizando Algoritmo Inspirado em Organismos Simbióticos (SOS) projetado na arquitetura MapReduce e analisa a evolução da qualidade dos agrupamentos, usando a medida de pureza, considerando 4 métricas de fitness diferentes. A qualidade dos agrupamentos obtidos por essa abordagem demonstram não apenas ser competitivos com a de outras abordagens como também verificou-se um aumento de desempenho utilizando a arquitetura MapReduce. Além disso, outra contribuição desse artigoé a análise da correlação da pureza do agrupamento com o valor de fitness obtido durante o processo de otimizacão. Percebeu-se que para algumas métricas de fitness existem alguns casos em que a pureza final encontrada no agrupamentoé inferior a pureza encontrada em um momento anterior no processo de otimização. Palavras-ChaveAgrupamento de Dados, Hadoop MapReduce, Algoritmos Bio-Inspirados. ABSTRACTPerforming data mining tasks such as clustering can be very complex due to the high dimensionality and volume of data being mined. This paper proposes an approach for data clustering using the Symbiotic Organisms Search algorithm (SOS) developed in the MapReduce parallel architecture. Also, the cluster quality evolution is analysed using the purity measured considering four different fitness metrics. The cluster qualities obtained by the proposed approach not only shows to be competitive with other approaches but also increased its performance using the MapReduce architecture. Another contribution of this work is to bring to light the correlation between the cluster purity and the fitness value obtained during the optimization process. It was noticed that for some fitness metrics the final purity found by the optimization algorithm is less than the purity found in an earlier stage in the optimization process.

show abstract

“…Uma revisão mais detalhada sobre algoritmos bio-inspirados que utilizam o paradigma MapReduce aplicados em problemas de mineração de dados pode ser encontrada em [14].…”

Section: Trabalhos Relacionadosunclassified

Section: Introductionunclassified

Análise da Qualidade de Diferentes Métricas para Agrupamento de Dados Utilizando Algoritmo Bio-Inspirado e Arquitetura MapReduce

Menezes

Parpinelli

2016

Anais Do Simpósio Brasileiro De Sistemas De Informação (SBSI)

Self Cite

View full text Add to dashboard Cite

show abstract

“…Por exemplo, no contexto de grandes volumes de dados, um processo de mineração pode ocasionar em alto consumo de tempo de processamento (Menezes et al;2016). Outro fator limitante é a dimensionalidade dos dados que in uencia diretamente no desempenho do algoritmo (Katal et al;2013).…”

Section: Introductionunclassified

Análise de diferentes métricas para agrupamento de dados utilizando um algoritmo de busca paralela baseado em organismos simbióticos

Menezes

Boiani

Parpinelli

2018

RBCA

Self Cite

View full text Add to dashboard Cite

ResumoEste artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura. Palavras AbstractThis paper proposes an approach to perform data clustering using the Symbiotic Organisms Search (SOS) algorithm using the Hadoop MapReduce, named MRCSOS. This combination provides an e cient exploration of the search space and the scalability with parallelism provided by the Hadoop. The main contribution of this work is the correlation analysis of purity, entropy and genotypic diversity using di erent metrics of data clustering during the optimization process. The results obtained with three di erent datasets showed that some clustering metrics did not maintain the clustering quality during the optimization process. In these cases the nal data clustering got worst quality than the quality obtained in previous iterations. Among the analyzed metrics, the Silhouette function (F5) was better than others. This function can maintain the best cluster through the whole optimization process. Furthermore, MRCSOS using the function F5 got better results, or at least competitive, when compared with other existing approaches in literature.

show abstract

Mining the Associated Patterns in Big Data Using Hadoop Cluster

Asha

Jacob

Pravin

et al. 2018

International Conference on Intelligent Data Communication Technologies and Internet of Things (ICICI) 2018

View full text Add to dashboard Cite

Mineração em Grandes Massas de Dados Utilizando Hadoop MapReduce e Algoritmos Bio-inspirados: Uma Revisão Sistemática

Cited by 4 publications

References 41 publications

Análise da Qualidade de Diferentes Métricas para Agrupamento de Dados Utilizando Algoritmo Bio-Inspirado e Arquitetura MapReduce

Análise da Qualidade de Diferentes Métricas para Agrupamento de Dados Utilizando Algoritmo Bio-Inspirado e Arquitetura MapReduce

Análise de diferentes métricas para agrupamento de dados utilizando um algoritmo de busca paralela baseado em organismos simbióticos

Mining the Associated Patterns in Big Data Using Hadoop Cluster

Contact Info

Product

Resources

About