A função que uma proteína exerce está diretamente relacionada com a sua estrutura tridimensional. Porém, para a maior parte das proteínas atualmente sequenciadas ainda não se conhece sua forma estrutural nativa. Este artigo propõe a utilização do algoritmo de Evolução Diferencial (DE) desenvolvido na plataforma NVIDIA CUDA aplicado ao modelo 3D AB Off-Lattice para Predição de Estrutura de Proteínas. Uma estratégia de nichos e crowding foi implementada no algoritmo DE combinada com técnicas de autoajuste de parâmetros, rotinas para reinicialização da população, dois níveis de otimização e busca local. Quatro proteínas reais foram utilizadas para experimentação e os resultados obtidos se mostram competitivos com o estado-da-arte. A utilização de paralelismo massivo através da GPU ressalta a aplicabilidade desses recursos a esta classe de problemas atingindo acelerações de 708.78x para a maior cadeia proteica.
ResumoEste artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura.
Palavras
AbstractThis paper proposes an approach to perform data clustering using the Symbiotic Organisms Search (SOS) algorithm using the Hadoop MapReduce, named MRCSOS. This combination provides an e cient exploration of the search space and the scalability with parallelism provided by the Hadoop. The main contribution of this work is the correlation analysis of purity, entropy and genotypic diversity using di erent metrics of data clustering during the optimization process. The results obtained with three di erent datasets showed that some clustering metrics did not maintain the clustering quality during the optimization process. In these cases the nal data clustering got worst quality than the quality obtained in previous iterations. Among the analyzed metrics, the Silhouette function (F5) was better than others. This function can maintain the best cluster through the whole optimization process. Furthermore, MRCSOS using the function F5 got better results, or at least competitive, when compared with other existing approaches in literature.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.