Os algoritmos de aprendizado usando conjuntos de árvores de decisão têm se destacado na classificação de documentos, mas não sem pagar um alto custo computacional. A exploração de paralelismo tem sido uma alternativa para viabilizar o uso destes algoritmos mais sofisticados. Neste trabalho propomos um algoritmo paralelo para acelerar a construção destas árvores de decisão utilizadas num método recente que demonstrou superar os classificadores de última geração para dados textuais. Resultados experimentais, utilizando bases de dados textuais padronizadas, mostram que o algoritmo implementado em uma arquitetura manycore (GPU) é capaz de reduzir o tempo de execução em até 26 vezes em comparação a um algoritmo sequencial equivalente.
A grande quantidade de informação disponível desperta o interesse para o aprendizado de padrões importantes dos dados, que em sua maioria estão em formato de texto e são desestruturados. Desse modo, surgem novos desafios para lidar com esse tipo de dado, como a carga computacional ligada a alta dimensionalidade e ruídos atrelados a natureza dos dados. Assim, no presente trabalho é abordada a paralelização de um algoritmo de aprendizado, uma combinação de bagging de árvores aleatórias com boosting para a classificação automática de texto. O objetivo é acelerar a construção das árvores na GPU.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.