A correta análise de textos opinativos, incluindo aqueles postados em microblogs e redes sociais, passa pela identificação do tópico comentado pelo autor do texto. A análise dos tópicos pode ser realizada por um conjunto de técnicas para a identificação do que chamamos de 'termos de aspectos'. Neste artigo, mostramos como a identificação de termos de aspectos em microblogs em Português pode ser alcançada por métodos baseados em frequência e pela representação vetorial de palavras (word2vec). Obtivemos uma lista de n-gramas que acreditamos que sejam indicadores adequados dos tópicos comentados. Focamos nosso trabalho em textos sobre Dengue, Chikungunya e Zika, assim como Microcefalia, que atualmente são sérias ameaças à saúde.
Para alcançar esse objetivo realizamos experimentos com conjunto de dados anotado, ou seja, já com os aspectos e sentimentos relacionados marcados em seu texto. Para o processamento, além de técnicas de processamento de língua natural, como a análise gramatical, foram utilizados métodos de análise estatística dos textos e resultados.Palavras-chave: mineração de opinião. identificação de polaridade. identificação de aspectos. análise não supervisionada de texto.
AbstractThis dissertation has as object of study the aspect based sentiment analysis, application derived from sentiment analysis and the area of natural language processing. The aspect based sentiment analysis focuses on analyzing evaluative texts (texts containing opinions) seeking to identify and relate feelings and aspects of a particular entity (products, services among others).The main stages of the development of this work are the identification of aspects, which seeks to identify the characteristics of a certain entity in texts, and sentiment identification that aims to identify the feelings expressed by the author concerned about the mentioned aspects.The purpose of this work is to implement, analyze, improve and create unsupervised methods of aspect based sentiment analysis applying them in portuguese language texts. This exploration will be through the implementation of methods for identifying aspects and sentiments, creation and combination of sentiment lexicons.To achieve this goal we performed experiments with annotated data set, that is, texts with the related aspects and sentiments already marked. For processing, in addition to natural language processing techniques, such as grammatical analysis, methods of statistical analysis of texts and results were used.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.