Evaluating Topic Modeling Pre-processing Pipelines for Portuguese Texts

Júnior, Antônio Pereira De Souza; Cecilio, Pablo; Viegas, Felipe; Cunha, Washington; Albergaria, Elisa Tuler de; Rocha, Leonardo Cristian

doi:10.1145/3539637.3557052

Cited by 6 publications

(3 citation statements)

References 20 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Não apresentamos as 24 matrizes de confusão por limitação de espaço e por serem bastante similares. Assim, é importante melhor analisar como os textos estão representados nas diferentes classes de forma que elas tenham uma melhor representatividade dos documentos de licitação, o que está de acordo com o resultado obtido por [Souza Júnior et al 2022].…”

Section: Resultados Experimentaisunclassified

See 1 more Smart Citation

Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações

Brandão,

Silva,

Oliveira

et al. 2023

Anais Do XXXVIII Simpósio Brasileiro De Banco De Dados (SBBD 2023)

View full text Add to dashboard Cite

A classificação de documentos de licitações públicas é uma tarefa relevante para órgãos públicos e privados que buscam informações precisas sobre tais processos. Neste trabalho, investigamos o impacto de diferentes abordagens de pré-processamento e modelos de representação textual por word embeddings na eficácia da classificação de documentos de licitação. Os resultados evidenciam que o pré-processamento não impacta significativamente no resultado da classificação e que a representação textual é um aspecto importante para que as classes de documentos sejam mais representativas.

show abstract

Section: Resultados Experimentaisunclassified

“…O artigo [Souza Júnior et al 2022] avaliou diferentes metodologias de préprocessamento na modelagem de tópicos para o português brasileiro. Foram aplicados três modelos de representação de documentos, incluindo duas novas propostas baseadas no modelo CluWords adaptadas para o português.…”

Section: Trabalhos Relacionadosunclassified

Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações

Brandão,

Silva,

Oliveira

et al. 2023

Anais Do XXXVIII Simpósio Brasileiro De Banco De Dados (SBBD 2023)

View full text Add to dashboard Cite

show abstract

“…CluWords are clusters of semantically related word embeddings [Mikolov et al, 2018] built by employing distance functions 2 . CluWords have been successfully applied in the realm of topic modeling [Júnior et al, 2022] and hierarchical topic modeling scenarios [Viegas et al, 2020b[Viegas et al, , 2019. One of our main contributions to this article is demonstrating how to adapt and extend the Cluwords concept for specific applications through dataset-oriented and task-oriented filtering and weighting mechanisms.…”

Section: Related Workmentioning

confidence: 99%

Pipelining Semantic Expansion and Noise Filtering for Sentiment Analysis of Short Documents – CluSent Method

Viegas,

Canuto,

Cunha

et al. 2024

JIS

Self Cite

View full text Add to dashboard Cite

The challenge of constructing effective sentiment models is exacerbated by a lack of sufficient information, particularly in short texts. Enhancing short texts with semantic relationships becomes crucial for capturing affective nuances and improving model efficacy, albeit with the potential drawback of introducing noise. This article introduces a novel approach, CluSent, designed for customized dataset-oriented sentiment analysis. CluSent capitalizes on the CluWords concept, a proposed powerful representation of semantically related words. To address the issues of information scarcity and noise, CluSent addresses these challenges: (i) leveraging the semantic neighborhood of pre-trained word embedding representations to enrich document representation and (ii) introducing dataset-specific filtering and weighting mechanisms to manage noise. These mechanisms utilize part-of-speech and polarity/intensity information from lexicons. In an extensive experimental evaluation spanning 19 datasets and five state-of-the-art baselines, including modern transformer architectures, CluSent emerged as the superior method in the majority of scenarios (28 out of 38 possibilities), demonstrating noteworthy performance gains of up to 14% over the strongest baselines.

show abstract

Evaluating Contextualized Embeddings for Topic Modeling in Public Bidding Domain

Hott,

Silva,

Oliveira

et al. 2023

Lecture Notes in Computer Science

View full text Add to dashboard Cite

Evaluating Topic Modeling Pre-processing Pipelines for Portuguese Texts

Cited by 6 publications

References 20 publications

Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações

Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações

Pipelining Semantic Expansion and Noise Filtering for Sentiment Analysis of Short Documents – CluSent Method

Evaluating Contextualized Embeddings for Topic Modeling in Public Bidding Domain

Contact Info

Product

Resources

About