DOI: 10.11606/d.55.2017.tde-10112017-170919
|View full text |Cite
|
Sign up to set email alerts
|

Normalização textual de conteúdo gerado por usuário

Abstract: User Generated Content (UGC) is the name given to content created spontaneously by ordinary individuals, without connections to the media. This type of content carries valuable information and can be exploited by several areas of knowledge. Much of the UGC is provided in the form of texts -product reviews, comments on forums about movies, and discussions on social networks are examples. However, the language used in UGC texts differs, in many ways, from the cultured norm of the language, making it difficult fo… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
3
0
3

Publication Types

Select...
3
2

Relationship

0
5

Authors

Journals

citations
Cited by 5 publications
(6 citation statements)
references
References 30 publications
0
3
0
3
Order By: Relevance
“…Sobre os tweets e gêneros similares, Bertaglia (2017), por exemplo, visando à construção de ferramentas de normalização para UGC, investigou um corpus em português composto por tweets, postagens de um fórum de discussão e análises de produtos. O autor identificou 3.699 palavras distintas que não constavam em um dicionário de referência e anotou essas palavras em função de 8 categorias de desvios da língua padrão: (i) erro ortográfico (e de digitação), (ii) acrônimo, (iii) abreviação, (iv) internetês, (v) estrangeirismo, (vi) unidade de medida, (viii) nome próprio, e (vii) sem categoria (isto é, tokens cuja classificação não é clara ou varia conforme o contexto).…”
Section: Trabalhos Relacionadosunclassified
“…Sobre os tweets e gêneros similares, Bertaglia (2017), por exemplo, visando à construção de ferramentas de normalização para UGC, investigou um corpus em português composto por tweets, postagens de um fórum de discussão e análises de produtos. O autor identificou 3.699 palavras distintas que não constavam em um dicionário de referência e anotou essas palavras em função de 8 categorias de desvios da língua padrão: (i) erro ortográfico (e de digitação), (ii) acrônimo, (iii) abreviação, (iv) internetês, (v) estrangeirismo, (vi) unidade de medida, (viii) nome próprio, e (vii) sem categoria (isto é, tokens cuja classificação não é clara ou varia conforme o contexto).…”
Section: Trabalhos Relacionadosunclassified
“…É preciso enfatizar que os danos causados por tais tecnologias variam em escala e natureza. Por um lado, ao naturalizar uma variante privilegiada enquanto norma padrão [1], tais tecnologias cometem violência simbólica ao classificarem variantes como "erradas" ou que "precisam passar por normalização" [4]. Por outro lado, podem também produzir violência material ao mascarar processos de tomada de decisão inerentemente injustos sob uma ilusão de objetividade técnica.…”
Section: Qual Política Está Embutida Em Um Til?unclassified
“…Reviews' texts are sources of large amounts of noise, mainly due to their informal nature. Thus, it is natural to consider normalization to improve the quality of reviews' texts (Bertaglia, 2017).…”
Section: Step 2-normalizationmentioning
confidence: 99%