2018 International Joint Conference on Neural Networks (IJCNN) 2018
DOI: 10.1109/ijcnn.2018.8489355
|View full text |Cite
|
Sign up to set email alerts
|

Evaluating the impact of corpora used to train distributed text representation models for noisy and short texts

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
1

Citation Types

0
1
0
3

Year Published

2019
2019
2022
2022

Publication Types

Select...
3
2
2

Relationship

1
6

Authors

Journals

citations
Cited by 7 publications
(4 citation statements)
references
References 10 publications
0
1
0
3
Order By: Relevance
“…The most classical text representation is bag-of-words. In this distributive representation, a vocabulary is collected in the training corpus and each sample 2 is represented by a vector where each element represents the occurrence or absence (1/0) of vocabulary terms in the document [16].…”
Section: Introductionmentioning
confidence: 99%
“…The most classical text representation is bag-of-words. In this distributive representation, a vocabulary is collected in the training corpus and each sample 2 is represented by a vector where each element represents the occurrence or absence (1/0) of vocabulary terms in the document [16].…”
Section: Introductionmentioning
confidence: 99%
“…Por isso, geralmente são empregados grandes corpos de textos bem escritos e generalistas para treinar os modelos usados na representação textual das amostras, tais como corpos de notícias (e.g., Google News) e enciclopédias (e.g., Wikipedia). Porém, [Lochter et al 2018] recomendam que o corpo de texto usado para treinar o modelo de representação distribuída seja composto por dados com características semelhantesàs amostras da aplicação. Os autores mostraram que em problemas de classificação de textos curtos e ruidosos, os métodos de classificação obtiveram melhor desempenho quando os vetores de atributos foram obtidos por um modelo de representação distribuída treinado com uma base de dados também composta por textos curtos e ruidosos ao invés de textos formais.…”
Section: Introductionunclassified
“…Neste sentido, alguns trabalhos recentes na literatura propõem realizar a combinação dos vetores de atributos gerados por diferentes modelos [Goikoetxea et al 2016, Ghannay et al 2016. Com base nas conclusões reportadas por [Lochter et al 2018],é razoável presumir que, em tarefas de processamento de textos, os próprios documentos da aplicação são aqueles que oferecem a melhor relação sintática e semântica dos dados. Portanto, combinar modelos genéricos de representação com um modelo específico, treinado com os próprios documentos da aplicação, poderá resultar em uma representação generalista e ao mesmo tempo capaz de capturar as particularidades específicas do domínio do problema.…”
Section: Introductionunclassified
“…Portanto, é possível considerar que esses modelos não geram vetores representativos para notícias falsas. Provavelmente, se os modelos de representação distribucional (word embeddings) tivessem sido treinados com documentos com conteúdo ruidoso, os resultados teriam sido melhores, pois alguns estudos recomendam treinar modelos de representação distribuída com um córpus composto por texto com as mesmas características do domínio de aplicação (LOCHTER et al, 2018).…”
Section: Pistas Linguísticas: Experimentos Robustosunclassified