Seventh IEEE International Conference on Data Mining Workshops (ICDMW 2007) 2007
DOI: 10.1109/icdmw.2007.38
|View full text |Cite
|
Sign up to set email alerts
|

Bit Sequences and Biclustering of Text Documents

Abstract: We propose a new technique for clustering of text documents that relies on a biclustering structure constructed on terms and documents. Our approach makes use of a greedy algorithm applied to bit sequences associated with each group of synonym terms. The use of bit sequences allows us to achieve superior time performance. Additionally, our algorithm provides meaningful cluster descriptions.

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1

Citation Types

0
0
0
3

Year Published

2012
2012
2019
2019

Publication Types

Select...
4
2
1

Relationship

0
7

Authors

Journals

citations
Cited by 35 publications
(3 citation statements)
references
References 10 publications
0
0
0
3
Order By: Relevance
“…Encontra-se, entretanto, o uso de resíduo quadrático médio [41,62], índice Davies-Bouldin [63], similaridade média intra e inter grupos [34] e inspeção visual [62]. Para análise do desempenho do algoritmo, encontra-se artigos nos quais os autores destacam análises de tempo de execução [60,64]. Além disso, o uso de índices de validação externa é bastante frequente na área de mineração de textos.…”
Section: Leituras Adicionaisunclassified
See 1 more Smart Citation
“…Encontra-se, entretanto, o uso de resíduo quadrático médio [41,62], índice Davies-Bouldin [63], similaridade média intra e inter grupos [34] e inspeção visual [62]. Para análise do desempenho do algoritmo, encontra-se artigos nos quais os autores destacam análises de tempo de execução [60,64]. Além disso, o uso de índices de validação externa é bastante frequente na área de mineração de textos.…”
Section: Leituras Adicionaisunclassified
“…Nesses casos, conjuntos de dados textuais de referência podem ser usados para facilitar comparações. Os conjuntos de dados usados nos artigos já mencionados nesta seção são: 20-Newsgroups [11,68,7,63,59,34,60,57,67,55,56,65,41], Reuters [9,68,34,60,57,67,69,33,64], CLASSIC3 [9,59,7,63,60,67], CLUTO toolkit [9,59,34,66,60,55], CSTR [9,59,34,65,33], WebACE [65,11,59,34,60], CLASSIC4 [65,56,9,59,55], MovieLens …”
Section: Leituras Adicionaisunclassified
“…A subseção 2.5.2 introduz o conceito de biclusterização -biclustering ou coclustering (MADEIRA; OLIVEIRA, 2004;CHO, 2008), que se refere a uma classe distinta de algoritmos de agrupamento que executam simultaneamente o agrupamento de linhas e colunas. Algoritmos de biclusterização têm sido utilizados em vários domínios (MADEIRA;OLIVEIRA, 2004;FRANÇA, 2010;MIMAROGLU;UEHARA, 2007;SYMEONIDIS et al, 2008). No contexto de sistemas de recomendação, tais algoritmos são empregados para simultaneamente agrupar usuários e itens que possuam características similares.…”
Section: Recomendações On-lineunclassified