2011
DOI: 10.54886/scire.v17i1.3895
|View full text |Cite
|
Sign up to set email alerts
|

Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

Abstract: La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los duplicados que encontramos en el mundo real no son exactamente iguales, por cambios en el formato, las cabeceras, las etique… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...

Citation Types

0
0
0

Publication Types

Select...

Relationship

0
0

Authors

Journals

citations
Cited by 0 publications
references
References 5 publications
0
0
0
Order By: Relevance

No citations

Set email alert for when this publication receives citations?