2020
DOI: 10.1108/jd-06-2020-0092
|View full text |Cite
|
Sign up to set email alerts
|

Automatic classification of older electronic texts into the Universal Decimal Classification–UDC

Abstract: PurposeThe purpose of this study is to develop a model for automated classification of old digitised texts to the Universal Decimal Classification (UDC), using machine-learning methods.Design/methodology/approachThe general research approach is inherent to design science research, in which the problem of UDC assignment of the old, digitised texts is addressed by developing a machine-learning classification model. A corpus of 70,000 scholarly texts, fully bibliographically processed by librarians, was used to t… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
2
0
2

Year Published

2022
2022
2025
2025

Publication Types

Select...
6
2
1

Relationship

0
9

Authors

Journals

citations
Cited by 10 publications
(4 citation statements)
references
References 45 publications
0
2
0
2
Order By: Relevance
“…Dentro de la bibliotecología y ciencias de la información, algunos de los trabajos más destacados son los siguientes: Contreras (2016) presentó un clasificador automático para documentos, basado en el área Z del Sistema de Clasificación de la Biblioteca del Congreso (L.C), teniendo resultados favorables en la clasificación del material bibliográfico. Kragelj, Matjaž, y Mirjana (2021) desarrollaron un modelo de clasificación automática de documentos antiguos, basado en el Sistema de Clasificación Decimal Universal (UDC). Como parte final, en el trabajo de Cassidy (2020) se utilizó el modelo Naïve Bayes para la clasificación de patentes, considerando códigos especializados para estos recursos.…”
Section: Discussionunclassified
“…Dentro de la bibliotecología y ciencias de la información, algunos de los trabajos más destacados son los siguientes: Contreras (2016) presentó un clasificador automático para documentos, basado en el área Z del Sistema de Clasificación de la Biblioteca del Congreso (L.C), teniendo resultados favorables en la clasificación del material bibliográfico. Kragelj, Matjaž, y Mirjana (2021) desarrollaron un modelo de clasificación automática de documentos antiguos, basado en el Sistema de Clasificación Decimal Universal (UDC). Como parte final, en el trabajo de Cassidy (2020) se utilizó el modelo Naïve Bayes para la clasificación de patentes, considerando códigos especializados para estos recursos.…”
Section: Discussionunclassified
“…In the preprocessing process, it mainly involves the word frequency extraction, feature selection and other issues. Among them, the most basic and most important is to extract the most effective information and facilitate the research of using machine learning algorithms to obtain key data sets for recognition, and then whether the text classification task can be realized and how to accurately distinguish text and field become a difficulty [7][8]. However, at present, some existing automated text categories that have achieved significant improvement are only used as reference indicators.…”
Section: Automatic Text Classificationmentioning
confidence: 99%
“…В [9] дан исчерпывающий обзор современных рекомендательный систем на основе глубокого машинного обучения. Методы машинного обучения используются в различных научных рекомендательных системах [10,11]. В [10] Нами был проведен опрос экспертов-математиков с целью выяснения, какие признаки являются для них определяющими при выборе классифицирующего кода УДК для научной статьи.…”
Section: смежные работыunclassified