2021
DOI: 10.1007/978-3-030-72610-2_9
|View full text |Cite
|
Sign up to set email alerts
|

A Comparative Study of Feature Types for Age-Based Text Classification

Abstract: The ability to automatically determine the age audience of a novel provides many opportunities for the development of information retrieval tools. Firstly, developers of book recommendation systems and electronic libraries may be interested in filtering texts by the age of the most likely readers. Further, parents may want to select literature for children. Finally, it will be useful for writers and publishers to determine which features influence whether the texts are suitable for children. In this article, w… Show more

Help me understand this report
View preprint versions

Search citation statements

Order By: Relevance

Paper Sections

Select...
3
2

Citation Types

0
5
0
4

Year Published

2021
2021
2024
2024

Publication Types

Select...
7
1

Relationship

1
7

Authors

Journals

citations
Cited by 10 publications
(12 citation statements)
references
References 21 publications
0
5
0
4
Order By: Relevance
“…Помимо установления связи параметра частотности слов и сложности составленного из них текста отдельную исследовательскую проблему представляет выбор источника данных о частотности лексики, релевантного выбранной возрастной категории, так как данные о частотности слова сильно зависят от типа и наполнения корпуса, по которому ведутся подсчёты (Ляшевская, Шаров 2009, предисловие к словарю). Ряд исследователей используют для этих целей данные больших национальных корпусов текстов (Dorofeeva et al 2019, Glazkova et al 2021, Иомдин, Морозов 2021. Аргументами в пользу этого выбора могут служить большой размер таких корпусов, а также представленность в их составе различных жанров «официального» кодифицированного языка, с которым учащимся предстоит столкнуться в жизни: художественная литература, новости, публицистика -всё это составляет основу данных.…”
Section: частотность слова как параметр оценки сложности текста: теор...unclassified
See 2 more Smart Citations
“…Помимо установления связи параметра частотности слов и сложности составленного из них текста отдельную исследовательскую проблему представляет выбор источника данных о частотности лексики, релевантного выбранной возрастной категории, так как данные о частотности слова сильно зависят от типа и наполнения корпуса, по которому ведутся подсчёты (Ляшевская, Шаров 2009, предисловие к словарю). Ряд исследователей используют для этих целей данные больших национальных корпусов текстов (Dorofeeva et al 2019, Glazkova et al 2021, Иомдин, Морозов 2021. Аргументами в пользу этого выбора могут служить большой размер таких корпусов, а также представленность в их составе различных жанров «официального» кодифицированного языка, с которым учащимся предстоит столкнуться в жизни: художественная литература, новости, публицистика -всё это составляет основу данных.…”
Section: частотность слова как параметр оценки сложности текста: теор...unclassified
“…Классический способ, представленный еще в ранних формулах читабельности, предлагает расчет процента слов текста, входящих в релевантный список слов, одной из разновидностей которого может стать частотный список. Этот метод расчета и сейчас используется в ряде исследований сложности текста (Glazkova et al 2021, Sato 2014. Ещё один популярный способ учета частотности слов текста -это расчет среднего или медианного значения из частотности каждого слова текста (Francois & Fairon 2012, Reynolds 2016.…”
Section: частотность слова как параметр оценки сложности текста: теор...unclassified
See 1 more Smart Citation
“…The reported results were obtained from text corpora of widely differing sizes and domains. Moreover, the authors used different machine learning (ML) models and text representation techniques (Feng et al 2010, Cantos & Almela 2019, Isaeva & Sorokin 2020, Deutsch et al 2020, Glazkova et al 2021, Martinc et al 2021. This makes it complicated to achieve an objective evaluation of the impact of different types of features.…”
Section: Introductionmentioning
confidence: 99%
“…All of these corpora can be used for the creation and/or evaluation of automatic text simplification systems. As for the Russian language, the linguistic complexity of texts for children was studied on educational materials for Russian-speaking students at primary school (Laposhina et al, 2019 ) and secondary school (Solovyev et al, 2018 ; Vakhrusheva et al, 2021 ) and the collection of book previews labelled with one of two categories—children's or adult (Glazkova et al, 2021 ).…”
Section: Introductionmentioning
confidence: 99%