The number of documents, including online news that requires a deeper understanding and analysis grows every year. Machine Learning algorithms help us to classify texts accurately. However, finding suitable structures and techniques for text, including feature extraction, is difficult for researchers. This paper addresses the task of identifying and analyzing features to distinguish different genres of texts. We studied the main characteristics of each genre of news text like news, articles, interviews, and blogs to obtain more informative features. We have built our data set by collecting texts from open-access official information portals. Analysis of our data set and features that look at structural complexity, detail, and imaginative details in a text are helpful to distinguish our dataset. In particular, we use complexity (lexical diversity, lexical density, punctuation, average sentence length, number of personal pronouns, readability index), detail features (number of proper nouns in the text, numbers, month-related words), imaginative features (PoS tags, words-quantifiers, plural nouns) features. Our results suggest that our features provide effective representation to distinguish news texts from articles, blogs/opinions, and interviews with high accuracy. Keywords: Text Categorization, Text Mining, Feature Selection, Text Classification, Online News Classification.
Жаңартылған ақпарат көлемінің экспоненциалды өсуі ақпаратты іздеу міндетін қиындатады. Машиналық оқыту алгоритмдері мәтіндерді жіктеу арқылы іздеу кеңістігін автоматты түрде азайтуға көмектеседі. Бұл жұмыста жаңалық мәтіндерін (жаңалықтар, мақалалар, сұхбаттар және блогтар) жіктеу белгілерін анықтау, талдау және таңдау мәселесі қарастырылады. Ақпараттық белгілерін алу үшін біз жаңалықтар мәтіндерінің әрбір жанрының негізгі сипаттамаларын анықтадық. Біз ашық қолжетімділікпен ресми ақпараттық порталдардан алынған жаңалықтар корпусын жасадық және мәтіннің құрылымдық кұрделілігін, егжей-тегжейлілігін және бейнеліліігін қарастыратын белгілерді анықтадық. Атап айтқанда, біз кұрделілік сипаттамаларын (лексикалық әртұрлілік, лексикалық тығыздық, тыныс белгілері, сөйлемнің орташа ұзақтығы, тұлғалық есімдіктердің саны, оқылу көрсеткіші), егжей-тегжейлі сипаттамалар (жалпы есімдер, сандар, айларға байланысты сөздер және т.б. саны), бейнелеу сипаттамаларын (PoS тегтері, квантор сөздері, көпше тұрдегі зат есімдер) қолданамыз. Нәтижелер осы белгілердің ұйлесімі жаңалықтар мәтіндерін жіктеудің жоғары дәлдігін қамтамасыз ететіндігін көрсетеді. Түйін сөздер: онлайн жаңалықтарды жіктеу, мәтінді өңдеу, мәтінді жіктеу, мұмкіндіктерді таңдау.
Экспоненциальный рост количества актуальной информации затрудняет задачу информационного поиска. Алгоритмы машинного обучения помогают нам автоматически снижать пространство поиска путем классификации текстов. В данной работе рассматривается задача выявления, анализа и отбора признаков для классификации новостных текстов (новости, статьи, интервью и блоги). Для получения наиболее информативных признаков мы выявили основные характеристики каждого жанра новостных текстов. Мы создали корпус новостей, взятых из официальных информационных порталов с открытым доступом, и выявили признаки, которые рассматривают структурную сложность, детализацию и образность текста. В частности, мы используем характеристики сложности (лексическое разнообразие, лексическая плотность, пунктуация, средняя длина предложения, количество личных местоимений, индекс читабельности), характеристики детализации (количество имен собственных, цифр, слов, связанных с датами и пр.), характеристики образности (PoS-теги, слова-квантификаторы, существительные во множественном числе). Результаты показывают, что совокупность этих признаков обеспечивает высокую точность классификации новостных текстов. Ключевые слова: онлайн-новости, исследование текстов, классификация текстов, отбор признаков.