The paper presents the results of classification of the short technical texts on the purpose of instruments using fuzzy sets theory and fuzzy logic. An important stage in designing special-purpose technical systems is the choice of equipment with specific operational characteristics. The need to categorize short technical texts, which present a brief description of equipment, annotations, fragments of databases, appears due to the fact that information about the equipment found in thematic abstract collections, technical and design documentation or in contextual advertising is often not structured and scattered. The other problems are a large number of typos, incorrect word usage and definitions in the texts. Much attention is paid to the characteristics of the objects of research and to recording their specific features – a large number of technical terms, abbreviations, symbols. The classifying technique is described, the expediency of application of fuzzy inference of Sugeno system associated with fuzziness of the natural language, the simplicity of mathematical calculations in the course of the experiment. A Sugeno model combines the description of the objects of research in the form of linguistic rules and functional dependencies. This approach greatly facilitates the interpretation of classification results
Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Ин-тернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведени-ем предобработки и «оцифровки» документов, идентификацией «классифицирующих» при-знаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лекси-ки, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения раз-мерности матрицы «термин -документ» с помощью сингулярного разложения, позволяю-щего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации -метод k-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используют-ся дискриминантные переменные и прием максимизации различий между классами для полу-чения функции классификации. Объект относится к тому классу, для которого значение клас-сифицирующей функции является наибольшим. Дана оценка полученных результатов, отме-чается недостаточная точность классификации при применении меры TF -IDF в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры TF -IDF, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и k-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.Ключевые слова: классификация коротких текстов, определение веса терминов, сингу-лярное разложение, дискриминантный анализ, элементарные функции Фишера, метод k-ближайших соседей. Введение В связи с развитием Интернета и применением его в качестве средства коммуникации или электронной коммерции появились специфические лингвистические объекты, представленные в виде коротких текстов (КТ) -новостные ленты, блоги, сообщения в социальных сетях, обзоры продукции и реклама [1]. Очень часто технические КТ встречаются в проектном деле. Все эти информационные объекты различаются по тематике, типу, смысловой и эмоциональной окрас-ке, стилю и другим критериям. Большое количество разнообразных интернет-ресурсов, содер-жащих КТ, обусловливает необходимость их обработки и анализа, например, для создания те-матических подборок, рубрикации документов, составления рейтингов, подбора контекстной рекламы и фильтрации спама [2]. Особый интерес для исследователей представляют КТ техни-ческой направленности [2, 3], которые содержатся в тематических форумах, тезисах научных работ, аннотациях, реферативно-библиографических изданиях, каталогах, рубрикаторах, базах данных (БД) оборудов...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.