В данной статье рассматривается актуальная задача классификации документов с использованием методов машинного обучения в рамках предметной области научно-образовательного учреждения. Анализ разработок в данной области показал, что достаточной теоретической базы по интеграции существующих методов классификации для анализа документов научно-образовательного учреждения не разработано. Поэтому для решения поставленной задачи сформирован алгоритм классификации документов, учитывающий специфику документов рассматриваемой предметной области научно-образовательного учреждения. В статье рассматривается система признаков, используемая для решения задачи комбинированной классификации. Рассмотрен подход предварительной обработки текста, позволяющий при использовании известных методах машинного обучения повысить точность и быстродействие классификации документов.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.