АннотацияСтатья посвящена проблеме выделения единиц знаний из множеств (корпусов) темати-ческих текстов. Данная проблема актуальна для построения систем обработки, анализа, оценивания и понимания информации, в частности, изображений. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка (ЕЯ) для последующей фиксации фрагментов знаний в те-заурусе и онтологии предметной области (ПО). В настоящей статье разбиением слов исход-ной фразы на классы по значению меры TF-IDF относительно текстов корпуса решается за-дача поиска в корпусе фраз, максимально близких исходной по описываемому фрагменту фактического знания и формам его выражения в языке.Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория ин-формации, тест открытой формы, языковое представление экспертных знаний.Цитирование: Михайлов, Д.В. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF / Д.В. Михайлов, А.П. Козлов, Г.М. Емельянов // Компьютерная оптика. -2015. Т. 39, № 3. -С. 429-438.
ВведениеРазработка эффективных способов и средств опи-сания решаемых задач -одно из ведущих направле-ний распознавания образов и интеллектуального ана-лиза данных. Сказанное немаловажно в сфере обра-ботки, анализа и понимания изображений [1]. Для многих приложений, в частности, учебных курсов с использованием открытых тестов, естественным ис-точником знаний здесь будут публикации отечест-венных и зарубежных научных школ в виде моногра-фий, обзорных статей, сборников трудов конферен-ций и т.п. Наиболее актуальными при этом задачами являются тематическая рубрикация текстовых доку-ментов [2], а также представление предметных облас-тей в виде тезаурусов и онтологий [3]. Основная про-блема -поиск наиболее рационального варианта пе-редачи смысла в единице знаний, определяемой семантически эквивалентными (СЭ) фразами пред-метно-ограниченного ЕЯ. Сам же смысл должен быть отражён в максимально компактном объёме тексто-вых данных. Решение данной проблемы выделением необходимого и достаточного набора минимальных семантико-синтаксических текстовых единиц и свя-зей между ними на множестве СЭ-фраз обсуждалось авторами в [4]. При этом в круг задач эксперта, тре-бующих автоматизации, входит: − поиск СЭ-форм описания отдельного фрагмента знания (факта ПО) в заданном ЕЯ; − сопоставление знаний эксперта с наиболее близ-кими фрагментами знаний других экспертов. Следует отметить, что решение указанных задач не сводится к простому выделению из текста понятий и отношений между ними с подсчётом семантической близости пар и групп понятий [12]. Поиск и класси-фикация языковых форм представления знаний здесь предполагает выявление в текстовом корпусе контек-стов использования универсальной (общей) лексики, за счёт которой обеспечивается переход от исходной фразы к фразам, наиболее близким ей по смыслу (ге-нерация синонимичных перифраз [5]). Близкую зада-чу, но принципиально обратного характера решает обучаемый детектор перифраз, предложен...