АннотацияСтатья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исход-ной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оцени-вания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выра-жения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются извест-ные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематиче-ского текстового корпуса. По сравнению с поиском совокупностей указанных составляю-щих на синтаксически размеченном текстовом корпусе, предложенный в работе метод от-бора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория ин-формации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов. ВведениеЭффективность методов и алгоритмов распозна-вания образов и интеллектуального анализа данных во многом определяется спецификой решаемой зада-чи [1]. Немаловажную роль при этом играет разра-ботка способов и средств описания самих задач. Как было отмечено в [2], естественным источником зна-ний при описании задач будут публикации отечест-венных и зарубежных научных школ по соответст-вующей проблематике. Актуальная проблема при этом -поиск наиболее рационального варианта пере-дачи смысла в единице знаний, определяемой множе-ством семантически эквивалентных (СЭ) фраз пред-метно-ограниченного естественного языка (ЕЯ). При-чём помимо отбора фраз из готового текстового кор-пуса, важнейшей составляющей здесь является фор-мирование самого корпуса с включением в него пуб-ликаций, максимально релевантных рассматривае-мым экспертом ситуациям действительности и язы-ковым формам их описания. Такая задача возникает, в частности, при построении учебных курсов с ис-пользованием открытых тестов. При этом:• отбор текстов в корпус, как правило, субъективен;• выбор критерия отбора текстов -задача нетриви-альная. Здесь учитывается и уровень сложности текста, и его значимость в решаемой задаче (на-пример, с точки зрения тематической рубрикации [3] для составления теста по тем или иным фраг-ментам экспертного знания); • значимость текста в решаемой задаче может опре-делять выбор меры его близости исходной фразе.Следует отметить, однако, что значимость текста здесь, как правило, безотносительна к образу, пред-ставляемому исходной фразой и выделяемому в ана-лизируемых текстах. С...
Выделение знаний и языковых форм их выражения на множестве тематических текстов… Михайлов Д.В., Козлов А.П., Емельянов Г.М. Аннотация Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множе-ства (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы акту-альны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта пе-редачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определя-ется совместным использованием оценки силы связи встречающихся в его фразах сочета-ний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF от-носительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы извест-ных синтаксических отношений и без использования таковой). С целью более полного опи-сания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотре-ние совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рас-сматриваемого образа на готовом синтаксически размеченном текстовом корпусе предло-женный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исход-ным ни по описываемому фрагменту знания, ни по языковым формам его выражения.Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория ин-формации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов. ВведениеЭффективность методов и алгоритмов распозна-вания образов и интеллектуального анализа данных во многом определяется спецификой решаемой зада-чи. Немаловажную роль при этом играет разработка способов и средств описания самих задач, в частно-сти, если задача включает иерархию взаимосвязан-ных подзадач. Как уже отмечалось в [1], естествен-ным источником знаний при описании задач здесь будут публикации отечественных и зарубежных на-учных школ по соответствующей проблематике. Ак-туальная при этом проблема -поиск наиболее рацио-нального варианта передачи смысла в единице зна-ний, определяемой множеством семантически экви-валентных (СЭ) фраз предметно-ограниченного есте-ственного языка (ЕЯ). При этом в круг задач экспер-та, требующих автоматизации, входит: -поиск СЭ-форм выражения отдельного фрагмента фактического знания в заданном ЕЯ; -сопоставление знаний эксперта с наиболее близ-кими фрагментами знаний других экспертов. В работе [2] нами было предложено решение за-дачи поиска в текстовом множестве фраз, максималь-но близких исход...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.