G. M. Emelyanov scite author profile

G. M. Emelyanov

5Publications

22Citation Statements Received

0Citation Statements Given

How they've been cited

How they cite others

Affiliations

Yaroslav-the-Wise Novgorod State University

Publications

Order By: Most citations

Extraction the knowledge and relevant linguistic means with efficiency estimation for formation of subject-oriented text sets

Mikhaylov¹,

Kozlov²,

Emelyanov³

2016

Computer Optics

View full text Add to dashboard Cite

АннотацияСтатья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исход-ной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оцени-вания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выра-жения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются извест-ные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематиче-ского текстового корпуса. По сравнению с поиском совокупностей указанных составляю-щих на синтаксически размеченном текстовом корпусе, предложенный в работе метод от-бора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория ин-формации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов. ВведениеЭффективность методов и алгоритмов распозна-вания образов и интеллектуального анализа данных во многом определяется спецификой решаемой зада-чи [1]. Немаловажную роль при этом играет разра-ботка способов и средств описания самих задач. Как было отмечено в [2], естественным источником зна-ний при описании задач будут публикации отечест-венных и зарубежных научных школ по соответст-вующей проблематике. Актуальная проблема при этом -поиск наиболее рационального варианта пере-дачи смысла в единице знаний, определяемой множе-ством семантически эквивалентных (СЭ) фраз пред-метно-ограниченного естественного языка (ЕЯ). При-чём помимо отбора фраз из готового текстового кор-пуса, важнейшей составляющей здесь является фор-мирование самого корпуса с включением в него пуб-ликаций, максимально релевантных рассматривае-мым экспертом ситуациям действительности и язы-ковым формам их описания. Такая задача возникает, в частности, при построении учебных курсов с ис-пользованием открытых тестов. При этом:• отбор текстов в корпус, как правило, субъективен;• выбор критерия отбора текстов -задача нетриви-альная. Здесь учитывается и уровень сложности текста, и его значимость в решаемой задаче (на-пример, с точки зрения тематической рубрикации [3] для составления теста по тем или иным фраг-ментам экспертного знания); • значимость текста в решаемой задаче может опре-делять выбор меры его близости исходной фразе.Следует отметить, однако, что значимость текста здесь, как правило, безотносительна к образу, пред-ставляемому исходной фразой и выделяемому в ана-лизируемых текстах. С...

show abstract

An approach based on analysis of n-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets

Mikhaylov¹,

Kozlov²,

Emelyanov³

2017

Computer Optics

View full text Add to dashboard Cite

Выделение знаний и языковых форм их выражения на множестве тематических текстов… Михайлов Д.В., Козлов А.П., Емельянов Г.М. Аннотация Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множе-ства (корпуса) тематических текстов анализом релевантности исходной фразе и полноты отражения в исходных фразах выделяемого фактического знания. Данные проблемы акту-альны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью здесь является поиск наиболее рационального варианта пе-редачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определя-ется совместным использованием оценки силы связи встречающихся в его фразах сочета-ний слов исходной фразы и разбиением этих слов на классы по значению меры TF-IDF от-носительно текстов корпуса. В настоящей работе рассматривается расширение связей слов от традиционных биграмм до трёх и более элементов для выделения составляющих образа исходной фразы в виде сочетаний связанных по смыслу слов (с привлечением базы извест-ных синтаксических отношений и без использования таковой). С целью более полного опи-сания выделяемого в текстах корпуса фрагмента экспертного знания вводятся в рассмотре-ние совокупности исходных фраз, взаимно эквивалентных либо дополняющих друг друга по смыслу и представляющих единый образ. По сравнению с поиском составляющих рас-сматриваемого образа на готовом синтаксически размеченном текстовом корпусе предло-женный метод позволяет в среднем в 17 раз сократить выход фраз, не релевантных исход-ным ни по описываемому фрагменту знания, ни по языковым формам его выражения.Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория ин-формации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов. ВведениеЭффективность методов и алгоритмов распозна-вания образов и интеллектуального анализа данных во многом определяется спецификой решаемой зада-чи. Немаловажную роль при этом играет разработка способов и средств описания самих задач, в частно-сти, если задача включает иерархию взаимосвязан-ных подзадач. Как уже отмечалось в [1], естествен-ным источником знаний при описании задач здесь будут публикации отечественных и зарубежных на-учных школ по соответствующей проблематике. Ак-туальная при этом проблема -поиск наиболее рацио-нального варианта передачи смысла в единице зна-ний, определяемой множеством семантически экви-валентных (СЭ) фраз предметно-ограниченного есте-ственного языка (ЕЯ). При этом в круг задач экспер-та, требующих автоматизации, входит: -поиск СЭ-форм выражения отдельного фрагмента фактического знания в заданном ЕЯ; -сопоставление знаний эксперта с наиболее близ-кими фрагментами знаний других экспертов. В работе [2] нами было предложено решение за-дачи поиска в текстовом множестве фраз, максималь-но близких исход...

show abstract

The TF-IDF measure and analysis of links between words within N-grams in the formation of knowledge units for open tests

Emelyanov

Mikhailov

Kozlov

2017

Pattern Recognit. Image Anal.

View full text Add to dashboard Cite

Semantic clustering and affinity measure of subject-oriented language texts

Mikhailov

Emelyanov

2010

Pattern Recognit. Image Anal.

View full text Add to dashboard Cite

Hierarchization of Topical Texts Based on the Estimate of Proximity to the Semantic Pattern without Paraphrasing

Mikhaylov

Emelyanov

2020

Pattern Recognit. Image Anal.

View full text Add to dashboard Cite

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

customersupport@researchsolutions.com

10624 S. Eastern Ave., Ste. A-614

Henderson, NV 89052, USA

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.

G. M. Emelyanov

Extraction the knowledge and relevant linguistic means with efficiency estimation for formation of subject-oriented text sets

An approach based on analysis of n-grams on links of words to extract the knowledge and relevant linguistic means on subject-oriented text sets

The TF-IDF measure and analysis of links between words within N-grams in the formation of knowledge units for open tests

Semantic clustering and affinity measure of subject-oriented language texts

Hierarchization of Topical Texts Based on the Estimate of Proximity to the Semantic Pattern without Paraphrasing

Contact Info

Product

Resources

About