Стилометрия успешно применяется для идентификации авторства документов с одним автором (authorship identification of single-author documents -AISD). Задача AISD связана с идентификацией первоначального автора анонимного документа из группы авторов-кандидатов. Однако методы AISD неприменимы к идентификации авторства документов с несколькими авторами (authorship identification of multi-author documents -AIMD). Из-за комбинаторного характера документов в AIMD отсутствует основная информация об истинных авторах, то есть информация о пишущих и непишущих авторах в документе с несколькими авторами, что усложняет решение этой проблемы. Помимо этого, из-за своей комбинаторной природы один и тот же список авторов не может повторяться в корпусе документов, что усложняет моделирование этой проблемы. В этой статье предлагается структура AIMD, называемая графом соавторства, которую можно использовать для сбора стилистической информации каждого автора в корпусе документов с несколькими авторами. Предлагаемая структура AIMD основана на наблюдении, что стилистически похожие фрагменты, вероятно, были написаны аналогичной группой авторов. Кроме того, предлагается итеративный алгоритм для идентификации оригинального автора каждого фрагмента документа.
Определение стиля письма представляет собой комбинацию последовательных решений на разных уровнях обработки текстов на естественном языке, включая лексический, синтаксический и структурный, связанные с конкретным автором. Лексические, синтаксические и структурные признаки составляют три основных семейства стилистических признаков. Лексические признаки отражают характер автора и предпочтения в использовании слов, а синтаксические признаки фиксируют синтаксические модели предложений в документе. Структурные особенности раскрывают информацию о том, как автор организует структуру текста. Одной из основных проблем, редко затрагиваемой в литературе, является взаимодействие стиля и содержания. В то время как содержательные слова могут быть признаками авторского стиля письма из-за того, что они несут информацию о лексическом выборе авторов, исключение содержательных слов в качестве характеристик является фундаментальным шагом для предотвращения определения темы, а не определения стиля. Однако синтаксические и структурные особенности не зависят от содержания, что делает их устойчивыми к расхождению тем. Предлагаемое решение определяет стиль автора текста исходя из структуры написанного им текста, что делает модель устойчивой к изменению темы.
В задачах определения авторства текста ключевую роль играет представление независящего от тематики произведения личного стиля автора. Таким образом, отделение содержания текста от стилистических особенностей письма автора является важной проблемой. Для решения этой проблемы зачастую используются мощные нереалистичные решения, либо вручную определённые параметры стиля текста. В этой статье предлагается применить многозадачное обучение, чтобы отделить тему текста от стиля автора. Цель предложенного подхода состоит в том, чтобы найти отдельные представления стиля и темы текста. Основной задачей является определение авторства текста, дополнительной задачей является аппроксимация темы. Применяемые для получения представлений тем модели обучаются на внешнем корпусе данных. В статье предложены механизмы конкурентного внимания и ограничения разделения-восстановления, при помощи которых двум задачам назначаются разные и конкурирующие между собой внимания, что способствует разделению темы и стиля. По результатам оценок подход, основанный на многозадачном обучении, является многообещающим, особенно при наборе данных с множеством пересекающихся тем. Предложенная модель разделяет тему и стиль вероятностным образом и не требует вмешательства человека.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.