(Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ИТМО), Кронверкский просп., 49, г. Санкт-Петербург, 197101, Россия) В работе обсуждается проблема извлечения фактов из китайских текстов. Китайский язык достаточно сложен для машинной обработки, что обусловлено отсутствием пробелов между словами и многозначно-стью иероглифов, поэтому синтаксический анализ текстов невозможен без семантического анализа, поскольку любое сочетание иероглифов может быть интерпретировано неоднозначно. Существующие статистические методы сегментации предложений на слова и синтаксического анализа не обладают до-статочной полнотой и точностью, вследствие чего многофазный процесс (сегментация фраз, синтаксиче-ский анализ, извлечение фактов) приводит к накоплению ошибок.В статье предлагается ролевой подход к выявлению членов предложения на основе служебных слов, предлогов и послелогов, а также достаточно ограниченного словаря. Эти служебные слова и символы позволяют не только сегментировать последовательности символов, но и выявлять роли слов, а значит, и части речи в предложении. Даже такой небольшой набор слов позволяет в большинстве случаев успешно выявлять роль слов в предложении, в частности, имена собственные, существительные, глаго-лы, что делает возможным извлечение из текстов сущностей, а также фактов в виде субъект-предикат-объект. Проведенные на реальных текстах эксперименты показывают удовлетворительные результаты даже при ограниченном словаре. Предложенный подход демонстрирует высокую скорость, поскольку отсутствуют синтаксический разбор и сегментация фраз, использующие переборные методы.Ключевые слова: извлечение фактов, китайский язык, ролевой подход, анализ текстов, словарь, сег-ментация предложений, поверхностный синтаксический анализ, частеречный анализ.Извлечение фактов из китайских текстов (Chinese Open Relation Extraction, CORE) в последние годы является предметом исследования многих авторов. Разработки, предназначенные для алфавитных язы-ков, такие как TextRunner [1], не подходят для китайского языка в силу его особенностей. В китайском языке отсутствуют пробелы между словами, почти любое сочетание иероглифов может быть интерпре-тировано тем или иным способом, а выбор варианта сегментации обычно делается на основе контекста. Из этого следует, что сегментация предложений в китайском языке неотделима от семантического ана-лиза, что существенно усложняет задачу автоматической сегментации фраз. Схожая ситуация наблюда-ется в языках, широко использующих сложные слова. Например, немецкое слово Süsswasserkrokodil мо-жет быть интерпретировано как Süsswasser-krokodil (пресноводный крокодил) или Süss-wasserkrokodil (сладкий водяной крокодил).Вторая проблема обусловлена полисемией иероглифов, каждый из которых может иметь десятки смыслов и быть разным членом предложения, в результате чего многозначность устраняется лишь после анализа всего текста. Аналогичная проблема существует и в других языках, но в значительно меньшем масштабе.Третья проблема вызвана тем, что, нес...