В статье представлена система для извлечения упоминаний симптомов
из медицинских текстов на естественном (русском) языке. Система
осуществляет нахождение симптомов в тексте, их нормализацию (приведение
к стандартной форме) и отождествление — отнесение найденного симптома
к группе однотипных симптомов. Каждый этап обработки реализуется
с помощью отдельной нейронной сети. Состав извлекаемых симптомов
ограничен тремя видами заболеваний — аллергические и пульмонологические
заболевания, а также коронавирусная инфекция (COVID-19).
Представлен и описан аннотированный корпус предложений, использованный
для обучения нейросети нахождению упоминаний симптомов, относящихся
к этим трем заболеваниям. При разметке корпуса был использован простой
XML-подобный язык. Для представления предложений,
непосредственно поступающих на вход нейросети, предложен расширенный
BIO-формат разметки. Для каждого этапа приведены оценки
точности (для первого этапа точность оценивалась при строгом и гибком
тестировании). Описаны подходы и реализация приведения к стандартной
форме и отождествления упоминаний симптомов. Даны сравнения
с аналогичными работами по извлечению симптомов из медицинских текстов
на разных языках, а также показано место данной системы в системах
поддержки принятия клинических решений.