АннотацияДанная работа посвящена задаче распознавания людей по лицу в видеопоследовательно-сти. В работе предложена нейросетевая модель, которая для входного набора изображений лица человека строит компактное признаковое представление фиксированной размерности. Предложенная модель состоит из двух частей: модуль распознавания по изображению лица и модуль оценки качества изображения лица. Признаковые представления кадров из вход-ного набора, полученные в результате работы модуля распознавания, агрегируются с уче-том их полезности, которая оценивается модулем оценки качества. Визуальный анализ вы-явил, что предложенная нейронная сеть учится использовать больше полезной информации с изображений высокого качества и меньше -с размытых или перекрытых изображений. Экспериментальная оценка на базах YouTube Faces и IJB-A показала, что предложенный метод объединения признаков на основе оценок полезности изображений позволяет повы-сить качество распознавания по сравнению с базовыми методами агрегации.Ключевые слова: распознавание лиц, анализ видео, нейронные сети, глубокое обучение, алгоритмы компьютерного зрения.
ВведениеЗадача распознавания людей по лицу относится к области автоматизации обработки данных, получае-мых в системах видеонаблюдения. Данная задача ис-следуется на протяжении многих лет, но основное развитие получили методы, производящие распозна-вание по отдельным изображениям, что, главным об-разом, связано с наличием большого количества до-ступных баз изображений лиц хорошего качества. Существующие системы распознавания по лицу в ви-део часто опираются на использование таких алго-ритмов, применяя их к отдельным кадрам, но такой подход порождает свои сложности, основными из ко-торых являются следующие: «какие кадры использо-вать для распознавания» и «как лучше комбинировать информацию, полученную с разных кадров».В общем виде схема работы алгоритмов распозна-вания людей по лицу на основе одного кадра выгля-дит следующим образом: 1) обнаружение области лица на входном изоб-ражении [1]; 2) предобработка изображения лица и его гео-метрическая нормализация; 3) построение компактного вектора-описания фиксированной размерности. Дальнейшие выводы о степени сходства лиц делают-ся на основе сравнения их векторов-описаний.Чтобы выбрать один или несколько кадров для распознавания, обычно прибегают к использова-нию методов оценки качества изображения лица. Качество изображения лица в данном случае -это обобщенная числовая характеристика, часто вклю-чающая в себя (явно или неявно) такие составляю-щие, как резкость и размер изображения, качество освещения, угол съемки, наличие перекрытий лица и т.д. [2, 3]. Получив численную оценку качества всех доступных кадров, система выбирает один или несколько наиболее представительных кадров и за-пускает на них алгоритм распознавания по изобра-жению. Результатом этого шага является набор векторов-описаний: по одному вектору на каждый представительный кадр. Стоит отметить, что чаще всего алгоритмы оценки качества изображения ли-ца строятся независимо от используемого алгорит-ма распозн...