Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения. Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, N-граммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения. Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством. Ключевые слова: машинное обучение, анализ социальных сетей, классификация, большая пятерка личностных черт, обработка естественного языка.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.