Предметом вивчення у статті є процес тестування методів побудови рекомендаційних систем на основі відкритих наборів даних у мережі Інтернет. Метою є дослідження відкритих наборів даних веб-ресурсів у контексті застосування їх для тестування різних методів побудови рекомендаційних систем. Завдання: дослідити сучасні вебплатформи з відкритими наборами даних та можливість застосування їх даних для тестування якості роботи різних рекомендаційних систем. Отримані такі результати: Розглянуто найбільш популярні веб-платформи з відкритими наборами різнотипних мережевих даних. Здійснено порівняльний аналіз цих платформ з точки зору наявності вільного доступу до завантаження даних, їх функціональності та територіальної приналежності, формату даних та зручності для подальшого використання для машинного навчання, а також можливості застосування для тестування рекомендаційних систем. Також проведено оцінку актуальності даних, що зберігаються у репозиторіях з вільним доступом та наявності їх оновлення з часом. Висновки. Досліджено веб-платформи, що містять відкриті набори даних, які можна використати для тестування рекомендаційних систем. Основними перевагами більшості платформ є підтримка сучасних форматів даних та умовно вільний або вільний доступ. Серед недоліків розглянутих платформ слід зазначити недостатню структурованість деяких наборів даних, зокрема текстових, що значно обмежує їх застосування для тестування методів контентної фільтрації. Окрім того, одним з факторів, що обмежує використання відкритих наборів даних є їхня актуальність, тому що деякі набори, що зберігаються на платформах, є застарілими та не оновлюються. Усі розглянуті набори даних можуть бути застосовані для дослідницьких цілей та тестування роботи рекомендаційних систем.
Об’єктом дослідження є процес створення списків рекомендацій відвідувачам веб-сайтів. Метою даної роботи є дослідження існуючих матричних факторизаційних моделей рекомендаційних систем. У рекомендаційних системах факторизація застосовується до матриці рейтингів з метою виявляння прихованих факторів, властивих об’єктам системи, що впливають на вподобання користувачів. Матричні факторизаційні моделі рекомендаційних систем досить популярні серед розробників та мають багато модифікацій. У даній роботі розглянуто наступні моделі: FunkSVD, SVD++, Asymmetric SVD та timeSVD. Факторизаційні моделі рекомендаційних систем використовуються у методах колаборативної фільтрації на рівні з моделями на основі сусідства. На відміну від моделей на основі сусідства, які використовують коефіцієнти подоби для створення списків рекомендацій, дані моделі використовують не подобу, а приховані фактори. Перевагами таких моделей є підвищена, порівняно з іншими моделями, робастність до атак ін’єкцією профілів та висока точність прогнозування вподобань користувачів. До недоліків досліджуваних моделей слід віднести погану масштабованість, довгий час навчання, а також необхідність повного перенавчання системи при появі нових даних, що частково вирішено лише у асиметричному SVD. Проведене дослідження показало, що існуючі моделі матричної факторизації дають можливість використовувати як явні зворотні зв’язки від користувачів (рейтинги об’єктів, виставлені користувачами), так і неявні зворотні зв’язки (перегляди об’єктів, написані коментарі, тощо), що дозволяє підвищувати точність роботи рекомендаційної системи на веб-ресурсах, де користувачі залишають багато неявного зворотного зв’язку. Такий принцип вперше був реалізований у SVD++. Факторизаційні моделі дозволяють також враховувати неперіодичні та періодичні зміни вподобань користувачів у часі, що, зокрема, реалізовано у timeSVD
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.