Рак молочної залози у жінок – глобальна проблема, яка впливає на генофонд. Ця хвороба стала основною онкологічною загрозою для українських жінок, а її раннє виявлення та профілактика значно підвищують шанси на виживання, знижуючи вартість лікування. Контроль рецмдивів та їх прогнозування є життєво важливими ділянками цієї проблеми.
Ця стаття стосується даних, які дозволяють за допомогою машинного навчання виявляти рецидиви раку молочної залози у пацієнтів, які проходять терапію. Оновлений набір даних, представлений у цій статті, містить 252 випадки, з яких 206 не мали рециливів, але 46 мали їх. Цей набір даних є вдосконаленою версією відомого набору про рак молочної залози створеного в Любляні 1988 року.
Метою є підвищення надійності клінічних прогнозів рецидиву раку молочної залози за допомогою оновленого та вдосконаленого LBCD. Перелік завдань, що супроводжують досягнення цієї мети, є наступним: Оцінка рангів релевантності для атрибутів LBCD; Оцінка рівнів шуму для атрибутів, головним чином для атрибуту класу; Скорочення набору даних шляхом видалення нерелевантних і зашумлених даних; Обчислення (відновлення) пропущених значень для атрибуту класу; Порівняння продуктивності для початкового та оновленого набору даних.
Наш оновлений набір даних має менше екземплярів (252 замість 286) і менше атрибутів (шість замість десяти), окрім мого атрибут класу очищено від шуму, і його пропущені значення відновлено. У результаті продуктивність оновленого набору даних набагато краща, ніж у прототипу, особливо щодо випадків рецидиву раку. Це дозволяє клініцистам проводити більш надійну діагностику рецидиву раку молочної залози за допомогою машинного навчання та найвідоміших класифікаторів.
Використаний набір даних є корисним для розробки моделей машинного навчання, які повинні класифікувати, виявляти та прогнозувати ймовірність рецидивів раку молочної залози в клініках. Розроблений набір даних забезпечує значно вищу продуктивність алгоритмів машинного навчання, ніж початковий прототип. Порівняно з прототипом, набір даних є більш компактним: 252 екземпляри замість 286 та 6 атрибутів замість 10. Атрибут класу (категорії) цього набору даних повністю очищений від шуму.