Predicting if a client is worth giving a loan—credit scoring—is one of the most essential and popular problems in banking. Predictive models for this goal are built on the assumption that there is a dependency between the client’s profile before the loan approval and their future behavior. However, circumstances that cause changes in the client’s behavior may not depend on their will and cannot be predicted by their profile. Such clients may be considered “noisy” as their eventual belonging to the defaulters class results rather from random factors than from some predictable rules. Excluding such clients from the dataset may be helpful in building more accurate predictive models. In this paper, we report on primary results on testing the hypothesis that a client can become a defaulter in two scenarios: intentionally and unintentionally. We verify our hypothesis applying data driven regularized classification using an autoencoder to client profiles. To model an intention as a hidden variable, we propose an especially designed regularizer for the autoencoder. The regularizer aims to obtain a representation of defaulters that includes a cluster of intentional defaulters and unintentional defaulters as outliers. The outliers were detected by our model and excluded from the dataset. This improved the credit scoring model and confirmed our hypothesis.
АннотацияПредмет исследования. Представлены результаты обучения нейронной сети NASNet с помощью нового метода отключения путей по расписанию на основе семплирования Монте-Карло и непрерывной релаксации для оценки эпистемической неопределенности в задаче классификации пыльцевых зерен на изображениях. Приведено описание разработанного метода и выполнено его сравнение с известными методами оценки эпистемической неопределенности. Актуальность работы состоит в том, что рассматриваемый пыльцевой набор данных крайне мал для задач компьютерного зрения, что порождает высокую эпистемическую неопределенность нейросетевых классификаторов и ведет к их переобучению. Разработанный метод позволяет получить оценку данного вида неопределенности без изменения архитектуры нейронной сети и обеспечить более точное решение задачи классификации пыльцы. Метод. Предложенный метод позволяет оценить эпистемическую неопределенность нейронных сетей с многопутевыми ячейками на основе отключения путей с расписанием с использованием непрерывной релаксации для повышения точности и калибровки моделей распознавания изображений. Метод позволяет превратить произвольную многопутевую нейронную сеть в байесовскую путем ее сэмплирования на этапе предсказания методом Монте-Карло с разными масками отключения путей для оценки неопределенности. Произведено тестирование метода для задачи классификации на основе архитектуры NASNet. Преимущества метода продемонстрированы на задаче классификации изображений пыльцы. Основные результаты. С помощью разработанного метода повышена точность классификации 13 видов пыльцы растений-аллергенов на изображениях в среднем на 0,73 % по сравнению с базовой сетью NASNet до значения 98,34 % по F 1 мере. Также улучшена калибровка и уменьшена эпистемическая неопределенность модели в два раза по сравнению с ансамблем NASNet. Показано, что непрерывная релаксация параметра вероятности отключения путей в процессе обучения нейронной сети позволяет повысить точность решения задач и уменьшить эпистемическую неопределенность модели. Практическая значимость. Метод способствует значительному повышению точности классификации пыльцы на изображениях, что имеет решающее значение для автоматизации распознавания пыльцы в целом. Результаты работы дают возможность автоматизировать процесс аэропалинологического мониторинга и сократить время информирования больных поллинозами для предупреждения симптомов аллергии. Разработанный метод может быть применен для обучения нейронной сети для других задач компьютерного зрения на любых наборах изображений.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.