The problem of reduction of training samples for synthesizing diagnostic models has been solved in the paper. The method of dimension reduction of training sample based on association rules has been proposed. It includes the implementation of stages of reduction of instances, features and superfluous terms, uses information on extracted association rules for evaluation of informativeness of features. The proposed method allows to create a partition of feature space with a fewer number of instances compared to the original sample, which in turn makes the synthesis of easier and more con venient for perception diagnostic models possible. The developed method has been implemented in the developed software and was used for the practical problem solving of reduction of training sample for the synthesis of a diagnostic model of confectionery products quality.
д-р техн. наук, профессор, заведующий кафедрой программных средств Запорожского национального технического университета, Запорожье, Украина. АННОТАЦИЯ Актуальность. Рассмотрена задача автоматизации построения деревьев решений. Объектом исследования являются деревья решений. Предметом исследования являются методы построения деревьев решений. Цель. Цель работы-создание метода построения моделей на основе деревьев решений для выборок данных, характеризующихся наборами индивидуально малоинформативных признаков. Метод. Предложен метод построения деревьев решений, который для заданной выборки определяет индивидуальную информативность признаков по отношению к выходному признаку, а также оценивает взаимосвязь входных признаков между собой как их индивидуальную информативность попарно по отношению друг к другу, на этапе формирования очередного узла в качестве признака-кандидата выбирает признак, дающий наилучшее разбиение из всего множества признаков, после чего последовательно ищет среди всех еще неотобранных для данного узла признаков такой признак, который индивидуально наиболее тесно связан с отобранным кандидатом, после чего для совокупности отобранных признаков, перебирая поочередно из заданного набора доступные преобразования, определяет качество разбиения для каждого преобразования, выбирает наилучшее преобразование и добавляет его в узел. Метод стремится при формировании очередного узла выделить группу наиболее тесно взаимосвязанных признаков, преобразование которой в скалярное значение обеспечит наилучшее разбиение подвыборки экземпляров, попавших в данный узел. Это позволяет сократить размер модели и ветвистость дерева, ускорить вычисления при распознавании экземпляров на основе модели, а также повысить обобщающие свойства модели и ее интерпретабельность. Предложенный метод позволяет использовать построенное дерево решений для оценки значимости признаков. Результаты. Разработанный метод реализован программно и исследован при решении задачи классификации сигналов, представленных набором отсчетов, обладающих индивидуально низкой информативностью. Выводы. Проведенные эксперименты подтвердили работоспособность предложенного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач диагностирования и автоматической классификации по признакам. Перспективы дальнейших исследований могут заключаться в создании параллельных методов построения деревьев решений на основе предложенного метода, оптимизации его программных реализаций, а также экспериментальном исследовании предложенного метода на более широком комплексе практических задач.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.