The implementation of the new multi-paradigm (functionally- imperative) programming language El, developed at the Department of Computer Science of the Novosibirsk State Technical University, in the form of a compiler is associated with the need to find ways to solve a number of complex problems. The current version of the compiler does implement only partially functionality of the language and generates far from optimal executable codes. In this paper, we consider the problem of an efficient compilation of an El-program, taking into account the need to implement new high-level data structures (two-sided lists, vectors with special forms of access, and a number of others) and control structures of the language, which make it possible to uniformly define cyclic and branching computational processes, as well as those laid down in the language a mechanism for explicitly controlling the mutability of variables. The tasks of improving and developing a compiler organized according to the classical multi-platform scheme are briefly considered, in which the front-end (lexical, syntactic, and semantic analyzers) converts the program to be translated into pseudocode of a single format, and used efficient infrastructure for building LLVM compilers as a back-end that turns pseudocode into executable code for different platforms. Execution of all possible operations on elements of high-level data structures (lists, tuples, vectors), as well as on arbitrary-precision numbers, has been moved to the runtime support library and, accordingly, can be deeply optimized. For this structure, the outlined ways of solving the problem of developing and improving the compiler by deep reforming and optimization of the chain of transformations of the translated program implemented by the front-end are formulated. At the initial stage, it is planned to implement a new compiler for two platforms: Linux and Windows.
В настоящее время в сельскохозяйственной отрасли наблюдается постоянное увеличение объемов получаемых данных, возрастает потребность в их качественной обработке и точных расчетах для принятия обоснованных решений. Поэтому особую актуальность приобретают задачи, связанные с разработкой алгоритмов, методов и программного обеспечения для решения задач анализа и обработки данных в области сельского хозяйства с применением современных технологий и программных средств.В статье представлены результаты проектирования и реализации программного обеспечения (ПО) для решения задачи классификации сельскохозяйственных показателей на основе применения комплекса методов интеллектуального анализа данных и машинного обучения. В рамках проектной части работы описаны функциональные и нефункциональные требования к программному обеспечению, архитектура и структура проектируемой программы, технологии и программные средства реализации. Предложена укрупненная архитектура ПО, состоящая из двух частей: пользовательского приложения на языке программирования Java и ядра выполнения R-скриптов. В результате проектирования выделено пять модулей в структуре ПО: средства взаимодействия с данными, первичная обработка данных, классификация данных, автоматический подбор параметров алгоритмов и «интеллектуальный» модуль. В качестве средств реализации ПО предложено использовать стек технологий, а именно: язык статистических вычислений R для реализации методов анализа данных и язык Java для разработки графического пользовательского интерфейса для доступа к функциям анализа данных R.Также в статье приведено описание двух разработанных модулей программного обеспечения, а именно: модуля первичной обработки данных и модуля классификации данных. В модуле первичной обработки данных реализованы расчет основных числовых характеристик показателей, исследование законов распределения показателей на основе применения критериев согласия Шапиро-Уилка, Андерсона-Дарлинга, Крамера-фон Мизеса, Лиллиефорса, исследование взаимосвязей в данных с помощью методов корреляционного и дисперсионного анализов данных. В модуле классификации реализованы методы сэмплирования для решения проблемы несбалансированности данных, а также модели классификаторов: логистическая регрессия,наивный Байес, дискриминантный анализ, нейросетевой метод (персептрон), деревья решений, реализована возможность оценки точности получаемых моделей с помощью набора метрик. Приведен пример решения задачи классификации уровня засоренности участка с помощью нейронной сети (персептрона), точность классификации составила на тестовой выборке 0,73. The agricultural industry is currently experiencing a constant increase in the data obtained, the need for their quality processing and accurate calculations to support decision-making is increasing. Hence, the tasks related to the development of algorithms, methods and software for solving problems of analysis and processing of data in the field of agriculture using modern technologies and software are of particular relevance.The research paper provides the results of design and further implementation of software for agricultural indicators classification problem solving based on the complex application of data mining and machine learning methods. In the framework of the design part the functional and non-functional software requirements, the architecture and structure of the designed software, implementation technologies, and developing tools were included. The proposed large-scale software architecture consists of two parts: a user application based on the Java programming language and a kernel of R-scripts execution. The software design was defined to consist of five modules: data interaction tools, primary data processing, data analysis, automated selection of algorithm parameters, and «intelligent» module. To implement the software, it was proposed to use the technology stack: statistical computing language R for the realization of data analysis methods and Java to develop a graphical user interface to access the R data analysis functions.Another section provides a description of two developed software modules, namely: the module of primary data processing and the module of data classification. The module of primary data processing involves calculation of the main numerical features, the examination of the distribution laws based on the application of the Shapiro-Wilk, Anderson-Darling, Cramér-von Mises, Lilliefors consent criteria and tests, the analysis of relationships in the data using methods of correlation and variance analyses. The module of classification implemented methods of sampling to solve the problem of unbalanced data as well as models of classifiers: logistic regression, naive Bayes, discriminant analysis, neural network method (perceptron), decision trees. The ability to assess the accuracy of the obtained models using a set of metrics is realized. A case of solving the problem of classifying the level of crop infestation using a neural network (perceptron) is presented, the accuracy of classification was 0.73 on the test sample.
К настоящему времени разработано и изучено множество алгоритмов для решения задач классификации, однако остается актуальной проблема повышения качества (точности, устойчивости) результатов классификации при решении прикладных задач в разных отраслях экономики, в том числе в сельском хозяйстве. Вариантом решения этой проблемы является разработка алгоритмов и методики классификации, основанных на ансамблевом подходе. В данной работе представлен разработанный многоэтапный алгоритм для решения задачи классификации сельскохозяйственных показателей, объединяющий комплекс методов интеллектуального анализа данных и машинного обучения, основанный на применении ансамблевых моделей. Укрупненно алгоритм заключается в последовательном выполнении следующих основных этапов: первичный анализ и обработка данных; устранение несбалансированности классов на основе методов семплирования; классификация с помощью одиночных и ансамблевых моделей машинного обучения с автоматическим подбором параметров; оценка качества классификационного решения. Предложенный алгоритм реализован в интерактивном веб-приложении, объединяющем ядро статистических вычислений на языке R и графический пользовательский интерфейс, созданном с использованием связки современных технологий: фреймворк Shiny, JavaScript, CSS, HTML. Выполнено исследование алгоритма на реальных сельскохозяйственных данных по уровню засоренности с/х участка (выделено четыре уровня засоренности). В статьеподробно описан этап алгоритма, связанный с построением и сравнительным анализом разных вариантов одиночных и ансамблевых моделей классификации и выбором наилучшего варианта. Результаты вычислительных экспериментов показали преимущества использования ансамблевых алгоритмов по сравнению с одиночными классификаторами (повышение точности классификации) при исследовании уровня засоренности с/х участка. Наиболее эффективным по точности классификации оказался алгоритм градиентного бустинга. Значение меры AUC составило на тестовой выборке 0.8918, F-меры — 0.6246, МСС (коэффициент Мэттьюса) — 0.6260, ВА (сбалансированная точность) — 0.7951, что говорит о сравнительно высокой точности построенного классификатора. Для прогнозирования уровней засоренности с/х участков наиболее важными являются классы (уровни) «высокий» и «средний», так как эти уровни могут негативно влиять на урожайность культурных растений. Использование однородных ансамблей позволило повысить доли правильных ответов на уровне «средний» (в среднем на 15%) и на уровне «высокий» (в среднем на 24%). By now, numerous algorithms have been developed and studied to solve classification problems, but the issue of improving the quality (accuracy and stability) of classification results in various economic sectors, including agriculture, remains relevant. One solution to this problem is the development of algorithms and classification methodologies based on the ensemble approach. This study presents a developed multi-stage algorithm for solving the classification problem of agricultural indicators, which combines a set of intelligent data analysis and machine learning methods based on the application of ensemble models. In summary, the algorithm consists of the following main stages: initial data analysis and processing; addressing class imbalance using sampling methods; classification using single and ensemble machine learning models with automatic parameter tuning; evaluation of the classification solution's quality. The proposed algorithm has been implemented in an interactive web application that combines the core of statistical computations in the R language with a graphical user interface created using a combination of modern technologies: the Shiny framework, JavaScript, CSS, and HTML. The algorithm was tested on real agricultural data related to the levels of weediness of agricultural plots (four levels of site weediness). The article provides a detailed description of the algorithm stage associated with the construction and comparative analysis of different options for single and ensemble classification models, leading to the selection of the best-performing variant. The results of computational experiments demonstrated the advantages of using ensemble algorithms compared to single classifiers, resulting in improved classification accuracy when investigating the level of weediness of agricultural plots. The gradient boosting algorithm proved to be the most effective in terms of classification accuracy. The AUC measure achieved a value of 0.8918 on the test dataset, with an F-measure of 0.6246, Matthews correlation coefficient (MCC) of 0.6260, and balanced accuracy (BA) of 0.7951, indicating a relatively high accuracy of the constructed classifier. For predicting the level of weediness of an agricultural plot, the most important classes (levels) were “high” and “medium”, as these levels can negatively affect crop yields. Using homogeneous ensembles significantly increased the proportion of correct answers for the "medium" level (on average by 15%) and for the “high” level (on average by 24%).
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.