УДК 004.93'1 Н.Л. Дорош, Т.М. Фененко ДОСЛІДЖЕННЯ ДЕСКРИПТОРІВ ЩОДО РОЗПІЗНАВАННЯ ЦИФР НАБОРУ MNIST Анотація. Кращі результати розпізнавання цифр отримані на основі нейронних мереж і мають помилку менше 1%. Успішні алгоритми розпізнавання, в тому числі і глибокого навчання, приховані від користувача і складні в описі, тому не втратили свою актуальність алгоритми на основі дескрипторів. Метою роботи є вибір та дослідження дескрипторів для розпізнавання набору MNIST. Виконано розпізнавання цифр на основі 12 дескрипторів із застосуванням моделей з бібліотеки Scikit-Learn Python. За результатами розпізнавання методом k-середніх з'ясовано, що доцільно обрати 8 дескрипторів. Ключові слова: розпізнавання, цифри рукопису MNIST, дескриптори, Ху-моменти, гістограми, Python, Scikit-Learn, метод k-середніх � Постановка проблеми. Робота присвячена вирішенню задачі розпізнавання цифр. Актуальність дослідження пов'язана з практичною проблемою і представляє інтерес в багатьох сферах діяльності людини. Наприклад, існує проблема розпізнавання номерів автомобілів, вагонів та інших об'єктів, які отримані з використанням відеозйомки. Але безлічі зображень, що представляють інтерес в тому, або іншому додатку, не належать до класу множин, ретельно вивчених у процесі багатовікових математичних досліджень. Істотні позитивні результати з розпізнавання зображень не можуть бути отримані на підставі лише загальних рекомендацій теорії розпізнавання. Необхідно вивчати і враховувати виняткову специфікацію зображення, як об'єкта формального аналізу [1,2]. В роботі проведено аналіз дескрипторів, які були використані в вирішенні задачі розпізнавання цифр рукопису. Аналіз останніх досліджень і публікацій. На підставі результатів двадцятирічних досліджень можна переконатися, що проблема розпізнавання цифр хоча і добре вивчена, але до теперішнього часу представ-��������������������������������� ��Дорош Н.Л., Фененко Т.М., 2020� «Системні технології» 2 (127) 2020 «System technologies» ISSN 1562-9945 (Print) ISSN 2707-7977 (Online) 46 ляє чималий інтерес. Є велика кількість робіт, присвячених розпізнаванню рукописних цифр, які представлені зображеннями [3-7]. При цьому ISSN 2707-7977 (Online) 51 знавання -78,14%, оцінка точності проведена з використанням перехресної перевірки. Допущення про виключення з набору дескрипторів H5, H6, H7 підтвердилися, було також з'ясовано, що необхідно виключити з набору Ec.Таким чином, для розпізнавання набору рукописних цифр методом k-середніх з n_neighbors = 10 доцільно взяти 8дескрипторів замість 12. Виключити п'ятий, шостий і сьомий Ху-моменти і ексцентрісітет. Точність розпізнавання склала 78,58% проти 78,14%.
The goal of the work is the study of influence of descriptors and reduction of their quantity for recognition of MNIST database of handwritten digits.For recognition of the MNIST digits, a set of 12 descriptors was chosen. Statistical analysis of descriptors was performed. Analysis of descriptors gave the reason to assume, that the fifth, sixth and seventh Hu-moments doesn’t contribute into result of digit recognition. Digit recognition with usage of classifier based on on k-means method with n_neighbors = 10 of Scikit-Learn Python system library was done. Best results using 8 descriptors, excluding the fifth, sixth and seventh Hu-moments and eccentricity. Recognition accuracy was 78.58% compared to 78.14%.
Проведено дослідження моделей згорткової нейронної мережі (Convolutional neural network – CNN) з метою підвищення точності розпізнавання Fashion MNIST DATASET. З огляду відомо, що розпізнавання елементів одягу набору Fashion MNIST є більш складним ніж розпізнавання набору рукопису цифр MNIST. Набор одягу Fashion-MNIST рекомендовано для досліджень різних архітектур нейронних мереж. Найкращі результати якості розпізнавання Fashion MNIST DATASET отримано за згортковою нейронною мережею. В даній роботі було метою покращити точність розпізнавання Fashion MNIST DATASET за рахунок дослідження різних архітектур CNN та їх параметрів. Обрано дві архітектури послідовної згорткової нейронної мережі з тих, у яких точність розпізнавання Fashion MNIST DATASET більше ніж 93%. Проведено дослідження їх архітектур та параметрів. Моделі відповідають визначенню нейронних глибоких мереж та мають різну кількість шарів. В дослідженнях моделей показано вплив параметрів batch_size, validation_split, validation_data на точність розпізнавання, а також варіанти розташування шару BatchNormalization та шару активації; вплив параметра “filters” для згорткового шару. Крім того, було використано два варіанти вибору валідаційної вибірки: перший – з набору даних для навчання (20%), а другий – набор даних тестування. При розрахунках число епох навчання дорівнювало 20. В процесі навчання вирішувалось питання не допустити перенавчання за допомогою аналізу функції втрат. Використано бібліотеки TensorFlow, Keras, мову програмування Python. Розроблено програмні модулі, які було реалізовано у хмарному сервісі Google Colab. В результаті досліджень підтверджено заявлену у роботах інших авторів точність розпізнавання >93% Fashion MNIST DATASET та отримано покращену точність розпізнавання в 94,16% для однієї з обраних моделей. Обґрунтовано вплив параметру batch_size на точність розпізнавання, обрано значення batch_size відповідно найкращому результату розпізнавання Fashion MNIST DATASET. Продемонстровано, що збільшення кількості даних для навчання покращує точність розпізнавання при використанні параметра valid_data==(X_test, X_test_ labels) замість valid_split для даних навчання. Наведені результати чисельного експеримента, які підтверджують важливість та корисність застосування методів регуляризації для вирішення проблеми перенавчання: налаштування шарів Dropout дозволило покращити точність розпізнавання.
The work is devoted to the statistical analysis of the text and the study of the dynamics of classification. In the work, the selection of statistical features of the text, the classification of texts belonging to different authors, and the study of the dynamics of classification accuracy depending on the length of text fragments are carried out. To solve the problem, the following methods were used: natural language processing methods; statistical characteristics of texts; machine learning methods; dimensionality reduction methods for visualization capability. On the basis of the obtained dynamics of changes in classification accuracy depending on the lengths of text fragments, appropriate conclusions were drawn regarding the optimal length of texts used for training and testing models. The task was solved in the Jupyter Notebook software environment of the Anaconda distribution, which allows you to immediately install Python and the necessary libraries.
Національна металургійна академія України РОЗПІЗНАВАННЯ ЗОБРАЖЕНЬ НАБОРУ FASHION MNIST МЕТОДАМИ ГЛИБОКОГО НАВЧАННЯ Огляд сучасних методів розпізнавання об'єктів-зображень показав, що алгоритми глибокого навчання успішно використовуються і дозволяють отримати високу якість. Прикладом можливо привести якість розпізнавання символів набору MNIST, яка наблизилась до 100%. Для другого набору даних, який теж популярний при тестуванні алгоритмів глибокого навчання, а саме, набору елементів одягу та аксесуарів Fashion MNIST, така висока якість розпізнавання ще не отримана. У роботі представлені результати розпізнавання даних Fashion MNISТ. Розглянуті моделі нейронної мережі прямого поширення і згорткової мережі. Виконано програмну реалізацію алгоритмів глибокого навчання, а саме, розглянуто багатошарову мережу прямого поширення (FNN) та згорткову нейронну мережу (CNN). Використано мову Python, бібліотеки TensorFlow та Keras Бібліотека Keras дозволяє спрощувати виклики функцій з TensorFlow. Типовий процес роботи в Python Keras полягає в наступному: завантаження необхідних модулів, завантаження даних, попередня обробка, розбивка їх на навчальну, тестову і валідаційну частини; створення моделі із зазначенням архітектури, та інше. Розроблено модуль для перегляду зображень набору даних, параметрів мережі та інформації з якості розпізнавання. Виконано чисельний експеримент розпізнавання елементів одягу засобами FNN. Проведено автоматичне налаштування гіперпараметрів мережі. Якість розпізнавання на тестових даних дорівнює 0,89. Налаштування гіперпараметрів покращило якість несуттєво. Невисока якість розпізнавання пояснюється також використанням дуже простої моделі нейронної мережі. Поліпшення результатів було досягнуто з використанням згорткової нейронної мережі. Кращій результати розпізнавання, який отримано у роботі, дорівнює 91.26%, але відомий найкращий результат якості розпізнавання дорівнює 94%. Роботу з вдосконалення результатів розпізнавання зображень даних Fashion MNIST доцільно продовжити, а програмний засіб, який розроблено, можливо використовувати щодо розпізнавання інших даних. При творчому підході розпізнавання об'єктів зображень на Python з застосуванням бібліотек Keras Tensorflow і інших є дуже перспективним напрямком для практичного застосування.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.