У статті запропоновано рішення однієї із задач комп'ютерної лінгвістики, описана теоретична розробка і програмна реалізація уточненого методу формування простору ознак категорій при класифікації текстів за тематикою. Виконано дослідження ефективності запропонованого методу при використанні в процесі класифікації текстових документів.В рамках однієї тематики спостерігається використання однакової термінології в декількох категоріях, що підвищує складність процесу класифікації. Особливість уточненого методу полягає в тому, що він дозволяє виконати класифікацію документів за категоріями загальної тематики і таким чином отримати більш точний результат.Уточнений метод формування простору ознак категорій включає в себе етапи попередньої обробки тексту і формування простору ознак. Етап попередньої обробки тексту характеризується залежністю даного процесу від мови тексту, що зумовлює використання алгоритмів, спеціалізованих для окремих мов. В даному дослідженні розглядаються тексти українською мовою. Стемінг, як один з кроків попередньої обробки тексту, побудований на основі адаптованого методу для текстів українською мовою. Він враховує особливості синтаксису і словотворення в даній мові. Формування простору ознак категорій виконується на основі методу TF-SLF, який враховує входження слів в кожну категорію, а також подальшої фільтрації отриманого простору на основі порогового значення, що відображує важливість кожного слова для певної категорії.В результаті послідовного виконання всіх етапів уточненого методу формується простір ознак окремих категорій, з яких виключаються малоїнформатівни терми. Це призводить до зменшення кількості ітерацій і розрахунків при подальшій класифікації, що в свою чергу веде до загального скорочення часових витрат на рішення задачі.На основі запропонованого авторами уточненого методу формування простору ознак розроблено програмний комплекс, за допомогою якого підтверджено доцільність практичного застосування методу.Ключові слова: класифікація тексту, попередня обробка тексту, стемінг, фільтрація, простір ознак категорій.
The purpose of these studies is to develop an effective structure and internal functional blocks of a digital computing device – an adder, that performs addition and subtraction operations on floating- point numbers presented in IEEE Std 754TM-2008 format. To improve the characteristics of the adder, the circuit uses conveying, that is, division into levels, each of which performs a specific action on numbers. This allows you to perform addition / subtraction operations on several numbers at the same time, which increas- es the performance of calculations, and also makes the adder suitable for use in modern synchronous cir- cuits. Each block of the conveyor structure of the adder on FPGA is synthesized as a separate project of a digital functional unit, and thus, the overall task is divided into separate subtasks, which facilitates experi- mental testing and phased debugging of the entire device. Experimental studies were performed using EDA Quartus II. The developed circuit was modeled on FPGAs of the Stratix III and Cyclone III family. An ana- logue of the developed circuit was a functionally similar device from Altera. A comparative analysis is made and reasoned conclusions are drawn that the performance improvement is achieved due to the conveyor structure of the adder. Implementation of arithmetic over the floating-point numbers on programmable logic integrated cir- cuits, in particular on FPGA, has such advantages as flexibility of use and low production costs, and also provides the opportunity to solve problems for which there are no ready-made solutions in the form of stand- ard devices presented on the market. The developed adder has a wide scope, since most modern computing devices need to process floating-point numbers. The proposed conveyor model of the adder is quite simple to implement on the FPGA and can be an alternative to using built-in multipliers and processor cores in cases where the complex functionality of these devices is redundant for a specific task.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.