Recently, various areas of artificial language processing have been actively developing, such as search engines, machine translation technologies, speech technologies, etc. using machine learning technology and non-neural networks. For the implementation and development of these areas, first of all, the task of electronic linguistic resources such as corpora, dictionaries, a set of rules, etc. is acute. These resources should be of a very large volume of good quality. In this article, the problem of shortage of buildings for low-resource languages, which include the Turkic-speaking group, is considered. This is a problem for low-resource languages, such as Kazakh, because there are very few available corpora. This article presents an approach to the creation of synthetic corpora by the method of determining and replacing a candidate word from the list of synonymous dictionary of the Kazakh language. Test experiments were conducted. As a result, the specified case was enlarged 3.37 times. Keywords: corpora, Kazakh language, synonyms, linguistic resources.
В последнее время активно развиваются различные направления обработки искусственного языка, такие как поисковые системы, технологии машинного перевода, речевые технологии и т. д. с использованием технологий машинного обучения и нейронных сетей. Для реализации и развития этих направлений, в первую очередь, решаются задачи электронных лингвистических ресурсов, таких как корпуса, словари, своды правил и т.п. является острым. Эти ресурсы должны быть очень большого объема хорошего качества. В статье рассматривается проблема нехватки корпусов для малоресурсных языков, к которым относится тюркоязычная группа. Это проблема для языков с низким ресурсом, таких как казахский, потому что доступных корпусов очень мало. В статье представлен подход к созданию синтетических корпусов методом определения и замены слова- кандидата из списка синонимического словаря казахского языка. Были проведены тестовые эксперименты. В результате указанный корпус был увеличен в 3,37 раза. Ключевые слова: корпусы, казахский язык, синонимы, лингвистические ресурсы.
Соңғы кездері машиналық оқыту технологиялары мен нейрондық емес желілерді пайдалана отырып, іздеу жүйелері, машиналық аударма технологиялары, сөйлеу технологиялары және т.б. сияқты жасанды тілдерді өңдеудің әртүрлі бағыттары белсенді түрде дамып келеді. Бұл бағыттарды жүзеге асыру және дамыту үшін ең алдымен электронды лингвистикалық ресурстардың корпустар, сөздіктер, ережелер жинағы және т.б. міндеттері шешіледі. өткір. Бұл ресурстар өте үлкен және сапалы болуы керек. Бұл мақалада түркітілдес топты қамтитын ресурсы төмен тілдердің корпусының жетіспеушілігі мәселесі қарастырылады. Бұл қазақ тілі сияқты ресурсы төмен тілдер үшін проблема, өйткені қол жетімді корпустар өте аз. Бұл мақалада қазақ тілінің синонимдік сөздігінің тізімінен үміткер сөзді анықтау және ауыстыру әдісі арқылы синтетикалық корпус жасау тәсілі берілген. Сынақ эксперименттері жүргізілді. Нәтижесінде көрсетілген корпус 3,37 есеге ұлғайды. Түйін сөздер: корпус, қазақ тілі, синонимдер, лингвистикалық ресурстар.