Distinction of texts in one language from texts in others is necessary to solve the problems of automated text analysis. The paper presents criteria and critical values for recognizing English-language and Russian-language texts. The obtained criteria are estimated by experiments. The paper describes the methods to estimate the size of character codes and to identify a space character in a text. The algorithm for recognizing texts in the English and Russian languages with arbitrary encoding is studied and its accuracy is estimated experimentally.
Для решения ряда задач анализа текстов, особенно криптографических, необходимы из-вестные значения определенных частотных характеристик текстов на естественном языке. В статье приведены результаты измерений в зависимости от объемов для русскоязычных тек-стов полноты использования букв алфавита, частоты и места в частотном упорядочивании пробела и двух следующих за ним букв, индекса совпадения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что единственным знаком в русскоязычных текстах, который может быть идентифицирован по частоте встречаемости в тексте, является знак про-бела. Получена оценка случаев, когда пробел находится не на первом месте в частотном упо-рядочивании знаков текста. Показано, что измерение частоты встречаемости не позволяет от-ветить на вопрос о наличии или отсутствии знака пробела в тексте.Показано, что даже при малых объемах русскоязычных текстов в них используются практически все буквы алфавита. Наряду с индексом совпадения и другими характеристиками полученные значения использования букв языка в текстах различного объема могут быть ис-пользованы для отделения русскоязычных текстов от текстов на других языках. Определено среднее значение индекса совпадения для текстов, в которых используется только 31 буква русского алфавита в одном регистре, а также доверительные интервалы для различных объе-мов текстов, для которых не менее 95 % значений индекса для русскоязычных текстов будут находиться внутри данных интервалов.Ключевые слова: выборка, тексты, буквы, частота встречаемости, аппроксимация, идентификация, индекс совпадения, стандартное отклонение.
The paper discusses generation of pseudo-random texts based on frequency characteristics of texts in natural languages. The follow frequency characteristics of texts and their values for the Russian and English languages are considered for generation: the distribution of unigrams and bigrams over frequency of occurrence in texts, the distribution of words over the length. Based on the considered frequency characteristics, an algorithm for generating pseudo-random texts is suggested. Texts generated according to the algorithm are studied in experiments of language recognition in texts.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.