Для решения ряда задач анализа текстов, особенно криптографических, необходимы из-вестные значения определенных частотных характеристик текстов на естественном языке. В статье приведены результаты измерений в зависимости от объемов для русскоязычных тек-стов полноты использования букв алфавита, частоты и места в частотном упорядочивании пробела и двух следующих за ним букв, индекса совпадения. Измерения проведены на двух представительных выборках для научно-популярных и художественных текстов и текстов учебных пособий для вузов. Показано, что единственным знаком в русскоязычных текстах, который может быть идентифицирован по частоте встречаемости в тексте, является знак про-бела. Получена оценка случаев, когда пробел находится не на первом месте в частотном упо-рядочивании знаков текста. Показано, что измерение частоты встречаемости не позволяет от-ветить на вопрос о наличии или отсутствии знака пробела в тексте.Показано, что даже при малых объемах русскоязычных текстов в них используются практически все буквы алфавита. Наряду с индексом совпадения и другими характеристиками полученные значения использования букв языка в текстах различного объема могут быть ис-пользованы для отделения русскоязычных текстов от текстов на других языках. Определено среднее значение индекса совпадения для текстов, в которых используется только 31 буква русского алфавита в одном регистре, а также доверительные интервалы для различных объе-мов текстов, для которых не менее 95 % значений индекса для русскоязычных текстов будут находиться внутри данных интервалов.Ключевые слова: выборка, тексты, буквы, частота встречаемости, аппроксимация, идентификация, индекс совпадения, стандартное отклонение.
Аннотация -Для прогнозирования количества инцидентов в системе информ ационной безопасности (ИБ) предприятия предлагается использовать линейную дискретную стохастическую модель в форме пространства состояний (ПС). Описывается алгоритм построения данной модели. Согласно построенной модели и с учетом уравнений фильтра Калмана осуществляется расчет оценок предсказания и фильтрации относительно количества инцидентов ИБ.Ключевые слова -Инцидент информационной безопасности, уровень «зрелости» предприятия, модель в форме пространства состояний, фильтр Калмана.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.