This article discusses the possibility of improving the existing instrumental calculation method for assessing the security of meeting rooms by moving from the Pokrovsky formant method to using speech recognition algorithms based on deep neural networks. In our case, it is proposed to use recurrent neural networks that have shown themselves best in terms of information processing with low SNR ratios. Also, using the long-term short-term memory of a recurrent neural network, it is proposed to improve the test signal. In addition, it substantiates the need to take into account the individual characteristics of the room and the possibility of using interference, such as a “speech choir”.
В статье обсуждается возможность изменения существующего подхода к оценке защищенности помещений, предназначенных для проведения закрытых переговоров за счет перехода от формантной методики оценки разборчивости речи Н.Б. Покровского к использованию алгоритмов распознавания речи на основе глубоких нейронных сетей. В данном случае предлагается использовать рекуррентные нейронные сети, которые лучше всего зарекомендовали себя с точки зрения обработки информации с низкими отношениями сигнал/шум. Также для повышения эффективности распознавания предлагается использовать в качестве тестового сигнала не произвольную речь, а заранее известный нашему алгоритму распознавания тестовый сигнал. Кроме того, обосновывается необходимость учета индивидуальных особенностей помещения и диктора, а также возможность использования помех типа «речевой хор».
В статье рассматриваются две часто используемые системы распознавания речи - YandexSpeech.Kit и Google Speech Recognition. Проводится сравнение данных систем при распознавании зашумленной речи при разных отношениях сигнал/шум. На речь уровня 65 дБ накладывается шум, отличающейся от нее по уровню от 20 дБ до -5 дБ с шагом 5 дБ. Отмечается, что предварительное обучение системы распознавания речи не проводится, в эксперименте применяются голоса четырех дикторов общей длительностью записи 100 минут. Экспериментальным путем выявлено, что при низком отношении сигнал/шум системы распознавания речи справляются недостаточно качественно, следовательно, их необходимо доработать для того, чтобы при низком отношении сигнал/шум иметь приемлемый коэффициент распознавания.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.