2020
DOI: 10.3390/s20082326
|View full text |Cite
|
Sign up to set email alerts
|

Incorporating Noise Robustness in Speech Command Recognition by Noise Augmentation of Training Data

Abstract: The advent of new devices, technology, machine learning techniques, and the availability of free large speech corpora results in rapid and accurate speech recognition. In the last two decades, extensive research has been initiated by researchers and different organizations to experiment with new techniques and their applications in speech processing systems. There are several speech command based applications in the area of robotics, IoT, ubiquitous computing, and different human-computer interfaces. Various r… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
1
1

Citation Types

0
17
0
5

Year Published

2020
2020
2025
2025

Publication Types

Select...
6
1
1

Relationship

0
8

Authors

Journals

citations
Cited by 46 publications
(22 citation statements)
references
References 41 publications
0
17
0
5
Order By: Relevance
“…Sistemas de KWS têm como objetivo a identificação automática de palavras-chave, operando de maneira online em streaming de áudio ou de forma offline em arquivos de áudio [3], [4]. Preferencialmente, ambos os modos de operação devem proporcionar alta acurácia de reconhecimento, apresentando desempenhos robustos em aplicações práticas sujeitas a cenários acústicos com baixa SNR (para detalhes, veja [7]). Tipicamente, sistemas de KWS do estado-da-arte podem ser divididos em dois blocos principais: front-end e back-end [6].…”
Section: Sistemas De Detecção De Palavras-chaveunclassified
See 2 more Smart Citations
“…Sistemas de KWS têm como objetivo a identificação automática de palavras-chave, operando de maneira online em streaming de áudio ou de forma offline em arquivos de áudio [3], [4]. Preferencialmente, ambos os modos de operação devem proporcionar alta acurácia de reconhecimento, apresentando desempenhos robustos em aplicações práticas sujeitas a cenários acústicos com baixa SNR (para detalhes, veja [7]). Tipicamente, sistemas de KWS do estado-da-arte podem ser divididos em dois blocos principais: front-end e back-end [6].…”
Section: Sistemas De Detecção De Palavras-chaveunclassified
“…Em resumo, uma ResNet pode ser vista como um conjunto de CNNs empilhadas sequencialmente, em que cada conjunto é constituído por duas camadas convolucionais em série possuindo uma conexão de atalho que liga diretamente a entrada com a saída desses conjuntos. Tais conjuntos são comumente denominados blocos residuais [6], [7]. Particularmente, neste trabalho de pesquisa, cada bloco residual consiste de duas camadas convolucionais com 45 filtros de convolução, de dimensão 3×3 (3×3 conv, 45), seguidas por uma função de ativação de unidade linear retificada (rectified linear unit -ReLU) e uma camada de normalização em lote (batch normalization -BN).…”
Section: B Arquiteturas De Sistemas De Kwsunclassified
See 1 more Smart Citation
“…The End-to-End noisy speech recognition using Fourier and Hilbert spectrum features [4] has been improved the noise robustness by adding components to the recognition system. The incorporating noise robustness in speech command recognition by noise augmentation of training data is presented [5]. This work thoroughly analyses the latest trends in speech recognition and evaluates the speech command dataset on different machine learning-based and deep learning-based techniques.…”
Section: Introductionmentioning
confidence: 99%
“…The filter or kernel of the neural network is pruned using the filter clustering method proposed in this study that improves the processing speed while maintaining the abnormality detection performance. In addition, we used a convolutional neural network (CNN) based deep learning structure in this study because it guarantees an effective abnormality detection performance even in various noisy environments [23][24][25]. The remainder of this paper is organized as follows.…”
mentioning
confidence: 99%