2007
DOI: 10.1007/bf02884428
|View full text |Cite
|
Sign up to set email alerts
|

Comparison between different feature extraction techniques for audio-visual speech recognition

Abstract: Having a robust speech recognition system that can be relied upon in different environments is a strong requirement for modern systems. However audioonly speech recognition still lacks robustness when the signal to noise ratio decreases. This is especially true when the system is deployed in public spaces or is used for crises situations management where the background noise is expected to be extremely large. The video information is not affected by noise which makes it an ideal candidate for data fusion. The … Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2
2
1

Citation Types

0
11
0
3

Year Published

2010
2010
2023
2023

Publication Types

Select...
4
3
1

Relationship

0
8

Authors

Journals

citations
Cited by 26 publications
(14 citation statements)
references
References 39 publications
0
11
0
3
Order By: Relevance
“…Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực.…”
Section: Giới Thiệuunclassified
See 1 more Smart Citation
“…Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực.…”
Section: Giới Thiệuunclassified
“…Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực. Hệ thống thực hiện rút trích đặc trưng âm thanh MFCC, không cần qua bước tiền xử lý và biểu diễn phức tạp, hệ thống sử dụng giải thuật NBNN (Naïve Bayes Nearest Neighbor [2]) để nhận dạng trực tiếp tiếng nói là các lệnh điều khiển.…”
Section: Giới Thiệuunclassified
“…LBP was developed by Timo Ojala and Matti Pietikainen and presented in (Ojala & Pietikainen, 1997). A special place in this class is taken by the feature vectors that are based on Optical Flow Analysis (OFA) (Mase & Pentland, 1991); (Martin, 1995); (Gray et al, 1997); (Fleet et al, 2000); (Iwano et al, 2001); (Tamura et al, 2002); (Furui, 2003); (Yoshinaga et al, 2003); (Yoshinaga et al, 2004); ; (Chitu et al, 2007); (Chitu & Rothkrantz, 2009). The optical flow is defined as "the apparent velocity field in an image".…”
Section: Feature Vectors Definitionmentioning
confidence: 99%
“…For instance (Dupont & Luettin, 2000) and (Luettin et al, 1996) combine ASM with PCA features and (Chiou & Hwang, 1997) combines snake features with PCA. It was shown that the tongue, teeth and cavity have great influence on lip reading (Williams et al, 1998), therefore, the addition of these appearance related elements has significant influence on the performance of lip reading (Chitu et al, 2007). A special example is the so called Active Appearance Models (AAM) (Cootes et al, 1998) which combines the ASM method with texture based information to accurately detect the shape of the mouth or the face.…”
Section: Feature Vectors Definitionmentioning
confidence: 99%
“…Despite its limitations, speech recognition technology is valuable tool in many applications like live subtitling on television, dictation in Medical transcriptions, Command Control in Robotics, speech to text conversion for note making systems, replacement of keyboard and mouse for physically or visually challenged people. In noisy environment the accuracy level of ASR system will suffer greatly [1]. To recover original speech from noisy speech signal several speech de-noising methods are available.…”
Section: Introductionmentioning
confidence: 99%