Comparison between different feature extraction techniques for audio-visual speech recognition

Chitu, Alin; Rothkrantz, Léon J. M.; Wiggers, Pascal; Wojdeł, Jacek C.

doi:10.1007/bf02884428

Cited by 26 publications

(14 citation statements)

References 39 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực.…”

Section: Giới Thiệuunclassified

“…Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực. Hệ thống thực hiện rút trích đặc trưng âm thanh MFCC, không cần qua bước tiền xử lý và biểu diễn phức tạp, hệ thống sử dụng giải thuật NBNN (Naïve Bayes Nearest Neighbor [2]) để nhận dạng trực tiếp tiếng nói là các lệnh điều khiển.…”

Section: Giới Thiệuunclassified

See 1 more Smart Citation

Điều Khiển Robot Pioneer P3-Dx Bằng Tiếng Nói Với Đặc Trưng MFCC Và Giải Thuật Naïve Bayes Nearest Neighbors

Thành¹,

Nghị²,

Khang³

et al. 2016

Fair - Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin 2015

View full text Add to dashboard Cite

I. GIỚI THIỆUNghiên cứu điều khiển robot là bài toán được các nhà khoa học quan tâm, nhằm phục vụ cho con người trong nhiều lĩnh vực ứng dụng như: robot khuân hàng hóa, robot dọn rác, lau nhà, đá bóng, dẫn dường, robot trong công nghiệp ôtô, thăm dò khai thác mỏ, robot thợ lặn, v.v. Do có tính ứng dụng cao nên các nhà nghiên cứu đã bắt tay vào phát triển robot thông minh hơn, phục vụ tốt cho nhu cầu phát triển kinh tế -xã hội. Để làm được điều đó, cần có sự kết nối giữa "bộ não thông minh" và robot để tạo nên những robot thông minh như ngày nay. Máy học chính là nền tảng giúp robot có thể thông minh, hoạt động tinh vi hơn. Trong các hướng nghiên cứu về lĩnh vực robot, điều khiển robot thông qua nhận dạng hình ảnh và nhận dạng tiếng nói là một trong những lĩnh vực được các nhiều nhà nghiên cứu quan tâm rất nhiều do tính khả thi và khả năng ứng dụng trong thực tiễn.Hiện nay các nghiên cứu liên quan đến nhận dạng tiếng nói đã được thực hiện trên nhiều hướng phát triển, mục tiêu khác nhau và đạt hiệu quả cao. Tiêu biểu là hệ thống Desktop Via Voice của IBM hay hệ thống Speed Recognition Engine của Microsoft và bộ công cụ HTK dựa trên mô hình Markov ẩn của Đại học Cambridge hay Đại học Mellon với CMU Sphinx. Những sản phẩm (công cụ) đã được áp dụng nhiều trong thực tế, nhận dạng và xử lý âm thanh. Hệ thống nhận dạng tiếng nói bao gồm hai bước chính [5], [6], [7]: rút trích và biểu diễn đặc trưng, huấn luyện mô hình máy học nhận dạng. Rút trích và biểu diễn đặc trưng tín hiệu âm thanh thường được sử dụng [6] Trong bài viết này, chúng tôi đề xuất hệ thống nhận dạng tiếng nói để điều khiển robot Pioneer P3-DX theo thời gian thực. Hệ thống thực hiện rút trích đặc trưng âm thanh MFCC, không cần qua bước tiền xử lý và biểu diễn phức tạp, hệ thống sử dụng giải thuật NBNN (Naïve Bayes Nearest Neighbor [2]) để nhận dạng trực tiếp tiếng nói là các lệnh điều khiển. Kết quả thử nghiệm trên tập dữ liệu thu thập từ 20 người nói khác nhau cho thấy đề xuất của chúng tôi đạt được độ chính xác đến 98.5% nhưng vẫn đáp ứng được về thời gian nhận dạng để điều khiển robot theo thời gian thực.Phần tiếp theo của bài báo được tổ chức như sau: Phần II giới thiệu về robot Pioneer P3-DX. Phần III trình bày việc điều khiển robot Pioneer P3-DX bằng tiếng nói thông qua giải thuật NBNN với đặc trưng MFCC được rút trích để nhận dạng. Phần IV trình bày kết quả thực nghiệm cũng như cách di chuyển của robot và khoảng cách thông qua Sonar và Laser tương ứng với vận tốc điều khiển robot trước khi kết luận và hướng phát triển được trình bày trong phần V. II. SƠ LƯỢC VỀ ROBOT PIONEER P3-DXRobot được sử dụng trong bài báo này là loại robot di động của hãng Adept Mobile Robot với dòng Pioneer P3-DX. Robot Pioneer [22] là một dòng sản phẩm robot được nhiều nhà chuyên gia, các nghiên cứu đánh giá cao và được

show abstract

Section: Giới Thiệuunclassified

Điều Khiển Robot Pioneer P3-Dx Bằng Tiếng Nói Với Đặc Trưng MFCC Và Giải Thuật Naïve Bayes Nearest Neighbors

Thành¹,

Nghị²,

Khang³

et al. 2016

Fair - Nghiên Cứu Cơ Bản Và Ứng Dụng Công Nghệ Thông Tin 2015

View full text Add to dashboard Cite

show abstract

“…LBP was developed by Timo Ojala and Matti Pietikainen and presented in (Ojala & Pietikainen, 1997). A special place in this class is taken by the feature vectors that are based on Optical Flow Analysis (OFA) (Mase & Pentland, 1991); (Martin, 1995); (Gray et al, 1997); (Fleet et al, 2000); (Iwano et al, 2001); (Tamura et al, 2002); (Furui, 2003); (Yoshinaga et al, 2003); (Yoshinaga et al, 2004); ; (Chitu et al, 2007); (Chitu & Rothkrantz, 2009). The optical flow is defined as "the apparent velocity field in an image".…”

Section: Feature Vectors Definitionmentioning

confidence: 99%

“…For instance (Dupont & Luettin, 2000) and (Luettin et al, 1996) combine ASM with PCA features and (Chiou & Hwang, 1997) combines snake features with PCA. It was shown that the tongue, teeth and cavity have great influence on lip reading (Williams et al, 1998), therefore, the addition of these appearance related elements has significant influence on the performance of lip reading (Chitu et al, 2007). A special example is the so called Active Appearance Models (AAM) (Cootes et al, 1998) which combines the ASM method with texture based information to accurately detect the shape of the mouth or the face.…”

Section: Feature Vectors Definitionmentioning

confidence: 99%

Automatic Visual Speech Recognition

Chitu¹,

Rothkrantz²

2012

Speech Enhancement, Modeling and Recognition- Algorithms and Applications

View full text Add to dashboard Cite

“…Despite its limitations, speech recognition technology is valuable tool in many applications like live subtitling on television, dictation in Medical transcriptions, Command Control in Robotics, speech to text conversion for note making systems, replacement of keyboard and mouse for physically or visually challenged people. In noisy environment the accuracy level of ASR system will suffer greatly [1]. To recover original speech from noisy speech signal several speech de-noising methods are available.…”

Section: Introductionmentioning

confidence: 99%

Speech Query Recognition for Tamil Language Using Wavelet and Wavelet Packets

Iswarya¹,

Radha²

2015

J Inf Process Syst

View full text Add to dashboard Cite

Speech recognition is one of the fascinating fields in the area of Computer science. Accuracy of speech recognition system may reduce due to the presence of noise present in speech signal. Therefore noise removal is an essential step in Automatic Speech Recognition (ASR) system and this paper proposes a new technique called combined thresholding for noise removal. Feature extraction is process of converting acoustic signal into most valuable set of parameters. This paper also concentrates on improving Mel Frequency Cepstral Coefficients (MFCC) features by introducing Discrete Wavelet Packet Transform (DWPT) in the place of Discrete Fourier Transformation (DFT) block to provide an efficient signal analysis. The feature vector is varied in size, for choosing the correct length of feature vector Self Organizing Map (SOM) is used. As a single classifier does not provide enough accuracy, so this research proposes an Ensemble Support Vector Machine (ESVM) classifier where the fixed length feature vector from SOM is given as input, termed as ESVM_SOM. The experimental results showed that the proposed methods provide better results than the existing methods.

show abstract

Comparison between different feature extraction techniques for audio-visual speech recognition

Cited by 26 publications

References 39 publications

Điều Khiển Robot Pioneer P3-Dx Bằng Tiếng Nói Với Đặc Trưng MFCC Và Giải Thuật Naïve Bayes Nearest Neighbors

Điều Khiển Robot Pioneer P3-Dx Bằng Tiếng Nói Với Đặc Trưng MFCC Và Giải Thuật Naïve Bayes Nearest Neighbors

Automatic Visual Speech Recognition

Speech Query Recognition for Tamil Language Using Wavelet and Wavelet Packets

Contact Info

Product

Resources

About