Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες. Συγκεκριμένα, η προτεινόμενη μεθοδολογία περιλαμβάνει 1) επιλογή αξιόπιστων μικροφώνων βάσει κριτηρίων ποιότητας των σημάτων, 2) συνδυασμό των αποφάσεων των μικροφώνων με αναδιάταξη των υποθέσεων αναγνώρισης, 3) εκπαίδευση τύπου multi-style με τεχνητή αύξηση των δεδομένων εκπαίδευσης προσομοιώνοντας ακουστικές σκηνές και σήματα ομιλίας μακρινού πεδίου (far-field) για εφαρμογές σε περιβάλλοντα με περιορισμένους πόρους, και 5) εξαγωγή μη-γραμμικών χαρακτηριστικών AM-FM.Προτείνεται μέθοδος πολυκαναλικής αποδιαμόρφωσης των σημάτων φωνής, για την εξαγωγή βελτιωμένων χαρακτηριστικών από τις στιγμιαίες διαμορφώσεις συχνότητας, οι οποίες μοντελοποιούν τις μικροδομές των συντονισμών της φωνής και αποτελούν χρήσιμη και συμπληρωματική πηγή πληροφορίας στα τυπικά χαρακτηριστικά ενέργειας (πχ. MFCC). Ενώ έχουν βρεθεί βελτιώσεις κυρίως σε συστήματα GMM-HMM μεγάλου λεξιλογίου, λίγες είναι οι εφαρμογές τους σε συστήματα DNN-HMM και στην αναγνώριση DSR γενικά. Εδώ, εργαζόμαστε για τη συνέργιά τους σε state-of-the-art σχήματα front-end στα οποία τα MFCCs ομαδοποιούνται σε μεγαλύτερα χρονικά πλαίσια (context) και μετασχηματίζονται έτσι ώστε να γίνουν πιο διακριτά και ανεξάρτητα του ομιλητή. Ερευνούμε 1) πολυκαναλικές μεθόδους αποδιαμόρφωσης, 2) νέους και πλουσιότερους περιγραφητές των συχνοτήτων διαμόρφωσης, και 3) μετασχηματισμούς και συνδυασμό χαρακτηριστικών μέσω ιεραρχικών βαθιών νευρωνικών δικτύων τύπου bottleneck. Παρουσιάζουμε αποτελέσματα στα σχήματα υβριδικής αναγνώρισης και αναγνώρισης tandem με μοντελοποίηση GMM και DNN αντίστοιχα, όπου τα βελτιωμένα χαρακτηριστικά διαμορφώσεων συνδυάζονται αποδοτικά με τα MFCC και οδηγούν σε βελτιωμένη απόδοση σε γνωστές πολυκαναλικές βάσεις αξιολόγησης της αναγνώρισης από απόσταση (Distant Speech Recognition).Βασιζόμαστε στις προτεινόμενες πολυκαναλικές μεθόδους για να σχεδιάζουμε ένα πρακτικό σύστημα συνεχούς αναγνώρισης φωνητικών εντολών μακρινού πεδίου, σε ευφυή οικιακά περιβάλλοντα με διάσπαρτες συστοιχίες μικροφώνων σε ένα ή περισσότερα δωμάτια. Ακολουθούμε μία τυπική σειρά (cascade) διεργασιών για τον εντοπισμό και την αναγνώριση εντολών, με τον εντοπισμό να γίνεται βάσει φράσεων ενεργοποίησης. Στην αρχή της αλυσίδας επεξεργασίας, τα τμήματα ομιλίας εντοπίζονται και διαχωρίζονται σε κάθε δωμάτιο, επιτρέποντας την αναγνώριση ανά δωμάτιο. Με την προτεινόμενη προσέγγιση, η οποία αναπτύσσεται για τα Ελληνικά, επιτυγχάνεται ικανοποιητική απόδοση σε πραγματικές και δύσκολες οικιακές ακουστικές σκηνές, φτάνοντας έως 76.6% στην ακρίβεια αναγνώρισης εντολών, επιφέροντας σχετική βελτίωση 46% συγκριτικά με ένα τυπικό σύστημα στο οποίο χρησιμοποιείται beamforming για αποθορυβοποίηση.Υλοποιούμε την online εκδοχή του προτεινόμενου συστήματος αναγνώρισης φωνητικών εντολών για τέσσερις γλώσσες (Ελληνικά, Γερμανικά, Ιταλικά, Αγγλικά) και το συνδυάζουμε με την αναγνώριση χειρονομιών στοχεύοντας στην πολυτροπική αλληλεπίδραση ανθρώπου-ρομπότ. Στο πλαίσιο σχεδιασμού ρομποτικών βοηθών, αναπτύσσουμε ένα φυσικό περιβάλλον αλληλεπίδρασης εκμεταλλευόμενοι τις πολλαπλές ροές πληροφορίας από το πολυαισθητηριακό περιβάλλον του ρομπότ. Οι συμπληρωματικές ροές συνδυάζονται σε επίπεδο αποφάσεων για να εξαχθεί μία πολυτροπική υπόθεση αναγνώρισης. Επιπλέον, μέσω της αλληλεπίδρασης με το ρομπότ, εξετάζουμε νέες πτυχές στο πεδίο της ρομποτικής για υποβοήθηση στην καθημερινότητα (assistive living), αναπτύσσοντας ένα σύνολο εργαλείων και δεδομένων για πολυτροπική αναγνώριση, τα οποία εφαρμόζουμε σε δύο πραγματικά παραδείγματα χρήσης (use cases) για ηλικιωμένους χρήστες: κατά την υποβοήθηση στην κίνηση από ένα ρομποτικό τροχήλατο όχημα και κατά την υποβοήθηση σε εργασίες πλύσης από έναν ρομποτικό βοηθό στο μπάνιο. Ακολουθώντας την προτεινόμενη σύμμειξη των δύο μέσων επιτυγχάνουμε υψηλά ποσοστά πολυτροπικής αναγνώρισης (έως 90%) σε απαιτητικά σενάρια αλληλεπίδρασης με ηλικιωμένους και χρήστες με κινητικά και ενδεχομένως νοητικά προβλήματα.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.