Automated Detection of Transition Segments for Intensity and Time-Scale Modification for Speech Intelligibility Enhancement

Jayan, A. R.; Pandey, Prem C.; Lehana, Parveen

doi:10.1109/icscn.2008.4447162

Cited by 6 publications

(3 citation statements)

References 19 publications

Supporting

Mentioning

Contrasting

Order By: Relevance

“…Although they obtained intelligibility improvements of 7% at -10 dB SNR, they only evaluated their method at moderate noise levels (-10 and 0 dB) where intelligibility is not severely affected by background noise. Jayan et al described a real-time algorithm that improves speech intelligibility by increasing the duration and intensity of transient speech [9]. However, they presented psycho-acoustic testing results for only one subject.…”

Section: Introductionmentioning

confidence: 93%

Enhancement of speech intelligibility using transients extracted by wavelet packets

Rasetshwane

Boston

et al. 2009

2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

View full text Add to dashboard Cite

Speech transients have been shown to be important cues for identifying and discriminating speech sounds. We previously described a wavelet packet-based method for extracting transient speech (Rasetshwane et al. WASPAA 2007, pp. 179-182). The algorithm uses a "transitivity function" to characterize the rate of change of wavelet coefficients, and it can be implemented in real-time to process continuous speech. Psycho-acoustic experiments to select parameters for and to evaluate this method are presented. Results show that modified speech created by amplifying transient speech and adding it to original speech has higher percent word recognition scores than original speech in the presence of background noise.

show abstract

Section: Introductionmentioning

confidence: 93%

Enhancement of speech intelligibility using transients extracted by wavelet packets

Rasetshwane

Boston

et al. 2009

2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

View full text Add to dashboard Cite

show abstract

“…They found increases of up to 15% in recognition rates for words presented by a range of speakers in white noise. Real-time methods for improving intelligibility by emphasizing transient segments of speech have been described but these methods had limited ability to improve intelligibility [10] [11]. Techniques to emphasize transients have also been proposed for coding in cochlear implants and shown to improve recognition of speech cues [12] [13].…”

Section: Introductionmentioning

confidence: 99%

Speech enhancement by combination of transient emphasis and noise cancelation

Rasetshwane

Boston

Durrant

et al. 2011

2011 Digital Signal Processing and Signal Processing Education Meeting (DSP/SPE)

View full text Add to dashboard Cite

This paper evaluates the effectiveness of combining speech modification techniques that enhance transition components with active noise cancellation to improve the intelligibility of speech in noise. Two speech modification techniques were considered. One is based on wavelet-packet analysis, and the second uses a fixed filter, derived from timefrequency analysis, that emphasizes high frequencies.Active noise cancellation was provided by Bose noisecancelling headphones. The test noise was real, generated by a ground auxiliary generator on the tarmac at an Air National Guard facility. The test signals were speech tokens from the modified rhyme (psycho-acoustic) test, recorded by a male speaker. This paradigm was used to measure word recognition rates at various signal-to-noise ratios. Active noise cancellation by itself provided over 40% increase in word recognition, while the modified speech and fixed filter techniques alone provided up to 20% improvement, depending on the signal-to-noise ratio. In combination, the speech modification approaches provided over 15% additional improvement in intelligibility over noise cancellation alone.

show abstract

“…Psycho-acoustic tests showed an intelligibility enhancement of speech. Jayan et al (2008) achieved to detect automatically transient parts of speech and perform on these regions intensity and time-scale modifications. Intelligibility tests reported intelligibility enhancement of non-sense syllables on high noise levels (-9 and -12dB SNR).…”

Section: Consonant Propertiesmentioning

confidence: 99%

Intelligibility enhancement of casual speech based on clear speech properties

Koutsogiannaki¹,

Κουτσογιαννάκη²

View full text Add to dashboard Cite

΄Οταν ένας άνθρωπος επικοινωνεί με έναν συνάνθρωπό του, προσαρμόζει αντανακλαστικά την ομιλία του ανάλογα με το περιβάλλον στο οποίο βρίσκεται αυτός (π.χ. παρουσία θορύβου) ή ο συνομιλητής του (π.χ. βαρήκοος), παράγοντας διαφορετικά στυλ ομιλίας (Καθαρή ομιλία, ομιλία Lombard) σε σχέση με το αν η επικοινωνία του ήταν ανεμπόδιστη (Πρόχειρη ομιλία). Τα στυλ αυτά ομιλίας διαφέρουν ανάλογα με το είδος του εμποδίου στο επικοινωνιακό κανάλι ή/και ανάλογα με τον ομιλητή. Παρουσιάζουν όμως ένα κοινό χαρακτηριστικό: την αυξημένη καταληπτότητα. Η ανάπτυξη αλγορίθμων που εκμεταλλεύονταιτα ακουστικά χαρακτηριστικά τέτοιων στυλ ομιλίας θα μπορούσε να είναι επωφελής στην Τεχνολογία Φωνής. Πολλές τεχνολογικές εφαρμογές αναζητούν μεθόδους βελτιστοποίησης της καταληπτότητας των συσκευών που παράγουν συνθετική φωνή. Πέρα από την εμπορική εκμετάλλευση των εφαρμογών αυτών (κινητά τηλέφωνα, συστήματα πλοήγησης, συστήματα τηλεφωνικής υποστήριξης πελατών), πολύ σημαντική είναι η συνεισφορά τους στον ιατρικό τομέα ως βοηθητικά μέσα επικοινωνίας ατόμων με προβλήματα ομιλίας και ακοής. Ωστόσο, η τρέχουσα τεχνολογία φωνής είναι «κωφή», δεν μπορεί δηλαδή να προσαρ-μοστεί στα δυναμικώς μεταβαλλόμενα περιβάλλοντα ούτε στην ιδιαιτερότητα του ακροατή, όπως ο άνθρ-ωπος. Η εργασία αυτή προτείνει την ανάπτυξη αλγορίθμων που «μιμούνται» τον τρόπο ανθρώπινης ομιλίαςσε δύσκολες συνθήκες επικοινωνίας, συνεισφέροντας στην ανάπτυξη έξυπνων τεχνολογικών συστημάτων φωνής. Συγκεκριμένα, το στυλ ομιλίας του οποίου τα χαρακτηριστικά αναλύονται και χρησιμοποιούνταιγια την αύξηση της καταληπτότητας της Πρόχειρης ομιλίας είναι η Καθαρή ομιλία. Σε αντίθεση με άλλα στυλ ομιλίας, η Καθαρή ομιλία είναι καταληπτή από διάφορους ακροατές (ομόγλωσσους και μη, με προβλήματα ακοής, με κοχλιακά εμφυτεύματα, ηλικιωμένους, με μαθησιακές δυσκολίες κλπ) σε διάφορες συνθήκες περιβάλλοντος (με ή χωρίς θόρυβο, σε περιβάλλοντα αντήχησης).΄Ενα σημαντικό μέρος της εργασίας αυτής αναλύει και συγκρίνει τα χαρακτηριστικά της Πρόχειρης και Καθαρής ομιλίας. Από την σύγκριση αυτή, αναδεικνύονται διαφορές κυρίως στην προσωδία, στον φωνηεντικό χώρο, στην φασματική ενέργεια και στο πλάτος διαμόρφωσης της χρονικής περιβάλλουσας του σήματος φωνής. Βασιζόμενοι στις μετρίσιμες αυτές διαφορές, προτείνουμε μετασχηματισμούς που βελτιώνουν την καταληπτότητα του σήματος Πρόχειρης ομιλίας. Σε σύγκριση με state-of-the-art συστήματα μετασχηματισμού, οι δικές μας τεχνικές (1) είναι χαμηλής υπολογιστικής πολυπλοκότητας (2) μπορούν να εφαρμοστούν ανεξαρτήτως ομιλητή ή σήματος (3) διατηρούν την ποιότητα του αρχικού σήματος (4)εφαρμόζονται άμεσα χωρίς την ανάγκη εκπαίδευσης των δεδομένων και προΰπαρξης του σήματος Καθαρής φωνής. Οι προτεινόμενοι αλγόριθμοι αξιολογηθήκαν ως προς την καταληπτότητα και την ποιότητα με αντικειμενικές μετρικές καταληπτότητας και με υποκειμενικά ακουστικά τέστ από ομόγλωσσους και αλλόγλωσσους ακροατές χωρίς την ύπαρξη θορύβου, μέσα σε θορυβώδη περιβάλλοντα και σε περιβάλλοντα αντήχησης. Η αξιολόγηση δείχνει ότι οι μετασχηματισμοί που προτείνουμε αυξάνουν την καταληπτότητατης πρόχειρης ομιλίας τόσο σε περιβάλλοντα θορύβου όσο και σε περιβάλλοντα αντήχησης για ομόγλωσσους και αλλόγλωσσους ακροατές. Συγκεκριμένα, η τεχνική φασματικού μετασχηματισμού, επονομαζόμενη ως Mix-filtering, αυξάνει την καταληπτότητα του σήματος ομιλίας σε περιβάλλοντα θορύβου και αντήχησης ενώ διατηρεί την ποιότητα του σήματος, εν αντιθέσει με άλλους αλγορίθμους. Επιπλέον, η προτεινόμενητεχνική αύξησης του πλάτους των διαμορφώσεων της χρονικής περιβάλλουσας, αναφερθείσα ως DMod, αυξάνει την καταληπτότητα της Πρόχειρης ομιλίας κατά 30% σε περιβάλλοντα θορύβου. Ο αλγόριθμος DMod, εμπνέεται όχι μόνο από χαρακτηριστικά της Καθαρής ομιλίας αλλά και από μη γραμμικές λειτουργίες που λαμβάνουν χώρα στην βασική μεμβράνη του ανθρώπινου κοχλία. Επιτυγχάνει δε, πέρα από την αύξηση της καταληπτότητας, την εισαγωγή μιας νέας μεθόδου χειρισμού των διαμορφώσεων της περιβάλλουσας του σήματος. Τα αποτελέσματα της μελέτης αυτής δείχνουν την ύπαρξη μιας σύνδεσης ανάμεσα στις διαμορφώσεις της χρονικής περιβάλλουσας και στον τρόπο αντίληψης και επεξεργασίαςτου ήχου από την βασική μεμβράνη του ανθρώπινου κοχλία, ανοίγοντας τον δρόμο για την ανάλυση καικατανόηση της ομιλίας ως κύματα διαμορφώσεων.

show abstract

Automated Detection of Transition Segments for Intensity and Time-Scale Modification for Speech Intelligibility Enhancement

Cited by 6 publications

References 19 publications

Enhancement of speech intelligibility using transients extracted by wavelet packets

Enhancement of speech intelligibility using transients extracted by wavelet packets

Speech enhancement by combination of transient emphasis and noise cancelation

Intelligibility enhancement of casual speech based on clear speech properties

Contact Info

Product

Resources

About