ÖZETÇEDuygulanımların konuşma sırasında sözel olmayan dışavurumları olarak tanımlanabilen duygusal patlamalar, duygusal durum analizi için önemli ipuçları taşır. Literatürde yalnızca ses bilgisi kullanarak duygusal patlama sezim ve tanıma konularını araştıran çalışmalar mevcut olsa da, çokkipli bir sistem ile ipuçlarını birleştirme üzerine şimdiye dek çok az çaba sarfedilmiştir. Yüz devinimi duygusal patlamaları karakterize eden önemli ipuçlarından biridir; dolayısıyla bu bilginin daha gürbüz bir duygusal patlama sezim ve tanıma amacına yönelik olarak değerlendirilebileceğini düşünüyoruz. Bu çalışmada veri güdümlü bir yaklaşımla, duygusal patlamalar Saklı Markov Modelleri (SMM) ile betimlenmekte ve duygusal patlamaların sınıflandırılması için ses ve yüz deviniminden elde edilen ipuçlarını birleştiren çok kipli bir karar tümleştirme yöntemi kullanılmaktadır. Yöntemimizi sınamak için kullandığımız işitsel-görsel veritabanı çeşitli ikili konuşmalara ait ses ve yüz devinim bilgilerini içermektedir. Bu veritabanı üzerinde gerçekleştirdiğimiz deneyler yüz devinim bilgisinin duygusal patlama tanıma başarımını kayda değer ölçüde arttırdığını göstermektedir. Anahtar Kelimeler: duygusal patlama, çok-kipli tanıma
ABSTRACTAffect bursts, which are nonverbal expressions of emotions in conversations, play a critical role in analyzing affective states. Although there exist a number of methods on affect burst detection and recognition using only audio information, little effort has been spent for combining cues in a multimodal setup. We suggest that facial gestures constitute a key component to characterize affect bursts, and hence have potential for more robust affect burst detection and recognition. We take a data-driven approach to characterize affect bursts using Hidden Markov Models (HMM), and employ a multimodal decision fusion scheme that combines cues from audio and facial gestures for classification of affect bursts. We demonstrate the contribution of facial gestures to affect burst recognition by conducting experiments on an audiovisual database which comprise speech and facial motion data belonging to various dyadic conversations.