Özetçe-Bu bildiri, Kinect duyargaya ait RGB video görüntülerde ve derinlik haritalarında uzam-zamansal özellikleri kullanan bir Türkİşaret Dili tanıma sistemini sunmaktadır. Sistemde, ardışıl video görüntülerdeki dinamik işaretlerin zamansal özelliklerini ifade etmek için, hareket farklarına dayalı toplamsal imge yaklaşımı kullanılmaktadır. Toplamsal imgeler, işaret süresince işaretçinin gerçekleştirdigi hareketin bütününü ifade etmektedir. Hareketlere ait uzamsal özellikleri elde etmek için, toplamsal imgelere 2-B Ayrık Kosinüs Dönüşümü (DCT) uygulanmakta ve işaretlerin enerji yogunluklarını gösteren dönüşüm imgeleri elde edilmektedir. Yöntemler, işaretlere ait RGB video görüntülere ve derinlik haritalarına ayrı ayrı uygulanıp iki adet dönüşüm imgesi elde edilmektedir.İşaretlere ait öznitelik vektörlerinin oluşturulması için ise dönüşüm imgelerinde zig-zag tarama ile yüksek enerjili DCT katsayıları belirli oranlarda seçilerek birleştirilmektedir. Sistemin tanıma aşamasında, Manhattan uzaklıgını kullanan K-en yakın komşu sınıflandırıcısı kullanılmıştır. Sistem performansının degerlendirilmesi amacıyla Türkİşaret Dili'ne (TİD) ait 3 ayrı kategoride toplam 111 kelimeden oluşan 1002 işaretlik bir veri seti kullanılmıştır. Çalışma sonucunda yaklaşık %90 oranında bir tanıma başarımı gözlemlenmiştir.Anahtar Kelimeler-işaret dili tanıma; Türkİşaret Dili; dinamik işaretler; uzam-zamansal özellikler; Kinect duyarga; derinlik haritaları.Abstract-This paper presents a Turkish Sign Language recognition system that uses spatio-temporal features on Kinect sensor RGB video sequences and depth maps. Proposed system uses cumulative motion images which based on motion differences and represent the temporal characteristics of dynamic signs in motion sequences. Cumulative motion images represent the whole motions of signers. 2-D Discrete Cosine Transform (DCT) is applied to cumulative sign images in order to obtain spatial features of signs and transformed images that represent the energy density of signs are obtained. Two transform images are obtained by applying referred methods to both of RGB video sequences and depth maps seperately. Feature vectors of dynamic signs are produced by combining a certain amount of DCT coefficients that contain higher energy via zig-zag scanning on transform images. K-Nearist Neighbor classifier with Manhattan distance used for recognition process. System performance is evaluated on a sign database that contains 1002 signs belongs to 111 words in three different categories of Turkish Sign Language (TID). Proposed sign language recognition system has a recognition rate about %90.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.