Annotating text data for event information extraction systems is hard, expensive, and error-prone. We investigate the feasibility of integrating coarse-grained data (document or sentence labels), which is far more feasible to obtain, instead of annotating more documents. We utilize a multi-task model with two auxiliary tasks, document and sentence binary classification, in addition to the main task of token classification. We perform a series of experiments with varying data regimes for the aforementioned integration. Results show that while introducing extra coarsegrained data offers greater improvement and robustness, a gain is still possible with only the addition of negative documents that have no information on any event.
iv
ÖZETC ¸EOlay bilgisi çıkarma sistemleri için az veri senaryosunda az detaylı veri kullanmak Osman Mutlu Bilgisayar Mühendisligi, Yüksek Lisans 15 S ¸ubat 2022 Olay bilgisi çıkarma sistemleri için metin verisi işaretlemesi yapmak hem zor, hem pahalı, hem de hata yapmaya oldukça açıktır. Bu tezde, yeni detaylı işaretleme yapmak yerine, çok daha kolay şekilde elde edilebilen daha az detaylı (döküman ve cümle etiketlemesi) veri kullanmanın fizibilitesini ölçüyoruz. Döküman ve cümle etiketlerini kullanmak için çok amaçlı modelimizi, ana işimiz olan kelime sınıflandırmasının yanında döküman ve cümle ikili sınıflandırması yan işleri ile egitiyoruz. Bu amaçta, degişen veri rejimleri içeren birtakım deneyler icra ediyoruz. Deneylerin sonuçları bu eklenen daha az detaylı verinin daha iyi performans ve stabiliteye yol açtıgını gösterirken, aynı zamanda orijinal veriye sadece içinde hiçbir şekilde olay bilgisi bulundurmayan negatif dökümanlar eklemenin göz ardı edilemeyecek katkısını da gözler önüne seriyor. v ACKNOWLEDGMENTS I would like to express my gratitude to my advisor, Prof. Dr. Deniz Yuret for his support and vast knowledge. I would also like to thank Prof. Dr. Engin Erzin and Asst. Prof. Dr. Reyyan Yeniterzi for their participation in my thesis committee. I would like to thank my fellow members of AI Lab, Ilker Kesen, Ozan Arkan Can, Omer Kirnap, Ali Safaya, Ulas Sert, Cemil Cengiz for their acceptance, support and companionship. I acknowledge the funding of my master's studies by the European Research Council (ERC) Starting Grant 714868 awarded to Dr. Erdem Yörük for his project Emerging Welfare.Finally, I am forever grateful to my co-advisor Dr. Ali Hurriyetoglu for his continuous support, guidance, motivation and trust. This thesis would not be possible without him.vi