Automatic text summarisation is obtaining a subset that accurately represents the main text. A quality summary should contain the maximum amount of information while avoiding redundant information. Redundancy is a severe deficiency that causes unnecessary repetition of information within sentences and should not occur in summarisation studies. Although many optimisation-based text summarisation methods have been proposed in recent years, there exists a lack of research on the simultaneous optimisation of scope and redundancy. In this context, this study presents an approach in which maximum coverage and minimum redundancy, which form the two key features of a rich summary, are modelled as optimisation targets. In optimisation-based text summarisation studies, different conflicting objectives are generally weighted or formulated and transformed into single-objective problems. However, this transformation can directly affect the quality of the solution. In this study, the optimisation goals are met simultaneously without transformation or formulation. In addition, the multi-objective saplings growing-up algorithm (MO-SGuA) is implemented and modified for text summarisation. The presented approach, called Pareto optimal, achieves an optimal solution with simultaneous optimisation. Experimentation with the MO-SGuA method was tested using open-access (document understanding conference; DUC) data sets. Performance success of the MO-SGuA approach was calculated using the recall-oriented understudy for gisting evaluation (ROUGE) metrics and then compared with the competitive practices used in the literature. Testing achieved a 26.6% summarisation result for the ROUGE-2 metric and 65.96% for ROUGE-L, which represents an improvement of 11.17% and 20.54%, respectively. The experimental results showed that good-quality summaries were achieved using the proposed approach.
Mevcut veri miktarındaki artış nedeniyle metin kümeleme çalışmalarına olan ilgi artmaktadır. Metin kümeleme alanında farklı yaklaşımlar kullanılarak birçok çalışma yapılmıştır. Bu çalışmada, çizge bölmelemeye dayalı denetimsiz bir yöntem olan Spektral Cümle Kümelemesi (SSC) tanıtılmaktadır. Çalışma kapsamında, önerilen modelin metinleri başarıyla kümelemek için doğal dil uygulamalarında nasıl kullanılabileceği açıklanmaktadır. Metinlerin fiziksel temsili sağlandıktan sonra, metin kümeleme problemi için spektral çizge teorisi kavramları kullanılarak denetimsiz ve verimli bir çözüm sunulmuştur. Son olarak, SSC'nin metin kategorizasyonu amacı ile başarılı bir şekilde kullanılabileceğini gösteren testler yapılmıştır. Açık erişimli ve yapılandırılmamış Türkçe metinler içeren TTC-3600 veri seti kullanılarak yapılan testlerde %97.08'lik bir kümelenme başarı oranı elde edilmiştir. Önerilen SSC modeli, popüler k-ortalamalar kümeleme algoritmasına kıyasla daha iyi performans gösterdiği gözlemlenmiştir.. Anahtar Kelimeler: Çizge bölmeleme, spektral çizge teorisi, binary metin kümeleme, metin kategorizasyonu, metin madenciliği.
Öz Cümle seçerek özetleme çalışmaları kapsamında birçok farklı yaklaşım mevcuttur. Bu çalışmada tek dokümanlı çıkarıcı metin özetleme için yeni ve denetimsiz bir süreç önerilmektedir. Çalışma kapsamında metin dokümanları çizgelerle temsil edilmektedir. Sunulan yaklaşım temel olarak metinleri temsil eden çizgeleri kullanmakta ve cümlelere yönelik bir ağırlıklandırma önermektedir. Önerilen sürecin farklı düğüm ağırlıklandırma yöntemlerini kullanarak önemli düğümleri belirlenmesi, önerilen özetleme sisteminin cümle puanlandırma aşamasını oluşturmaktadır. Son olarak bu çalışma kapsamında metin özetleme amaçlı önerilen yaklaşımın, açık erişimli metinler ve bu metinlere ait özetleri içeren Document Understanding Conference (DUC-2002) veri seti üzerindeki performansı ROUGE değerlendirme metrikleri kullanılarak hesaplanmıştır. Yapılan deneysel çalışmalar sonucunda önerilen özetleme sisteminin geleneksel çizge tabanlı yaklaşımlar ile rekabet edebilir ölçüde performans değerleri ortaya koyduğunu göstermektedir. Önerilen özetleme yaklaşımı ile elde edilen ROUGE-2 metriğinin Duyarlılık, Kesinlik ve F-Skor değerleri sırasıyla 0.17068, 0.15772, 0.16383 olarak hesaplandı. Ayrıca sunulan bu basit ve etkili yöntemin dilbilimsel bir süreç izlememesi oldukça önemlidir.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.