Hasil pencarian relevan pada sistem temu kembali informasi tergantung pengukuran kemiripan antara query dan dokumen berdasarkan bobot kata query terhadap dokumen yang akan dirangking. Namun, perhitungan kemiripan menggunakan bobot kata dimungkinkan adanya lafal kata yang berbeda tetapi memiliki makna sama. Hasil dokumen pencarian teks berbahasa Arab akan dipengaruhi kemampuan pengguna yang beragam dalam memahami bahasa tersebut. Oleh karena itu diusulkan pengukuran kemiripan secara leksikal untuk mengatasi lafal kata yang beda serta juga menggunakan kemiripan secara semantik untuk mengenali kata dengan makna sama. Penggabungan perhitungan kemiripan leksikal dan semantik dilakukan berdasarkan bobot kata (secara leksikal) yang digabungkan dengan word embedding (secara semantik). Hasil dari uji coba dilakukan pada 2900 kitab berbahasa Arab Maktabah Syamilah menunjukkan keunggulan dengan rata-rata f-measure tertinggi dibandingkan metode lainnya yaitu 66.7% pada keseluruhan query, serta 65.2% dan 69% pada short query dan long query. Short query adalah frekuensi jumlah kata di dalam query yang berjumlah 1-2 kata sedangkan long query adalah frekuensi jumlah kata di dalam query yang berjumlah lebih dari 2 kata. Short query dan long query berpeluang me-retrieve dokumen yang tidak relevan. Hasil retrieve dokumen yang tidak relevan disebabkan karena rendahnya kemiripan antar kata di dalam suatu query akibat pemilihan kata yang kurang tepat. Pemilihan kata-kata query membutuhkan penguasaan pengguna yang tidak hanya mampu mengolah query dalam bahasa Arab, tetapi juga dapat memahami konteks dokumen yang akan dicari.
3) ABSTRAK Memahami makna utama yang terkandung dalam beberapa dokumen tentu tidak mudah dan membutuhkan waktu yang cukup lama. Menanggapi masalah tersebut, penelitian terkait peringkasan teks dokumen secara otomatis menjadi perhatian khusus dalam beberapa tahun terakhir. Penelitian ini mengusulkan metode peringkasan teks multi-dokumen yang dapat meningkatkan relevansi antar kalimat dengan menggunakan metode sentence extraction dan word sense disambiguation. Metode sentence extraction yang digunakan didasarkan pada sentence distribution dan part of speech (POS) tagging. Berdasarkan pengujian peringkasan teks dengan metode yang diusulkan, nilai rata-rata ROUGE-1 adalah 0,712, 0,163, 0,247 pada recall, precision, f-measure secara berurutan. Sedangkan hasil pengujian peringkasan teks multi-dokumen tanpa menggunakan word sense disambiguation mendapatkan nilai rata-rata ROUGE-1 sebesar 0,685, 0,139, 0,216 pada recall, precision, fmeasure secara berurutan. Hasil penelitian menunjukkan bahwa penggunaan metode sentence extraction dan word sense disambiguation pada peringkasan teks multi-dokumen dapat meningkatkan kualitas hasil peringkasan teks.
Peringkasan teks merupakan salah satu cara untuk mengurangi suatu dimensi dokumen yang besar untuk mendapatkan informasi penting dari dokumen tersebut. Berita adalah salah satu informasi yang biasanya dalam satu topik memiliki beberapa sub topik. Untuk dapat mengambil informasi penting dari satu topik secara cepat, peringkasan multi dokumen berita dapat menjadi solusi. Namun, peringkasan multi dokumen dapat menimbulkan redundansi. Oleh sebab itu, penelitian ini menerapkan algoritma cluster importance dengan mempertimbangkan posisi kalimat untuk mengatasi redundansi tersebut. Penelitian ini menggunakan 30 topik berita berbahasa Indonesia, dimana tiap topiknya terdiri dari 5 sub topik berita. Dari 30 topik berita yang diuji menggunakan Rouge-1, dimana terdapat 2 topik berita yang memiliki nilai Rouge-1 berbeda antara yang menggunakan algoritma cluster importance ditambah posisi kalimat dengan yang hanya menggunakan algoritma cluster. Namun dari 2 topik berita tersebut, nilai Rouge-1 yang menggunakan cluster importance ditambah posisi kalimat memiliki nilai yang lebih besar daripada yang hanya menggunakan cluster importance. Penggunaan posisi kalimat memiliki pengaruh terhadap urutan bobot kalimat pada setiap topiknya, namun hanya 2 topik berita yang berpengaruh terhadap hasil ringkasan.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.