Part-of-speech (PoS) tagger merupakan salah satu task dalam bidang natural language processing (NLP) sebagai proses penandaan kategori kata (part-of-speech) untuk setiap kata pada teks kalimat masukan. Hidden markov model (HMM) merupakan algoritma PoS tagger berbasis probabilistik, sehingga sangat tergantung pada train corpus. Terbatasnya komponen dalam train corpus dan luasnya kata dalam bahasa Indonesia menimbulkan masalah yang disebut out-of-vocabulary (OOV) words. Penelitian ini membandingkan PoS tagger yang menggunakan HMM+AM (analisis morfologi) dan PoS tagger HMM tanpa AM, dengan menggunakan train corpus dan testing corpus yang sama. Testing corpus mengandung 30% tingkat OOV dari 6.676 token atau 740 kalimat masukan. Hasil yang diperoleh dari sistem HMM saja memiliki akurasi 97.54%, sedangkan sistem HMM dengan metode analisis morfologi memiliki akurasi tertinggi 99.14%.
Abstrak -Bagi orang-orang yang bergerak di bidang fashion mengetahui tren fashion adalah hal yang penting. Salah satu cara untuk mengetahui tren adalah dengan mendeteksi topik mengenai fashion yang dibicarakan di media sosial. Penelitian ini mengimplementasikan algoritma Latent Dirichlet Allocation untuk mendeteksi topik fashion di Twitter. Tweet yang didapat, diklasifikasi dengan metode Naive Bayes lalu dibersihkan dengan cara menghapus URL, simbol, angka dan merubah setiap kata menjadi huruf kecil. Tweet lalu dibentuk menjadi kumpulan kata dan dikelompokan dengan algoritma Latent Dirichlet Allocation. Berdasarkan hasil eksperimen, konfigurasi paramater 20 topik dengan 1000 iterasi memperoleh skor UMass terbaik dengan nilai -56.342, dan konfigurasi parameter 50 topik dengan 1000 iterasi memperoleh skor PMI terbaik dengan nilai 6.272.
AbstrakSistem agregator berita, seperti news.google.com, dapat membantu pembaca berita dalam menghadapi ledakan informasi. Walaupun sistem agregator ini telah mengumpulkan artikel berita dari berbagai sumber dan menyajikannya pada satu tempat, pembaca masih menghadapi persoalan banyaknya informasi yang harus diproses, dan sebagian informasi menyatakan hal yang sama dengan kalimat yang berbeda. Untuk itu, diperlukan sistem agregator berita yang tidak hanya dilengkapi fasilitas crawling (pengumpulan berita secara otomatis dari berbagai situs berita online ), tetapi juga dilengkapi berbagai fasilitas analisis teks (klasifikasi, clustering , ekstraksi informasi 5W1H, dan peringkasan otomatis dari kumpulan artikel berita). Saat ini, belum ada sistem agregasi berita yang dilengkapi fasilitas peringkasan, terutama untuk berita Bahasa Indonesia. Sistem cerdas agregator berita ini terdiri atas 6 komponen utama yaitu 1) crawler untuk mengumpulkan berita terbaru, 2) 5W1H extractor untuk mengekstraksi informasi 5W1H (Who, What, Where, When, Why, How) dari setiap artikel berita, 3) classifier untuk kategorisasi jenis berita, 4) clusterer untuk mengelompokkan topik dari setiap jenis berita, 5) summarizer untuk meringkas kumpulan berita setiap topik, dan 6) penyaji antarmuka. Semua komponen analisis teks terutama 5W1H extractor dan summarizer merupakan kontribusi makalah ini yang membedakannya dengan penelitian sistem agregasi berita sebelumnya.Kata kunci : sistem cerdas, agregator berita, bahasa Indonesia, 5W1H extractor, peringkasan kumpulan berita PendahuluanDengan semakin meningkatnya jumlah pengguna internet di Indonesia yaitu sebanyak 63 juta dari 240 juta penduduk Indonesia [2], terjadi transisi pola baca masyarakat dari berita media cetak ke media online . Berdasarkan survei terhadap para pengguna internet di Indonesia, internet paling banyak dimanfaatkan untuk pencarian informasi berita, yaitu mencapai 70.65% responden [3]. Namun, banyaknya situs berita online dapat menimbulkan masalah bagi pembaca berita. Jika pembaca tidak memiliki prioritas kebutuhan informasi yang spesifik dalam melakukan eksplorasi suatu topik berita, pembaca tersebut akan menerima informasi yang terlalu banyak pada waktu yang terbatas yang disebut information overload [14], yaitu ketidakmampuan manusia dalam memahami dan memproses semua informasi yang didapatkan [5]. Karena pembaca berita merupakan pemroses informasi dengan kemampuan kognitif yang terbatas[18] dan dua per tiga konten berita sering diabaikan pembaca [6], beberapa informasi penting dalam berita terlewatkan. Pembaca berita biasanya mencari beberapa artikel berita yang mirip untuk mendapatkan semua informasi penting tersebut dengan lengkap. Dalam kegiatan ini, pembaca berita online akan mendapatkan beberapa artikel yang memiliki overlapping content [11] karena informasi penting yang sama ditulis dengan kalimat yang berbeda pada beberapa artikel.Adanya agregator berita dapat membantu pembaca karena aplikasi ini mengumpulkan informasi berita dari berbagai sumber dan menyajikannya dala...
This study aims to (1) develop a media model based on hands-on activity and instrument to improve conceptual understanding. (2) conducting an instrument test to improve conceptual understanding abilities. The research method is used of this study is developmental research which is conducted by thought experiment and instruction experiment. The population of this study is the seventh-grade students of SMP Bandung. The results of trials of 210 junior high school students from 6 schools that have obtained flat building materials are obtained as follows: (1) all items about multiple choice conceptual understanding and validity test developed valid, (2) multiple choice questions conceptual understanding and description test developed reliable, (5) 90 mathematics teacher’s opinion on hands-on activity-based media model developed to construct a conceptual understanding of students.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.