Text and Hypertext Categorization

Benbrahim, Houda; Bramer, Max

doi:10.1007/978-3-642-03226-4_2

Cited by 7 publications

(2 citation statements)

References 68 publications

(79 reference statements)

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Setelah tahap tokenizing, maka dilakukan tahap filtering yaitu dengan menghapus kata-kata yang sangat umum [9]. Kata yang termasuk dalam stopword contohnya adalah yang, dan, di, itu, dengan, untuk, tidak, dari, dalam, akan, pada, ini, juga, saya, serta, adalah, bahwa, lain, kamu, dan lain lain.…”

Section: Gambar 2 Tahap Preprocessingunclassified

Penerapan Support Vector Machine (SVM) untuk Pengkategorian Penelitian

Jumeilah¹

2017

RESTI

View full text Add to dashboard Cite

The preparation of the research should be categorized in order to facilitate the search for the needy. To categorize the research required a method for text mining, one of them with the implementation of Support Vector Machines (SVM). The data used to recognize the characteristics of each category requires a collection of abstracts of research. The data will be preprocessing with several stages of case folding, stop words removing, tokenizing, and stemming. Further data that has undergone preprocessing will be converted into numerical form with for the term weighting stage. The results of term weighting then obtained data that can be used for data training and test data. The training process is done by providing input in the form of text data known category. Then by using Support Vector Machines, the input data is transformed into a knowledge model that can be used in the prediction process. From the research result, it is found that the categorization of research produced by SVM has been very good. This is evidenced by the results of the test that yields an accuracy of 90%. Keywords: SVM, Text Mining, Preprocessing, Classification, Term Weighting AbstrakPenyusunan penelitian hendaknya harus perkategori agar mempermudah pencarian bagi yang membutuhkan. Untuk mengkategorikan penelitian dibutuhkan sebuah metode untuk penambangan teks, salah satunya dengan implementasi Support Vector Machines (SVM). Data yang digunakan untuk mengenali ciri dari tiap kategori maka dibutuhkan kumpulan dari abstrak penelitian. Data tersebut akan dilakukan preprocessing dengan beberapa tahapan yaitu case folding, stopwords removing, tokenizing, dan stemming. Selanjutnya data yang sudah mengalami preprocessing akan diubah menjadi bentuk numerik dengan untuk tahap term weighting. Hasil term weighting maka diperoleh data yang bisa digunakan untuk data training dan data uji. Proses training dilakukan dengan memberikan masukan berupa data teks yang diketahui kategorinya. Kemudian dengan menggunakan Support Vector Machines, data hasil masukan tersebut ditransformasikan ke dalam suatu model pengetahuan yang nantinya dapat digunakan dalam proses prediksi. Dari hasil penelitian diperoleh bahwa pengkategorian penelitian yang dihasilkan oleh SVM sudah sangat baik. Hal ini dibuktikan oleh hasil pengujian yang menghasilkan tingkat akurasi 90%.Kata kunci: SVM, Penambangan Teks, Preprocessing, Klasifikasi, Term Weighting © 2017 Jurnal RESTI PendahuluanSaat ini sudah banyak sekali kebijakan pemerintah yang ditujukan untuk meningkatkan penelitian. Semakin banyaknya penelitian maka semakin sulitnya penyimpanan penelitian. Kesulitan tersebut akan muncul ketika ada peneliti lain yang membutuhkan penelitian yang mendukung penelitiannya. Oleh sebab itu, sebaiknya penyimpanan penelitian dilakukan berdasarkan kategorinya. Pengkategorian penelitian dapat dilakukan secara manual dan otomatis. Untuk cara manual tentu akan membutuhkan waktu yang lebih banyak dibandingkan otomatis. Pengkategorian secara otomatis, dapat dilakukan dengan memanfaatkan classif...

show abstract

Section: Gambar 2 Tahap Preprocessingunclassified

Penerapan Support Vector Machine (SVM) untuk Pengkategorian Penelitian

Jumeilah¹

2017

RESTI

View full text Add to dashboard Cite

show abstract

“…There are five levels of representing the natural language document by means of a set of index. These are character, word, phrase, sentence or language/application specific levels (Benbrahim and Bramer, 2009). The basic and most widely-used approach for indexing is the use of word (token) level, in a process known as tokenization.…”

Section: Data Acquisitionmentioning

confidence: 99%

Advances in Document Clustering with Evolutionary-Based Algorithms

Makki¹,

Yaakob²,

Mustapha³

et al. 2015

American Journal of Applied Sciences

View full text Add to dashboard Cite

Document clustering is the process of organizing a particular electronic corpus of documents into subgroups of similar text features. Formerly, a number of conventional algorithms had been applied to perform document clustering. There are current endeavors to enhance clustering performance by employing evolutionary algorithms. Thus, such endeavors became an emerging topic gaining more attention in recent years. The aim of this paper is to present an up-to-date and self-contained review fully devoted to document clustering via evolutionary algorithms. It firstly provides a comprehensive inspection to the document clustering model revealing its various components with its related concepts. Then it shows and analyzes the principle research work in this topic. Finally, it compiles and classifies various objective functions, the core of the evolutionary algorithms, from the related collection of research papers. The paper ends up by addressing some important issues and challenges that can be subject of future work.

show abstract