2019
DOI: 10.24002/jbi.v10i1.2053
|View full text |Cite
|
Sign up to set email alerts
|

Pembentukan Vector Space Model Bahasa Indonesia Menggunakan Metode Word to Vector

Abstract: Extracting information from a large amount of structured data requires expensive computing. The Vector Space Model method works by mapping words in continuous vector space where semantically similar words are mapped in adjacent vector spaces. The Vector Space Model model assumes words that appear in the same context, having the same semantic meaning. In the implementation, there are two different approaches: counting methods (eg: Latent Semantic Analysis) and predictive methods (eg Neural Probabilistic Languag… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0
4

Year Published

2022
2022
2023
2023

Publication Types

Select...
2

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(4 citation statements)
references
References 4 publications
0
0
0
4
Order By: Relevance
“…Kemudian dataset akan diubah ke dalam bentuk vektor tetapi sebelumnya perlu menambahkan Out of Vocabulary (OOV) token pada indeks ke-0 untuk menyamakan panjang vektornya. Setelah itu perlu dilakukan word embedding untuk perhitungan jumlah serta frekuensi kata yang muncul pada sebuah dokumen [16]. Penelitian ini memanfaatkan pre-trained word embedding Word2Vec berdasar data Wikipedia yang tersedia pada Github.…”
Section: Metode Yang Diusulkanunclassified
See 1 more Smart Citation
“…Kemudian dataset akan diubah ke dalam bentuk vektor tetapi sebelumnya perlu menambahkan Out of Vocabulary (OOV) token pada indeks ke-0 untuk menyamakan panjang vektornya. Setelah itu perlu dilakukan word embedding untuk perhitungan jumlah serta frekuensi kata yang muncul pada sebuah dokumen [16]. Penelitian ini memanfaatkan pre-trained word embedding Word2Vec berdasar data Wikipedia yang tersedia pada Github.…”
Section: Metode Yang Diusulkanunclassified
“…Pada pengujian dan pengukuran model menggunakan algoritma 1D-CNN, peneliti melakukan eksperimen sebanyak 30 kali untuk mendapatkan akurasi model terbaik dengan mengubah susunan layer, epoch, serta mengubah nilai dari learning rate. Rasio yang digunakan sebagai data testing dan data training adalah sebesar 25:75.Dari 30 eksperimen yang dilakukan, didapatkan model terbaik untuk menganalisis sentimen terdapat pada eksperimen ke-12 yaitu ketika learning rate 0.008, susunan layer Conv1D (128,3), MaxPooling 1D, Dropout (0.5), Dense (64), Dense (32), Dropout (0.2), Dense(16), GlobalMaxPooling 1D, epoch sebesar 60, dan menghasilkan akurasi sebesar 80.22%. Akurasi yang didapatkan pada penelitian ini tidak sebaik penelitian yang dilakukan oleh[11], hal ini disebabkan oleh adanya imbalanced data dari dataset yang digunakan di mana selisih jumlah data tiap kelas berbeda jauh.…”
unclassified
“…Similarity text belakangan ini menjadi topik yang menarik dan banyak diteliti. Word Embedding sangat populer dalam bidang NLP [4] [5] karena dapat digunakan untuk menggambarkan kedekatan sebuah kata atau sebuah dokumen namun kedekatan kontekstual sesuai dengan data latih yang digunakan dalam pembetukannya sehingga seringkali kedekatan tersebut bukan merupakan makna sebuah kata, melainkan bahwa setiap metode dalam Word Embedding dapat digunakan dalam perhitungan kesamaan semantik sebuah kata dari query yang diminta oleh pengguna [6].…”
unclassified
“…Penelitian yang berkaitan dengan Word Embedding telah dilakukan oleh [6] dalam pembuatan model bahasa Indonesia berbentuk vector dengan metode Word2Vec. Data yang digunakan adalah data yang didapat dari hasil crawling dibeberapa portal berita.…”
unclassified