Analisis Perbandingan Metode Similarity untuk Kemiripan Dokumen Bahasa Indonesia pada Deteksi Kemiripan Teks Bahasa Indonesia

Pawestri, Sheraton and Suyanto, Yohanes (2024) Analisis Perbandingan Metode Similarity untuk Kemiripan Dokumen Bahasa Indonesia pada Deteksi Kemiripan Teks Bahasa Indonesia. Jurnal Media Informatika Budidarma.

[thumbnail of 7648-23818-1-PB.pdf] Text
7648-23818-1-PB.pdf - Published Version

Download (1MB)

Abstract

−Kemudahan dalam mengakses informasi membawa berbagai keuntungan, termasuk kemampuan untuk mengembangkan model atau sistem yang dapat mendeteksi kemiripan antar dokumen, sistem pengecekan plagiarisme, pengelompokan teks berdasarkan tema, peringkasan otomatis, klasifikasi judul penelitian sesuai dengan topiknya, dan masih banyak lagi. Berbagai manfaat dari deteksi kemiripan kata ini membuat penelitian tentang deteksi kemiripan antar dokumen
menjadi area yang penting untuk dikembangkan. Namun, studi mengenai deteksi kemiripan khusus untuk dokumen berbahasa
Indonesia masih tergolong sedikit dan masih bisa dikembangkan performanya. Oleh karena itu, penelitian ini bertujuan untuk melakukan analisis komparatif terhadap kinerja Doc2Vec dibandingkan dengan Jaccard Coefficient, Cosine Similarity, dan Euclidean Distance dalam mendeteksi kemiripan dokumen dengan teks berbahasa Indonesia. Tiga dataset digunakan dalam analisis ini, dengan dataset pertama terdiri dari 200 berita dari Google News, dataset kedua dari IndoNLU yang mempunyai 300 data, dan dataset ketiga dari TaPaCo dengan 1602 data. Temuan dari studi ini menunjukkan bahwa secara keseluruhan Cosine Similarity memiliki kinerja yang lebih baik dibandingkan Jaccard Coefficient dan Euclidean Distance untuk rata-rata performa. Performa paling unggul dengan akurasi 0.98, presisi 0.84, recall 0.95, dan skor F-1 0.89, dengan model dibentuk dalam waktu 10.56 detik menggunakan algoritma Cosine Similarity pada dataset Google News. Hal ini dikarenakan doc2vec lebih pas untuk dataset dengan dimensi yang lebih tinggi daripada dataset yang hanya berisi sedikit kata.

Item Type: Other
Subjects: T Technology > T Technology (General)
Depositing User: Sheraton Pawestri
Date Deposited: 14 Aug 2024 04:35
Last Modified: 14 Aug 2024 04:35
URI: http://eprints.uad.ac.id/id/eprint/66947

Actions (login required)

View Item View Item