Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen

  • Muhammad Zidny Naf'an Institut Teknologi Telkom Purwokerto
  • Auliya Burhanuddin Institut Teknologi Telkom Purwokerto
  • Ade Riyani Institut Teknologi Telkom Purwokerto

Abstract

Plagiarisme merupakan tindakan mengambil sebagian atau seluruh ide seseorang berupa dokumen maupun teks tanpa mencantumkan sumber pengambilan informasi. Penelitian ini bertujuan untuk mendeteksi kemiripan dokumen teks menggunakan algoritma cosine similarity dan pembobotan TF-IDF sehingga dapat digunakan untuk menentukan nilai plagiarisme. Dokumen yang digunakan untuk perbandingan teks ini adalah abstrak bahasa Indonesia. Hasil penelitian yaitu saat dilakukan stemming nilai kemiripan lebih tinggi rata-rata 10% daripada tidak dilakukan proses stemming. Penelitian ini menghasilkan nilai similaritas diatas 50% untuk dokumen yang tingkat kemiripannya tinggi. Sedangkan untuk dokumen dengan tingkat kemiripan rendah atau tidak berplagiat menghasilkan nilai similarity dibawah 40%. Dengan metode yang digunakan pada preprocessing yang terdiri dari case folding, tokenizing, stopword removeal, dan stemming. Setelah proses preprocessing maka tahap selanjutnya dilakukan perhitungan pembobotan TF-IDF dan nilai kemiripan menggunakan cosine similarity sehingga mendapatkan nilai persentase kemiripan. Berdasarkan hasil percobaan algoritma cosine similarity dan pembobotan TF-IDF mampu menghasilkan nilai kemiripan dari masing-masing dokumen pembanding

References

[1] H. Santoso, “Pencegahan dan Penanggulangan Plagiarisme dalam Penulisan Karya Ilmiah di Lingkungan Perpustakaan Perguruan Tinggi,” http://library.um.ac.id, 2015. .
[2] R. T. Wahyuni, D. Prastiyanto, dan E. Supraptono, “Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi,” J. Tek. Elektro Univ. Negri Semarang, vol. 9, no. 1, hal. 18–23, 2017.
[3] Sugiyamto, B. Surarso, dan A. Sugiharto, “Analisa Performa Metode Cosine dan Jacard pada Pengujian Kesamaan Dokumen,” J. Masy. Inform., vol. 5, no. 10, hal. 1–8, 2014.
[4] Okfalisa dan A. H. Harahap, “Implementasi Metode Terms Frequency–Inverse Document Frequency (Tf-Idf) Dan Maximum Marginal Relevance Untuk Monitoring Diskusi Online,” J. Sains, Teknol. dan Ind., vol. 13, no. 2, hal. 6–19, 2016.
[5] A. W. Z. Nasution, M. A. Bijaksana, dan S. Al Faraby, “Analisis dan Implementasi Perhitungan Semantics Similarity Pada Ayat Al-Quran Dengan Pendekatan Word Alignment Berdasarkan Support Vector Regression,” in e-Proceeding of Engineering, 2017, vol. 4, no. 2, hal. 3156–3165.
[6] N. H. Ariyani, Sutardi, dan R. Ramadhan, “Aplikasi Pendeteksi Kemiripan Isi Teks Dokumen Menggunakan Metode Levenshtein Distance,” semanTIK, vol. Vol 2, no. 1, hal. 279–286, 2016.
[7] M. I. Dary, “Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-Quran,” eProceedings Eng., vol. 2, no. 3, 2015.
[8] A. A. Maarif, “Penerapan Algoritma Tf-Idf Untuk Pencarian Karya Ilmiah,” Semarang, 2015.
[9] M. Nurjannah, Hamdani, dan I. F. Astuti, “Penerapan Algoritma Term Frequency-Inverse Document Frequency (TF-IDF) untuk Text Mining,” J. Inform. Mulawarman, vol. 8, no. 3, hal. 110–113, 2013.
[10] C. D. Manning, P. Raghavan, dan H. Schütze, An Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2009.
[11] R. Feldman dan J. Sanger, The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press, 2007.
[12] L. Francis dan M. Flynn, “Text Mining Handbook,” Casualty Actuarial Society E-Forum. 2010.
Published
2019-03-26
How to Cite
NAF'AN, Muhammad Zidny; BURHANUDDIN, Auliya; RIYANI, Ade. Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen. Jurnal Linguistik Komputasional, [S.l.], v. 2, n. 1, p. 23 - 27, mar. 2019. ISSN 2621-9336. Available at: <http://inacl.id/journal/index.php/jlk/article/view/17>. Date accessed: 21 oct. 2019. doi: https://doi.org/10.26418/jlk.v2i1.17.
Section
Articles