Penggunaan Pemodelan Topik dalam Sistem Temu Kembali Dokumen Termirip

Authors

  • Lucia Dwi Krisnawati Universitas Kristen Duta Wacana
  • Joseph F Lim Informatika, Universitas Kristen Duta Wacana
  • Gloria Virginia Informatika, Universitas Kristen Duta Wacana

DOI:

https://doi.org/10.26418/jlk.v6i1.78

Keywords:

Pemodelan Topik, Sistem Temu Kembali, Lexikat, Kemiripan Dokumen, pembentukan kueri, topik

Abstract

 Sistem temu kembali didesain untuk menemukan informasi yang relevan dengan kueri pengguna, sedangkan pencarian dan penemuan dokumen termirip secara leksikal maupun sintaksi masuk ranah sistem deteksi plagiasi dan Daur Ulang teks (text reuse)  yang membutuhkan sistem temu kembali sebagai salah satu modul di awalnya. Perbedaan keduanya terletak di bentuk kueri, dimana sistem temu kembali menerima kueri dengan jumlah token yang terbatas, sedangkan kueri dalam sistem deteksi plagiasi diolah dari sebuah dokumen input. Penelitian ini mencoba membangun sistem temu kembali untuk menemukan kandidat dokumen termirip yang diperlukan oleh kedua sistem tersebut. Untuk itu, pembentukan kueri dokumen input dihasilkan dengan memanfaatkan sistem Pemodelan Topik Lexikat. Elemen dari kumpulan topik ini kemudian diindek dalam Inverted Index maupun menjadi kueri dari dokumen uji. Metrik kemiripan Cosine digunakan untuk mengukur kemiripan antara kueri dokumen uji dengan dokumen sumber yang telah diindeks. Evaluasi sistem dilakukan dengan menggunakan metrik Macro-Averaged F1 (MAF) dan Break-Even Point (BEP). Eksperimen dilakukan dengan menggunakan 1-50 topik di tiap dokumen uji yang berjumlah 474. Hasil eksperimen dengan 11 skenario pengujian menunjukkan nilai MAF tertinggi mencapai 0.32 – 0.33 saat menggunakan 1 topik sebagai kueri. Nilai ini relatif kecil karena tidak diterapkan nilai ambang dari persamaan Cosine sebagai proses penyaringan (filtering) dokumen yang akan dievaluasi. Jumlah dokumen minimal yang diperlukan untuk mencapai nilai BEP tertinggi  adalah 243. Jumlah dokumen ini bisa dijadikan rekomendasi sebagai nilai ambang dalam proses penyaringan dokumen.

References

[1] R. Baeza-Yates dan B. Ribeiro-neto, Modern Information Retrieval, second penyunt., Addison Wesley, 2011.
[2] C. Manning, P. Raghavan dan P. Schuetze, Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.
[3] J. Zobel, “What We Talk About When We Talk About Information Retrieval,” ACM SIGIR Forum, vol. 51, no. 3, pp. 18-26, 2017.
[4] L. D. Krisnawati dan K. U. Schulz, “Significant Word-based Text Alignment for Text Reuse Detection,” dalam Int'l Conference on Research & Innovation in Computer, Electronics and Manufacturing Engineering (RICEME-17), Bali, Indonesia, 2017.
[5] J. S. Wang, “Topic Modeling: A Complete Introductory Guide,” dalam NLP Day, Austin, Texas, 2017.
[6] S. Yusuf, M. Fauzi dan K. Brata, “Sistem Temu Kembali Informasi Pasal-Pasal KUHP (Kitab Undang-Undang Hukum Pidana) Berbasis Android Menggunakan Metode Synonym Recognition dan Cosine Similarity,” Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, vol. 2, no. 2, pp. 838-847, 2017.
[7] M. A. Lamongi, R. Munir dan A. Angdresey, “Aplikasi Sistem Temu Kembali Informasi di Dalam Alkitab Menggunakan Model Ruang Vektor.,” Repository Uniika De La Salle , Manado, 2019.
[8] S. Gunawan, L. D. Krisnawati dan A. R. Chrismanto, “Analisis Fiitur Stilometri dan Strategi Segmentasi pada Sistem Deteksi Plagiasi Intrinsik Teks,” Rekayasa Sistem dan Teknologi Informasi (RESTI), vol. 4, no. 5, pp. 988-997, 2020.
[9] B. Boenninghoff, S. Hessler, D. Kolossa dan R. Nickel, “Explainable Author Verification in Social Media via Attention-based Similarity Learning,” dalam International Conference on Big Data, 2019.
[10] L. D. Krisnawati, “Plagiarism detection for Indonesian texts,” Elektronishe Hochschulschriften, Ludwig-Maximilan Univeristaet, Munich, 2016.
[11] A. Onan, S. Korukoglu dan H. Bulut, “LDA-Based Topic Modelling in Text Sentiment Classification: An Empirical Analysis,” Int. Journal Computational Linguistics Application, vol. 7, pp. 101-119, 2016.
[12] H. Gong, F. You, X. Guan, Y. Cao dan L. Lai, “Application of LDA Topic Model in E-Mail Subject Classification,” dalam Intl. Conf. on Transportation and Logistics, Information and Communication, Smart City, 2018.
[13] I. G. Anugrah dan H. Rosyid, “Penerapan Information Retrieval Menggunakan Pemodelan Topik Pada Deskripsi Portal Multimedia,” Anugrah, I. G., & Rosyid, H. (2019). Penerapan Information Retrieval MenggunakanJurnal Nasional Komputasi dan Teknologi Informasi., vol. 2, no. 1, pp. 48-54, 2019.
[14] N. C. Haryanto, L. D. Krisnawati dan A. R. Chrismanto, “Temu Kembali Dokumen Sumber Rujukan dalam Sistem Daur Ulang Teks,” Jurnal Teknologi dan Sistem Komputer, vol. 8, no. 2, pp. 140-149, 2020.
[15] O. Shahmirzadi, A. Lugowski dan K. Younge, “Text Similarity in Vector Space Models: A Comparative Study,” CoRR, vol. abs/1810.00664, 2018.

Downloads

Published

2023-04-03

How to Cite

[1]
L. D. Krisnawati, J. F. Lim, and G. Virginia, “Penggunaan Pemodelan Topik dalam Sistem Temu Kembali Dokumen Termirip”, JLK, vol. 6, no. 1, pp. 1–10, Apr. 2023.

Most read articles by the same author(s)