Sistem Identifikasi Bahasa Jawa dan Bahasa Indonesia Dokumen Teks Berbasis N-Gram Karakter

  • Lucia Dwi Krisnawati Universitas Kristen Duta Wacana
  • Fidelia Vera Sentosa Informatika, Universitas Kristen Duta Wacana
  • Aditya Wikan Mahastama Informatika, Universitas Kristen Duta Wacana

Abstract

Identifikasi bahasa adalah sebuah proses yang mencoba menemukan bahasa yang digunakan dalam sebuah wacana secara otomatis. Sistem Identifikasi Bahasa (SIB) pada dasarnya dibedakan menjadi SIB lisan yang mengidentifikasi bahasa tutur lewat fitur akustik atau fonem, dan SIB berbasis fitur grafem dalam berbagai level dan kategori linguistiknya. Penelitian ini mencoba untuk membangun SIB yang dirancang untuk membedakan teks berbahasa Jawa dari bahasa Indonesia dan bahasa lainnya. Profil bahasa yang digunakan dibangun dari korpus yang diambil dari korpus Trawaca dan beberapa sumber daring dari berbagai topic. Tujuannya adalah untuk memperkaya kosa kata dan menignkatkan jumlah tipe kata. Profil bahasa tiap kategori diebntuk dari n-gram berbasis karakter dan diambil 100 n-gram dengan nilai CF tertinggi. Perhitungan jarak antara profil bahasa dengan dokumen uji dilakukan dengan menggunakan ukuran Out-Of-Place (OOP). Hasil pengujian menunjukkan bahwa Presisi idenfikasi dokumen berbahasa Jawa mencapai 0.96, sedangkan Presisi dokumen berbahasa Indonesia mencapai 0.86. Nilai Akurasi total identifikasi mencapai 0.85. Nilai Presisi identifikasi bahasa Indonesia jauh lebih rendah disbanding nilai Presisi identifikasi bahasa Jawa disebabkan diujikannya dokumen berbahasa Melayu-Malaysia yang tentu saja teridentifikasi sebagai dokumen berbahasa Indonesia.

References

M. Majlis, “Yet Another Language Identifier,” dalam Proceedings of the EACL 2012 Student Research Workshop, Avignon, France, 2012.
J. Gonzalez-Dominguez, I. Ignacio Lopez-Moreno, H. Sak, J. Gonzalez-Rodriguez dan P. J. Moreno, “Automatic Language Identification Using Long Short-Term Memory Recurrent Neural Networks,” dalam INTERSPEECH, 2014.
M. Lui, J. H. Lau dan T. Baldwin, “Automatic Detection and Language Identification of Multilingual Documents,” Transactions of the Association for Computational Linguistics, vol. 2, pp. 27-40, 2014.
W. B. Cavnar dan J. M. Trenkle, “N-Gram-Based Text Categorization,” dalam Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, USA, 1994.
T. Baldwin dan M. Lui, “Language Identification: The Long and the Short of the Matter,” dalam Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL, Los Angeles, California, 2010.
l. Ferrer, N. Scheffer dan E. Shriberg, “AComparisonof Approaches for Modeling Prosodic Features in Speaker Recognition,” dalam International Conference on Acoustics, Speech, and Signal Processing, 2010.
D. Martinez, E. Lleida, A. Ortega dan A. Miguel, “Prosodic features and formant modeling for an ivectorbased language recognition system,” dalam IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2013.
N. Dehak, P. A. T. Carrasquillo, D. Reynolds dan R. Dehak, “Language Recognition via Ivectors and Dimensionality Reduction,” dalam INTERSPEECH, Florence, Italy, 2011.
H. Takcı dan I. Soğukpınar, “Letter Based Text Scoring Method for Language Identification,” dalam ADVIS: International Conference on Advances in Information Systems, Izmir, Turkey, 2004.
H. Takçı dan E. Ekinci, “Minimal Feature Set in Language Identification and Finding Suitable Classification Method with It,” Procedia Technology, vol. I, pp. 444-448, 2012.
A. Selamat dan N. Akosu, “Word-Length Algorithm for Language Identification of Under-Resourced Languages,” Journal of King Saud University – Computer and Information Science, vol. 28, pp. 457-469, 2014.
N. Sarma, S. R. Singh dan D. Goswami, “Word Level Language Identification in Assamese-Bengali-Hindi-English Code-Mixed Social Media Text,” dalam International Conference on Asian Language Processing (IALP), Bandung, Indonesia, 2018.
A. Selamat, “Improved N-grams Approach for Web Page Language Identification,” dalam Transactions on Computational Collective Intelligence V, N. Nguyen, Penyunt., Heidelberg, Springer, 2011, pp. 1-26.
L. D. Krisnawati dan A. W. Mahstama, “A Javanese Syllabifier based on Its Orthographic System,” dalam 2018 International Conference on Asian Language Processing (IALP), Bandung, Indonesia, 2018.
J. Garg, V. Grupta dan M. Jindal, “A Survey of Language Identification Techniques and Applications,” Journal of Emerging Technologies in Web Intelligence, vol. 6, no. 4, pp. 388-399, 2014.
Published
2019-03-25
How to Cite
KRISNAWATI, Lucia Dwi; SENTOSA, Fidelia Vera; MAHASTAMA, Aditya Wikan. Sistem Identifikasi Bahasa Jawa dan Bahasa Indonesia Dokumen Teks Berbasis N-Gram Karakter. Jurnal Linguistik Komputasional, [S.l.], v. 2, n. 1, p. 13 - 22, mar. 2019. ISSN 2621-9336. Available at: <http://inacl.id/journal/index.php/jlk/article/view/16>. Date accessed: 21 oct. 2019. doi: https://doi.org/10.26418/jlk.v2i1.16.
Section
Articles