The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)

Indonesia Association of Computational Linguistics

The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP 2021)

Oleh: Said Al Faraby dan Renny P. Kusumawardani @ medium.

EMNLP merupakan salah satu konferensi tahunan terbesar di bidang NLP yang di-organize oleh ACL (Association for Computational Linguistics). Conference lainnya di bawah ACL yaitu ACL, EACL, NAACL, dan IJCNLP. Untuk tahun ini, EMNLP diselenggarakan pada 7–11 November secara onsite di Punta Cana, Dominican Republic dan juga online melalui streaming platform underline.io.

Opening Remark — Statistik Paper

Pada opening Remark yang dilaksanakan pada 7 November pukul 20.00 WIB, Co-Chair EMNLP 2021, Prof Xuanjing Huang dari Fudan University, menjelaskan statistik paper untuk tahun ini. EMNLP tahun ini menerima submission sebanyak 3.717, di mana 3600 di antaranya masuk ke proses review. Berdasarkan score peer-review, 840 paper dinyatakan diterima, sehingga acceptance rate untuk tahun ini adalah 23,3%.

Selain jalur main conference, 419 paper diterima di jalur Findings, yaitu paper yang tidak masuk ke main conference namun dianggap memiliki kualitas yang baik berdasarkan hasil peer-review.

Prof. Xuanjing selanjutnya memaparkan submission berdasarkan negara, di mana terdapat 20 negara yang memiliki submission lebih dari 20 paper, di mana Cina menempati urutan pertama dengan 1137 paper dan diikuti US dengan 1057.

Sementara itu, Indonesia tidak termasuk dalam 20 negara tersebut yang artinya jumlah submission paper berafiliasi Indonesia masih kurang dari 20. Namun begitu, setidaknya terdapat 3 paper berafiliasi Indonesia yang kami ketahui diterima di konferensi ini , yaitu:

1. IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation oleh Samuel Cahyawijaya dan kawan-kawan,

2. IndoNLI: A Natural Language Inference Dataset for Indonesian oleh Rahmad Mahendra dan kawan-kawan

3. IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization oleh Fajri Koto dan kawan-kawan

Untuk list paper lengkap dapat diakses pada link berikut.

Program

EMNLP 2021 terdiri dari berbagai program selain oral presentation. Secara total terdapat 3 Keynote speech, 6 Tutorial, dan 23 Workshop. List lengkap dapat dilihat di bagian akhir laporan ini. Sayangnya, banyak dari kegiatan tersebut dilaksanakan secara paralel, sehingga peserta terpaksa harus memilih.

Selain itu, mengingat adanya perbedaan zona waktu, maka live event biasanya mulai pada pukul 19.00 atau 20.00 WIB, sehingga tentu ini menjadi tantangan sendiri untuk dapat maksimal mengikuti event ini secara live. Namun demikian, pre atau post-recorded video biasanya dapat diakses di platform underline, sehingga bisa ditonton kembali di luar waktu.

Laporan Singkat Keynote

Photo by Teemu Paananen on Unsplash

Tim penulis berkesempatan untuk menjadi peserta pada EMNLP kali ini, dan kami menyempatkan diri untuk mengikuti beberapa sesi kegiatan. Berikut adalah beberapa cuplikan singkatnya:

Keynote speaker pertama, Prof. Ido Dagan dari Bar-Ilan University, mengangkat tema multi-text consumption, di mana beliau mempropose 3 grand challenges, yaitu:

1. Interacting with NLP Applications
2. Modeling multi-text information
3. Representing minimal information units

Keynote kedua disampaikan oleh Evalina Fedorenko yang merupakan Associate Prof Neuroscience dari MIT. Evalina menjelaskan tentang sistem bahasa di otak manusia melalui berbagai eksperimen untuk melihat keterkaitan Bahasa dengan sistem lainnya, salah satunya adalah reasoning.

Evalina berpendapat bahwa Bahasa bukan untuk mendukung proses berpikir manusia yang kompleks, tapi untuk melakukan komunikasi yang efisien. Kaitannya dengan perkembangan model computational linguistics saat ini, ia mengatakan bahwa sesuatu hal yang wajar jika Language Model (misal Transformer) saat ini kesulitan melakukan tugas terkait reasoning, karena system Bahasa di otak manusia pun tidak bisa.

“To me this criticism (terhadap performa LM pada task reasoning) is somewhat puzzling, after all this is language models, not models of thought. More importantly, the human language system also does not think” kata Evaline.

Dalam pidato keynote penutup EMNLP 2021, Prof. Steven Bird mengatakan bahwa kita seharusnya tidak mengasumsikan bahwa pendekatan dan asumsi pengembangan teknologi bahasa dapat berlaku untuk semua bahasa dan komunitas.

Beliau mengajukan pendekatan NLP yang secara radikal berbeda, yaitu bukan hanya sekedar menerapkan teknologi pada bahasa yang berbeda, melainkan selayaknya memperhatikan pula konteks budaya, keinginan, serta aspirasi dari komunitas penutur bahasa yang sedang dipelajari.

Prof. Bird memberikan suatu contoh terkait penanganan COVID-19 di Australia: sebuah pesan untuk mencuci tangan dan menjaga jarak diterjemahkan ke dalam bahasa Yolŋu dan disebarkan ke anggota-anggota dari suku tersebut.

Photo by Fusion Medical Animation on Unsplash

Namun ternyata pesan ini tidak diterima dengan baik — secara implisit, pesan ini menekankan upaya pencegahan COVID-19 pada individual. Suku Yolŋu memiliki pandangan bahwa mereka adalah satu tubuh dan memiliki gaya hidup berkelompok. Selain itu, pesan tersebut juga dianggap telah melangkahi wewenang para tetua suku dalam menentukan apa yang seharusnya dilakukan oleh komunitas Yolŋu.

Contoh tersebut mengilustrasikan mengapa studi, pengembangan, dan penerapan teknologi bahasa tidak dapat mengabaikan konteks budaya penuturnya. Pandangan yang sentralistik terhadap keragaman bahasa secara etis bermasalah dan juga tidak efektif.

Untuk itu, Prof. Bird mengajukan sebuah pandangan terdesentralisasi yang terdiri dari dua aksiologi. Aksiologi pertama adalah bahasa terstandarisasi, yaitu versi bahasa yang telah dibakukan dan diterima sebagai versi ‘resmi’. Bahasa ini biasanya memiliki sumberdaya yang cukup banyak. Aksiologi kedua dari pandangan ini adalah kelompok bahasa niche, yaitu bahasa yang dipergunakan secara lokal dan terikat dengan suatu komunitas pada lingkup ruang tinggal yang terbatas.

Gambar 1. Dua cara berbeda dalam memandang keberagaman bahasa. Gambar kanan menunjukkan perspektif tersentralisasi, gambar kiri menggambarkan bahasa sebagai terdiri dari dua aksiologi, yaitu terstandarisasi dan niche.

Kedua aksiologi ini memiliki tujuan yang berbeda. Pada lingkup bahasa terstandarisasi, orang mementingkan efisiensi, data, dan teknologi. Sebaliknya, pada lingkup niche orang lebih peduli terhadap fungsi sosial bahasa, transmisi pengetahuan, pembelajaran manusia, serta keberdayaan.

Cakupan dari kedua aksiologi ini dapat digambarkan sebagai dua lingkaran beririsan. Pada irisan tersebut terdapat bahasa pasar dan variasi lokal dari bahasa terstandarisasi. Lebih jauh dari irisan tersebut adalah cakupan dari niche bahasa. Mulai pada titik irisan tersebut, peneliti di luar komunitas bahasa lokal perlu bekerjasama dengan ahli/penutur asli dari komunitas bahasa lokal tersebut.

Ahli dari komunitas lokal ini berperan menghubungkan peneliti dengan komunitas bahasanya, untuk memastikan bahwa komunitas bahasa asli tetap memegang kendali dan keberdayaan, serta mampu untuk memutuskan apa yang ingin mereka lakukan terkait dengan pekerjaan bahasa yang sedang berlangsung.

Sedikit Mengenai Newsletter INACL

Photo by Glenn Carstens-Peters on Unsplash

Newsletter (Buletin) INACL adalah media yang berisikan informasi perkembangan penelitian, berita dan hal lainnya mengenai komputasi linguistik Indonesia.

Kontributor dari newsletter INACL adalah para anggota Divisi Media INACL yang untuk saat ini beranggotakan:

  • Sari Dewi Budiwati
  • Said Al Faraby
  • Louis Owen
  • Renny P. Kusumawardani

Terdapat 3 rubrik utama yang menjadi fokus dari Divisi Media INACL dalam menerbitkan newsletter, antara lain sebagai berikut:

  • Rubrik utama, yang berisikan informasi mengenai publikasi penelitian
  • Rubrik fitur riset universitas, yang berisikan informasi mengenai pengembangan riset-riset yang ada di universitas
  • Rubrik kalendar, yang berisikan informasi mengenai konferensi/workshop dengan track NLP/CL di Indonesia atau Asia

Biografi Penulis

Said Al Faraby adalah dosen di Fakultas Informatika, Telkom University, Indonesia. Saat ini sedang studi S3 di Telkom University dengan topik di bidang NLP, khususnya Question Generation. Sebelumnya ia menyelesaikan studi S2 di bidang Artificial Intelligence di University of Amsterdam.

Profil Foto Said Al Faraby

Renny P. Kusumawardani memperoleh gelar Sarjana Teknik Elektro dari Institut Teknologi Bandung (ITB), Indonesia, pada tahun 2004. Pada tahun 2010, ia lulus dengan predikat Cum Laude sebagai lulusan terbaik dari Program Magister Informatika, Sekolah Teknik Elektro dan Informatika ITB, Indonesia. Sejak 2010, ia menjadi Dosen di Departemen Sistem Informasi, Fakultas Teknologi Elektro dan Informatika Cerdas, Institut Teknologi Sepuluh Nopember (ITS), Indonesia.

Profil Foto Renny P. Kusumawardani

Minat penelitiannya adalah di bidang Pengolahan Bahasa Alami (Natural Language Processing) dan Pembelajaran Mesin (Machine Learning). Dia adalah anggota dari Institute of Electrical and Electronics Engineers (IEEE), Association for Computational Linguistics (ACL), dan Indonesian Association for Computational Linguistics (INACL), serta aktif di berbagai kegiatan dan konferensi yang diselenggarakan oleh organisasi-organisasi tersebut.

Leave a Reply

Your email address will not be published. Required fields are marked *