
Model bahasa besar (LLM) terkadang mengambil pelajaran yang salah, menurut sebuah studi MIT.
Daripada menjawab pertanyaan berdasarkan pengetahuan domain, LLM bisa merespons dengan memanfaatkan pola tata bahasa yang dipelajari selama pelatihan. Hal ini dapat menyebabkan model gagal secara tidak terduga saat diterapkan pada tugas baru.
Para peneliti menemukan bahwa model dapat secara keliru menghubungkan pola kalimat tertentu dengan topik tertentu, sehingga LLM mungkin memberikan jawaban yang meyakinkan dengan mengenali frasa yang familiar dan bukannya memahami pertanyaannya.
Eksperimen mereka menunjukkan bahwa LLM yang paling kuat sekalipun dapat melakukan kesalahan ini.
Kekurangan ini dapat mengurangi keandalan LLM yang melakukan tugas seperti menangani pertanyaan pelanggan, meringkas catatan klinis, dan menghasilkan laporan keuangan.
Hal ini juga dapat menimbulkan risiko keselamatan. Aktor jahat dapat memanfaatkan hal ini untuk mengelabui LLM agar memproduksi konten berbahaya, meskipun model tersebut memiliki perlindungan untuk mencegah respons tersebut.
Setelah mengidentifikasi fenomena ini dan mengeksplorasi implikasinya, para peneliti mengembangkan prosedur benchmarking untuk mengevaluasi ketergantungan model pada korelasi yang salah ini. Prosedur ini dapat membantu pengembang mengurangi masalah sebelum menerapkan LLM.
“Ini adalah produk sampingan dari cara kami melatih model, namun model sekarang digunakan dalam praktik di domain yang sangat penting bagi keselamatan jauh melampaui tugas yang menciptakan mode kegagalan sintaksis ini. Jika Anda belum terbiasa dengan pelatihan model sebagai pengguna akhir, hal ini mungkin tidak terduga,” kata Marzyeh Ghassemi, seorang profesor di Departemen Teknik Elektro dan Ilmu Komputer (EECS) MIT, anggota dari MIT Institute of Medical Engineering Sciences dan Laboratory for Information and Decision Systems, dan penulis senior studi tersebut.
Ghassemi bergabung dengan penulis utama Chantal Shaib, seorang mahasiswa pascasarjana di Universitas Northeastern dan mahasiswa tamu di MIT; dan Vinith Suriyakumar, seorang mahasiswa pascasarjana MIT; serta Levent Sagun, seorang ilmuwan peneliti di Meta; dan Byron Wallace, Associate Professor Interdisipliner Sy dan Laurie Sternberg dan dekan penelitian di Khoury College of Computer Sciences di Northeastern University. Sebuah makalah yang menjelaskan pekerjaan tersebut akan dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural.
Terjebak pada sintaksis
LLM dilatih tentang sejumlah besar teks dari internet. Selama proses pelatihan ini, model belajar memahami hubungan antara kata dan frasa — pengetahuan yang nantinya digunakan saat merespons pertanyaan.
Dalam penelitian sebelumnya, para peneliti menemukan bahwa LLM mengambil pola bagian-bagian pidato yang sering muncul bersamaan dalam data pelatihan. Mereka menyebut pola part-of-speech ini sebagai “templat sintaksis”.
LLM memerlukan pemahaman sintaksis, bersama dengan pengetahuan semantik, untuk menjawab pertanyaan dalam domain tertentu.
“Dalam domain berita, misalnya, ada gaya penulisan tertentu. Jadi, modelnya tidak hanya mempelajari semantik, tetapi juga mempelajari struktur yang mendasari bagaimana kalimat harus disusun mengikuti gaya tertentu untuk domain tersebut,” jelas Shaib.
Namun dalam penelitian ini, mereka menentukan bahwa LLM belajar mengaitkan templat sintaksis ini dengan domain tertentu. Model tersebut mungkin salah hanya mengandalkan asosiasi yang dipelajari ini saat menjawab pertanyaan, bukan pada pemahaman pertanyaan dan pokok bahasan.
Misalnya, LLM mungkin mengetahui pertanyaan seperti “Di mana lokasi Paris?” disusun sebagai kata keterangan/kata kerja/kata benda/kata kerja yang tepat. Jika terdapat banyak contoh konstruksi kalimat dalam data pelatihan model, LLM dapat mengaitkan templat sintaksis tersebut dengan pertanyaan tentang negara.
Jadi, jika model diberikan pertanyaan baru dengan struktur tata bahasa yang sama tetapi kata-kata yang tidak masuk akal, seperti “Cepat duduk di Paris mendung?” mungkin akan menjawab “Prancis” padahal jawaban itu tidak masuk akal.
“Ini adalah jenis asosiasi yang terabaikan yang dipelajari model untuk menjawab pertanyaan dengan benar. Kita harus lebih memperhatikan tidak hanya semantik tetapi juga sintaksis data yang kita gunakan untuk melatih model kita,” kata Shaib.
Hilang artinya
Para peneliti menguji fenomena ini dengan merancang eksperimen sintetik di mana hanya satu templat sintaksis yang muncul dalam data pelatihan model untuk setiap domain. Mereka menguji model dengan mengganti kata-kata dengan sinonim, antonim, atau kata-kata acak, namun tetap menjaga sintaksis dasarnya tetap sama.
Dalam setiap contoh, mereka menemukan bahwa LLM sering kali masih merespons dengan jawaban yang benar, meskipun pertanyaannya benar-benar tidak masuk akal.
Ketika mereka menyusun ulang pertanyaan yang sama menggunakan pola part-of-speech yang baru, LLM sering kali gagal memberikan jawaban yang benar, meskipun makna mendasar dari pertanyaan tersebut tetap sama.
Mereka menggunakan pendekatan ini untuk menguji LLM terlatih seperti GPT-4 dan Llama, dan menemukan bahwa perilaku belajar yang sama menurunkan kinerja mereka secara signifikan.
Penasaran dengan implikasi yang lebih luas dari temuan ini, para peneliti mempelajari apakah seseorang dapat mengeksploitasi fenomena ini untuk mendapatkan tanggapan yang merugikan dari LLM yang sengaja dilatih untuk menolak permintaan tersebut.
Mereka menemukan bahwa, dengan menyusun pertanyaan menggunakan templat sintaksis yang diasosiasikan model dengan kumpulan data yang “aman” (yang tidak berisi informasi berbahaya), mereka dapat mengelabui model agar mengesampingkan kebijakan penolakannya dan menghasilkan konten berbahaya.
“Dari penelitian ini, jelas bagi saya bahwa kita memerlukan pertahanan yang lebih kuat untuk mengatasi kerentanan keamanan di LLM. Dalam makalah ini, kami mengidentifikasi kerentanan baru yang muncul karena cara LLM belajar. Jadi, kita perlu menemukan pertahanan baru berdasarkan cara LLM mempelajari bahasa, bukan hanya solusi sementara untuk berbagai kerentanan,” kata Suriyakumar.
Meskipun para peneliti tidak mengeksplorasi strategi mitigasi dalam penelitian ini, mereka mengembangkan teknik benchmarking otomatis yang dapat digunakan untuk mengevaluasi ketergantungan LLM pada korelasi domain sintaksis yang salah ini. Pengujian baru ini dapat membantu pengembang secara proaktif mengatasi kekurangan ini pada model mereka, mengurangi risiko keselamatan, dan meningkatkan kinerja.
Di masa depan, para peneliti ingin mempelajari potensi strategi mitigasi, yang dapat melibatkan penambahan data pelatihan untuk menyediakan lebih banyak variasi templat sintaksis. Mereka juga tertarik untuk mengeksplorasi fenomena ini dalam model penalaran, jenis LLM khusus yang dirancang untuk menangani tugas-tugas multi-langkah.
“Saya pikir ini adalah sudut pandang yang sangat kreatif untuk mempelajari mode kegagalan LLM. Pekerjaan ini menyoroti pentingnya pengetahuan dan analisis linguistik dalam penelitian keselamatan LLM, sebuah aspek yang belum menjadi pusat perhatian tetapi jelas harus menjadi pusat perhatian,” kata Jessy Li, seorang profesor di Universitas Texas di Austin, yang tidak terlibat dalam pekerjaan ini.
Pekerjaan ini sebagian didanai oleh Bridgewater AIA Labs Fellowship, National Science Foundation, Gordon and Betty Moore Foundation, Google Research Award, dan Schmidt Sciences.