
Model bahasa besar (LLM) telah diperjuangkan sebagai alat yang dapat mendemokratisasikan akses terhadap informasi di seluruh dunia, menawarkan pengetahuan dalam antarmuka yang mudah digunakan tanpa memandang latar belakang atau lokasi seseorang. Namun, penelitian baru dari Pusat Komunikasi Konstruktif (CCC) MIT menunjukkan bahwa sistem kecerdasan buatan ini mungkin memiliki kinerja yang lebih buruk bagi pengguna yang paling mendapat manfaat darinya.
Sebuah studi yang dilakukan oleh para peneliti di CCC, yang berbasis di MIT Media Lab, menemukan bahwa chatbot AI yang canggih — termasuk GPT-4 milik OpenAI, Claude 3 Opus dari Anthropic, dan Llama 3 dari Meta — terkadang memberikan tanggapan yang kurang akurat dan kurang jujur kepada pengguna yang memiliki kemampuan bahasa Inggris yang lebih rendah, pendidikan yang kurang formal, atau yang berasal dari luar Amerika Serikat. Model tersebut juga menolak menjawab pertanyaan dengan tingkat yang lebih tinggi bagi pengguna tersebut, dan dalam beberapa kasus, merespons dengan bahasa yang merendahkan atau merendahkan.
“Kami termotivasi oleh prospek LLM yang membantu mengatasi aksesibilitas informasi yang tidak adil di seluruh dunia,” kata penulis utama Elinor Poole-Dayan SM ’25, rekan teknis di MIT Sloan School of Management yang memimpin penelitian sebagai afiliasi CCC dan mahasiswa master dalam bidang seni dan sains media. “Tetapi visi tersebut tidak dapat menjadi kenyataan tanpa memastikan bahwa bias model dan kecenderungan yang merugikan dapat dimitigasi dengan aman bagi semua pengguna, terlepas dari bahasa, kebangsaan, atau demografi lainnya.”
Sebuah makalah yang menjelaskan karya tersebut, “LLM Targetkan Kinerja Buruk Secara Disproporsional Berdampak pada Pengguna yang Rentan,” dipresentasikan pada Konferensi AAAI tentang Kecerdasan Buatan pada bulan Januari.
Performa buruk yang sistematis di berbagai dimensi
Untuk penelitian ini, tim menguji bagaimana ketiga LLM menanggapi pertanyaan dari dua kumpulan data: TruthfulQA dan SciQ. TruthfulQA dirancang untuk mengukur kebenaran model (dengan mengandalkan kesalahpahaman umum dan kebenaran literal tentang dunia nyata), sedangkan SciQ berisi soal-soal ujian sains yang menguji keakuratan faktual. Para peneliti menambahkan biografi singkat pengguna pada setiap pertanyaan, dengan memvariasikan tiga ciri: tingkat pendidikan, kemahiran bahasa Inggris, dan negara asal.
Dari ketiga model dan kedua kumpulan data, para peneliti menemukan penurunan akurasi yang signifikan ketika pertanyaan datang dari pengguna yang digambarkan memiliki pendidikan kurang formal atau bukan penutur asli bahasa Inggris. Dampaknya paling terasa bagi pengguna yang berada di titik-temu kategori-kategori ini: mereka yang berpendidikan kurang formal dan juga bukan penutur asli bahasa Inggris mengalami penurunan kualitas respons yang paling besar.
Penelitian ini juga menguji bagaimana negara asal mempengaruhi kinerja model. Saat menguji pengguna dari Amerika Serikat, Iran, dan Tiongkok dengan latar belakang pendidikan yang setara, para peneliti menemukan bahwa Claude 3 Opus khususnya memiliki kinerja yang jauh lebih buruk bagi pengguna dari Iran pada kedua kumpulan data.
“Kami melihat penurunan akurasi terbesar terjadi pada pengguna yang bukan penutur asli bahasa Inggris dan berpendidikan rendah,” kata Jad Kabbara, ilmuwan riset di CCC dan salah satu penulis makalah tersebut. “Hasil ini menunjukkan bahwa dampak negatif dari perilaku model sehubungan dengan ciri-ciri pengguna ini semakin bertambah, sehingga menunjukkan bahwa model seperti itu yang diterapkan dalam skala besar berisiko menyebarkan perilaku berbahaya atau informasi yang salah ke pihak-pihak yang paling tidak mampu mengidentifikasinya.”
Penolakan dan bahasa yang merendahkan
Mungkin yang paling mencolok adalah perbedaan dalam seberapa sering model menolak menjawab pertanyaan sama sekali. Misalnya, Claude 3 Opus menolak menjawab hampir 11 persen pertanyaan untuk pengguna yang kurang berpendidikan dan bukan penutur asli bahasa Inggris — dibandingkan dengan hanya 3,6 persen untuk kondisi kontrol tanpa biografi pengguna.
Ketika para peneliti menganalisis penolakan ini secara manual, mereka menemukan bahwa Claude merespons dengan bahasa yang merendahkan, menggurui, atau mengejek sebanyak 43,7 persen untuk pengguna yang kurang berpendidikan, dibandingkan dengan kurang dari 1 persen untuk pengguna yang berpendidikan tinggi. Dalam beberapa kasus, model tersebut menirukan bahasa Inggris yang terpatah-patah atau mengadopsi dialek yang berlebihan.
Model tersebut juga menolak memberikan informasi mengenai topik tertentu khususnya untuk pengguna yang kurang berpendidikan di Iran atau Rusia, termasuk pertanyaan tentang tenaga nuklir, anatomi, dan peristiwa sejarah — meskipun model tersebut menjawab pertanyaan yang sama dengan benar untuk pengguna lain.
“Ini adalah indikator lain yang menunjukkan bahwa proses penyelarasan mungkin memberi insentif pada model untuk menahan informasi dari pengguna tertentu untuk menghindari potensi misinformasi kepada mereka, meskipun model tersebut dengan jelas mengetahui jawaban yang benar dan memberikannya kepada pengguna lain,” kata Kabbara.
Gema bias manusia
Temuan ini mencerminkan pola bias sosiokognitif manusia yang terdokumentasi. Penelitian di bidang ilmu sosial menunjukkan bahwa penutur asli bahasa Inggris sering kali menganggap penutur non-pribumi kurang berpendidikan, cerdas, dan kompeten, terlepas dari keahlian mereka sebenarnya. Persepsi bias serupa telah didokumentasikan di kalangan guru yang mengevaluasi siswa yang bukan penutur asli bahasa Inggris.
“Nilai dari model bahasa besar terbukti dalam penyerapan yang luar biasa oleh individu dan investasi besar-besaran yang mengalir ke dalam teknologi,” kata Deb Roy, profesor seni dan sains media, direktur CCC, dan salah satu penulis makalah ini. “Studi ini mengingatkan betapa pentingnya untuk terus menilai bias sistematis yang diam-diam dapat menyelinap ke dalam sistem, sehingga menimbulkan kerugian yang tidak adil bagi kelompok tertentu tanpa kita sadari sepenuhnya.”
Implikasinya sangat memprihatinkan mengingat fitur personalisasi — seperti Memori ChatGPT, yang melacak informasi pengguna di seluruh percakapan — menjadi semakin umum. Ciri-ciri seperti ini berisiko memperlakukan kelompok-kelompok yang sudah terpinggirkan secara berbeda.
“LLM telah dipasarkan sebagai alat yang akan mendorong akses informasi yang lebih adil dan merevolusi pembelajaran yang dipersonalisasi,” kata Poole-Dayan. “Tetapi temuan kami menunjukkan bahwa alat-alat tersebut justru memperburuk kesenjangan yang ada dengan secara sistematis memberikan informasi yang salah atau menolak menjawab pertanyaan kepada pengguna tertentu. Orang-orang yang paling bergantung pada alat ini bisa saja menerima informasi di bawah standar, salah, atau bahkan berbahaya.”