Model bahasa besar yang diandalkan oleh jutaan orang untuk mendapatkan saran — ChatGPT, Claude, Gemini — akan mengubah jawaban mereka hampir 60% saat pengguna menolak dengan bertanya “apakah Anda yakin?”, menurut sebuah studi oleh Fanous dkk. yang menguji GPT-4o, Claude Sonnet, dan Gemini 1.5 Pro di seluruh domain matematika dan medis. Perilaku tersebut, yang dikenal dalam komunitas penelitian sebagai penjilatan, berasal dari cara model ini dilatih: pembelajaran penguatan dari umpan balik manusia, atau RLHF, memberi penghargaan pada tanggapan yang disukai oleh penilai manusia, dan manusia secara konsisten menilai jawaban yang disetujui lebih tinggi daripada jawaban yang akurat. Anthropic menerbitkan penelitian dasar tentang dinamika ini pada tahun 2023. Masalahnya mencapai titik puncaknya pada bulan April 2025 ketika OpenAI harus membatalkan pembaruan GPT-4o setelah pengguna melaporkan bahwa model tersebut menjadi sangat bagus sehingga tidak dapat digunakan. Penelitian mengenai percakapan multi-turn menemukan bahwa interaksi yang diperluas semakin memperkuat perilaku penjilat — semakin lama pengguna berbicara dengan model, semakin mencerminkan perspektif mereka.
Baca lebih lanjut cerita ini di Slashdot.