
Seiring dengan peningkatan model bahasa (LM) dalam tugas-tugas seperti pembuatan gambar, pertanyaan trivia, dan matematika sederhana, Anda mungkin berpikir bahwa penalaran seperti manusia sudah dekat. Pada kenyataannya, mereka masih tertinggal jauh dari kita dalam tugas-tugas kompleks. Coba mainkan Sudoku dengan salah satunya, misalnya, di mana Anda mengisi angka satu hingga sembilan sedemikian rupa sehingga setiap angka hanya muncul satu kali pada kolom, baris, dan bagian dari kotak berukuran sembilan kali sembilan. Lawan AI Anda akan gagal mengisi kotaknya sendiri atau melakukannya dengan tidak efisien, meskipun ia dapat memverifikasi apakah Anda telah mengisi kotak Anda dengan benar.
Baik ketika LM mencoba memecahkan teka-teki tingkat lanjut, merancang molekul, atau menulis bukti matematika, sistem kesulitan menjawab permintaan terbuka yang memiliki aturan ketat yang harus diikuti. Model ini lebih baik dalam memberi tahu pengguna cara menghadapi tantangan ini dibandingkan mencobanya sendiri. Selain itu, pemecahan masalah secara langsung mengharuskan LM untuk mempertimbangkan berbagai pilihan sambil mengikuti batasan yang ada. LM kecil tidak dapat melakukan hal ini dengan andal; model bahasa besar (LLM) terkadang bisa, terutama jika dioptimalkan untuk tugas penalaran, namun memerlukan waktu untuk merespons, dan menggunakan banyak daya komputasi.
Kesulitan ini mengarahkan para peneliti dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT untuk mengembangkan pendekatan kolaboratif di mana LLM melakukan perencanaan, kemudian membagi kerja keras strategi tersebut di antara organisasi-organisasi kecil. Metode mereka membantu LM kecil memberikan respons yang lebih akurat dibandingkan LLM terkemuka seperti GPT-4o OpenAI, dan mendekati ketepatan sistem penalaran teratas seperti o1, sekaligus lebih efisien dibandingkan keduanya. Kerangka kerja mereka, yang disebut “Kendala Distribusi dengan Pemrograman Inferensi dengan Model Bahasa” (atau “DisCIPL”), memiliki model besar yang mengarahkan model “pengikut” yang lebih kecil ke arah respons yang tepat ketika menulis hal-hal seperti uraian teks, daftar belanjaan dengan anggaran, dan rencana perjalanan.
Cara kerja DisCIPL seperti mengontrak perusahaan untuk pekerjaan tertentu. Anda memberikan permintaan kepada model “bos”, dan model tersebut dengan cermat mempertimbangkan bagaimana cara melakukan proyek tersebut. Kemudian, LLM menyampaikan instruksi dan pedoman ini dengan jelas ke model yang lebih kecil. Ini mengoreksi keluaran LM pengikut jika diperlukan — misalnya, mengganti frasa satu model yang tidak sesuai dengan puisi dengan opsi yang lebih baik dari model lain.
LLM berkomunikasi dengan pengikutnya menggunakan bahasa yang mereka semua pahami — yaitu bahasa pemrograman untuk mengendalikan LM yang disebut “LLaMPPL.” Dikembangkan oleh Proyek Komputasi Probabilistik MIT pada tahun 2023, program ini memungkinkan pengguna mengkodekan aturan tertentu yang mengarahkan model menuju hasil yang diinginkan. Misalnya, LLaMPPL dapat digunakan untuk menghasilkan kode bebas kesalahan dengan memasukkan aturan bahasa tertentu ke dalam instruksinya. Petunjuk seperti “tulis delapan baris puisi yang setiap barisnya memiliki tepat delapan kata” dikodekan dalam LLaMPPL, mengantri model yang lebih kecil untuk berkontribusi pada bagian jawaban yang berbeda.
Mahasiswa PhD MIT Gabriel Grand, yang merupakan penulis utama makalah yang mempresentasikan karya ini, mengatakan bahwa DisCIPL memungkinkan LM untuk saling membimbing menuju respons terbaik, sehingga meningkatkan efisiensi mereka secara keseluruhan. “Kami berupaya meningkatkan efisiensi inferensi LM, khususnya pada banyak aplikasi modern dari model ini yang melibatkan menghasilkan keluaran yang tunduk pada batasan,” tambah Grand, yang juga merupakan peneliti CSAIL. “Model bahasa menghabiskan lebih banyak energi seiring dengan semakin banyaknya orang yang menggunakannya, yang berarti kita memerlukan model yang dapat memberikan jawaban akurat dengan menggunakan daya komputasi minimal.”
“Sangat menarik melihat alternatif baru terhadap inferensi model bahasa standar,” kata Asisten Profesor Alane Suhr dari Universitas California di Berkeley, yang tidak terlibat dalam penelitian ini. “Pekerjaan ini mengundang pendekatan baru terhadap pemodelan bahasa dan LLM yang secara signifikan mengurangi latensi inferensi melalui paralelisasi, memerlukan parameter yang jauh lebih sedikit dibandingkan LLM saat ini, dan bahkan meningkatkan kinerja tugas dibandingkan inferensi serial standar. Pekerjaan ini juga memberikan peluang untuk mengeksplorasi transparansi, interpretabilitas, dan pengendalian keluaran model, yang masih menjadi masalah terbuka besar dalam penerapan teknologi ini.”
Kisah yang tidak diunggulkan
Anda mungkin berpikir bahwa LM berskala besar “lebih baik” dalam hal permintaan yang kompleks dibandingkan LM skala kecil dalam hal akurasi dan efisiensi. DisCIPL menyarankan tandingan yang mengejutkan untuk tugas-tugas ini: Jika Anda dapat menggabungkan kekuatan model yang lebih kecil, Anda mungkin akan melihat peningkatan efisiensi dengan hasil yang serupa.
Para peneliti mencatat bahwa, secara teori, Anda dapat menyambungkan lusinan LM untuk bekerja sama dalam kerangka DisCIPL, berapa pun ukurannya. Dalam eksperimen menulis dan penalaran, mereka menggunakan GPT-4o sebagai “LM perencana”, yang merupakan salah satu model yang membantu ChatGPT menghasilkan respons. Ini melakukan brainstorming rencana untuk beberapa model “Llama-3.2-1B” (sistem yang lebih kecil yang dikembangkan oleh Meta), di mana LM tersebut mengisi setiap kata (atau token) dari respons.
Pendekatan kolektif ini bersaing dengan tiga pendekatan serupa: dasar khusus pengikut yang didukung oleh Llama-3.2-1B, GPT-4o yang bekerja sendiri, dan sistem penalaran o1 terdepan di industri yang membantu ChatGPT memecahkan pertanyaan yang lebih kompleks, seperti permintaan coding dan soal matematika.
DisCIPL pertama kali menunjukkan kemampuan menulis kalimat dan paragraf yang mengikuti aturan eksplisit. Model diberikan petunjuk yang sangat spesifik – misalnya, menulis kalimat yang terdiri dari 18 kata, dengan kata keempat harus “Glasgow”, kata kedelapan harus “dalam”, dan kata ke-11 harus “dan”. Sistem ini sangat mahir dalam menangani permintaan ini, menghasilkan keluaran yang koheren sekaligus mencapai akurasi dan koherensi yang serupa dengan o1.
Lebih cepat, lebih murah, lebih baik
Eksperimen ini juga mengungkapkan bahwa komponen utama DisCIPL jauh lebih murah dibandingkan sistem canggih. Misalnya, model penalaran yang ada seperti o1 OpenAI melakukan penalaran dalam teks, DisCIPL “bernalar” dengan menulis kode Python, yang lebih ringkas. Dalam praktiknya, para peneliti menemukan bahwa DisCIPL menghasilkan penalaran yang lebih pendek sebesar 40,1 persen dan penghematan biaya sebesar 80,2 persen dibandingkan o1.
Peningkatan efisiensi DisCIPL sebagian berasal dari penggunaan model Llama kecil sebagai pengikut, yang 1.000 hingga 10.000 kali lebih murah per token dibandingkan model penalaran serupa. Ini berarti DisCIPL lebih “scalable” — para peneliti dapat menjalankan lusinan model Llama secara paralel dengan biaya yang lebih murah.
Itu bukan satu-satunya temuan yang mengejutkan, menurut peneliti CSAIL. Sistem mereka juga bekerja dengan baik dibandingkan o1 pada tugas-tugas dunia nyata, seperti membuat daftar bahan, merencanakan rencana perjalanan, dan menulis proposal hibah dengan batasan kata. Sementara itu, GPT-4o mengalami kesulitan dalam memenuhi permintaan ini, dan pada tes menulis, sering kali GPT-4o tidak dapat menempatkan kata kunci di bagian kalimat yang benar. Baseline khusus pengikut pada dasarnya berada di posisi terakhir secara keseluruhan, karena mengalami kesulitan dalam mengikuti instruksi.
“Selama beberapa tahun terakhir, kami telah melihat beberapa hasil yang mengesankan dari pendekatan yang menggunakan model bahasa untuk ‘memformalkan secara otomatis’ masalah dalam matematika dan robotika dengan merepresentasikannya dengan kode,” kata penulis senior Jacob Andreas, yang merupakan profesor teknik elektro dan ilmu komputer MIT dan peneliti utama CSAIL. “Apa yang menurut saya paling menarik dari makalah ini adalah kenyataan bahwa kita sekarang dapat menggunakan LM untuk memformalkan pembuatan teks secara otomatis, memungkinkan peningkatan efisiensi dan jaminan yang sama seperti yang telah kita lihat di domain lain ini.”
Di masa depan, para peneliti berencana untuk memperluas kerangka kerja ini ke dalam pendekatan yang lebih rekursif, di mana Anda dapat menggunakan model yang sama baik sebagai pemimpin maupun pengikut. Grand menambahkan bahwa DisCIPL dapat diperluas ke tugas penalaran matematis, yang jawabannya lebih sulit diverifikasi. Mereka juga bermaksud untuk menguji sistem pada kemampuannya untuk memenuhi preferensi pengguna yang tidak jelas, dibandingkan dengan mengikuti batasan keras, yang tidak dapat diuraikan dalam kode secara eksplisit. Berpikir lebih besar lagi, tim berharap dapat menggunakan model sebesar mungkin yang tersedia, meskipun mereka mencatat bahwa eksperimen semacam itu mahal secara komputasi.
Grand dan Andreas menulis makalah tersebut bersama peneliti utama CSAIL dan Profesor MIT Joshua Tenenbaum, serta Ilmuwan Utama Penelitian Departemen Ilmu Otak dan Kognitif MIT Vikash Mansinghka dan Asisten Profesor Universitas Yale Alex Lew SM ’20 PhD ’25. Para peneliti CSAIL mempresentasikan hasil kerjanya di Konferensi Pemodelan Bahasa pada bulan Oktober dan lokakarya IVADO yang bertajuk “Menyebarkan Agen Otonom: Pelajaran, Risiko, dan Dampak Dunia Nyata” pada bulan November.
Pekerjaan mereka didukung, sebagian, oleh MIT Quest for Intelligence, Siegel Family Foundation, MIT-IBM Watson AI Lab, Sloan Research Fellowship, Intel, Air Force Office of Scientific Research, Defense Advanced Research Projects Agency, Office of Naval Research, dan National Science Foundation.