
Model Bahasa Besar (LLM) Excel dalam menggunakan penalaran tekstual untuk memahami konteks dokumen dan memberikan jawaban logis tentang isinya. Tetapi LLM yang sama ini sering berjuang untuk menjawab dengan benar bahkan masalah matematika yang paling sederhana.
Penalaran tekstual biasanya merupakan cara yang kurang ideal untuk berunding atas tugas komputasi atau algoritmik. Sementara beberapa LLM dapat menghasilkan kode seperti Python untuk menangani pertanyaan simbolik, model tidak selalu tahu kapan menggunakan kode, atau kode jenis apa yang paling berfungsi.
LLMS, tampaknya, mungkin perlu pelatih untuk mengarahkan mereka ke teknik terbaik.
Masukkan Codesteer, seorang asisten pintar yang dikembangkan oleh para peneliti MIT yang memandu LLM untuk beralih antara kode dan pembuatan teks hingga menjawab permintaan dengan benar.
Codesteer, itu sendiri LLM yang lebih kecil, secara otomatis menghasilkan serangkaian petunjuk untuk mengarahkan LLM yang lebih besar secara iteratif. Ini meninjau jawaban model saat ini dan sebelumnya setelah setiap putaran dan memberikan panduan untuk bagaimana ia dapat memperbaiki atau memperbaiki solusi itu sampai dianggap jawabannya benar.
Para peneliti menemukan bahwa menambah LLM yang lebih besar dengan codesteer meningkatkan akurasinya pada tugas -tugas simbolis, seperti mengalikan angka, bermain sudoku, dan menumpuk blok, lebih dari 30 persen. Ini juga memungkinkan model yang kurang canggih untuk mengungguli model yang lebih canggih dengan keterampilan penalaran yang ditingkatkan.
Kemajuan ini dapat meningkatkan kemampuan pemecahan masalah LLM untuk tugas-tugas kompleks yang sangat sulit dipecahkan dengan penalaran tekstual saja, seperti menghasilkan jalur untuk robot di lingkungan yang tidak pasti atau penjadwalan pengiriman dalam rantai pasokan internasional.
“Ada perlombaan untuk mengembangkan model yang lebih baik dan lebih baik yang mampu melakukan segalanya, tetapi kami telah mengambil pendekatan yang saling melengkapi. Para peneliti telah menghabiskan bertahun -tahun mengembangkan teknologi dan alat yang efektif untuk mengatasi masalah di banyak domain. Kami ingin memungkinkan LLM untuk memilih alat dan metode yang tepat, dan menggunakan aerona untuk meningkatkan kemampuan aerona mereka sendiri,” kata seorang penggemar Chuchu, seorang penggemar Chuchu, kata seorang penggemar Chuchu, kata seorang chuchu, kata seorang chuchu, kata seorang chuchu, kata seorang chuchu, kata seorang chuchu, kata seorang chuchu, kata seorang chuchu chuchu, kata seorang chuchu chuchu, kata seorang chuchu chuchu) di Laboratorium MIT untuk Sistem Informasi dan Keputusan (LIDS).
Fan, penulis senior penelitian, bergabung di atas kertas tentang karya mahasiswa pascasarjana LIDS Yongchao Chen; Mahasiswa pascasarjana Aeroastro Yilun Hao; Universitas Illinois di Mahasiswa Pascasarjana Urbana-Champaign Yueying Liu; dan MIT-IBM Watson AI Lab Ilmuwan Peneliti Yang Zhang. Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Pembelajaran Mesin.
“Pelatih” LLM
Tanyakan kepada LLM nomor mana yang lebih besar, 9.11 atau 9.9, dan itu akan sering memberikan jawaban yang salah dengan menggunakan penalaran tekstual. Tetapi minta untuk menggunakan kode untuk menjawab pertanyaan yang sama, dan itu dapat menghasilkan dan menjalankan skrip Python untuk membandingkan dua angka, dengan mudah memecahkan masalah.
Awalnya dilatih untuk memahami dan memprediksi bahasa manusia, LLM lebih cenderung menjawab pertanyaan menggunakan teks, bahkan ketika kode akan lebih efektif. Dan sementara mereka telah belajar untuk menghasilkan kode melalui penyempurnaan, model-model ini sering menghasilkan versi kode yang salah atau kurang efisien.
Daripada mencoba melatih kembali LLM yang kuat seperti GPT-4 atau Claude untuk meningkatkan kemampuan ini, peneliti MIT menyempurnakan LLM yang lebih kecil dan ringan untuk memandu model yang lebih besar antara teks dan kode. Menyempurnakan model yang lebih kecil tidak mengubah LLM yang lebih besar, jadi tidak ada risiko itu akan merusak kemampuan model lain yang lebih besar.
“Kami juga terinspirasi oleh manusia. Dalam olahraga, seorang pelatih mungkin tidak lebih baik daripada atlet bintang di tim, tetapi pelatih masih dapat memberikan saran yang bermanfaat untuk membimbing atlet. Metode kemudi ini juga berfungsi untuk LLMS,” kata Chen.
Pelatih ini, Codesteer, bekerja bersama dengan LLM yang lebih besar. Ini pertama -tama meninjau kueri dan menentukan apakah teks atau kode cocok untuk masalah ini, dan jenis kode mana yang terbaik.
Kemudian menghasilkan prompt untuk LLM yang lebih besar, mengatakannya untuk menggunakan metode pengkodean atau penalaran tekstual untuk menjawab kueri. Model yang lebih besar mengikuti prompt ini untuk menjawab kueri dan mengirimkan hasilnya kembali ke Codesteer, yang mengulasnya.
Jika jawabannya tidak benar, Codesteer akan terus mendorong LLM untuk mencoba berbagai hal yang mungkin memperbaiki masalah, seperti memasukkan algoritma pencarian atau kendala ke dalam kode Python -nya, sampai jawabannya benar.
“Kami menemukan bahwa seringkali, LLM yang lebih besar akan mencoba menjadi malas dan menggunakan kode yang lebih pendek dan kurang efisien yang tidak akan membawa perhitungan simbolik yang benar. Kami telah merancang Codesteer untuk menghindari fenomena ini,” kata Chen.
Pemeriksa simbolis mengevaluasi kompleksitas kode dan mengirimkan sinyal ke kode jika terlalu sederhana atau tidak efisien. Para peneliti juga memasukkan pemeriksa jawaban diri ke dalam codesteer, yang meminta LLM untuk menghasilkan kode yang menghitung jawaban untuk memverifikasi itu benar.
Menangani tugas -tugas kompleks
Sebagai peneliti yang merancang Codesteer, mereka tidak dapat menemukan set data simbolik yang sesuai untuk menyempurnakan dan menguji model, karena banyak tolok ukur yang ada tidak menunjukkan apakah kueri tertentu dapat diselesaikan dengan teks atau kode.
Jadi, mereka mengumpulkan kumpulan dari 37 tugas simbolis yang kompleks, termasuk penalaran spasial, matematika, penalaran pesanan, dan optimasi, dan membangun dataset mereka sendiri, yang disebut Symbench. Mereka menerapkan pendekatan penyempurnaan yang memanfaatkan Symbench untuk memaksimalkan kinerja Codesteer.
Dalam percobaan mereka, codesteer mengungguli semua sembilan metode baseline yang mereka evaluasi dan meningkatkan akurasi rata -rata dari 53,3 persen menjadi 86,4 persen. Ini mempertahankan kinerja yang sama bahkan pada tugas yang tidak terlihat, dan pada berbagai LLM.
Selain itu, model tujuan umum yang ditambah dengan Codesteer dapat mencapai akurasi yang lebih tinggi daripada model canggih yang dirancang untuk fokus pada penalaran dan perencanaan yang kompleks, sementara membutuhkan komputasi yang jauh lebih sedikit.
“Metode kami menggunakan kemampuan LLM sendiri. Dengan menambah LLM dengan kemampuan untuk menggunakan pengkodean dengan cerdas, kami dapat mengambil model yang sudah sangat kuat dan meningkatkan kinerjanya lebih banyak lagi,” kata Chen.
Di masa depan, para peneliti ingin merampingkan Codesteer untuk mempercepat proses pendakian berulang. Selain itu, mereka mempelajari cara menyempurnakan secara efektif model terpadu dengan kemampuan untuk beralih antara penalaran tekstual dan pembuatan kode, daripada mengandalkan asisten yang terpisah.
“Penulis menyajikan solusi elegan untuk tantangan kritis pemanfaatan pahat di LLMS. Metode sederhana namun berdampak ini memungkinkan LLM yang canggih untuk mencapai peningkatan kinerja yang signifikan tanpa memerlukan penyempurnaan langsung,” kata Jinsung Yoon, seorang ilmuwan riset staf di Google Cloud AI, yang tidak terlibat dengan pekerjaan ini. “Penelitian ini merupakan kontribusi substansial yang menjanjikan untuk secara signifikan meningkatkan penerapan LLM ke beragam tugas yang saat ini mereka perjuangkan.”
“Keberhasilan mereka dalam melatih model yang lebih kecil dan khusus untuk secara strategis memandu model canggih yang lebih besar sangat berdampak,” tambah Chi Wang, seorang ilmuwan staf senior di Google DeepMind yang tidak terlibat dengan pekerjaan ini. “Kolaborasi cerdas ini di antara beragam ‘agen’ AI membuka jalan bagi aplikasi yang lebih kuat dan serbaguna dalam skenario dunia nyata yang kompleks.”
Penelitian ini didukung, sebagian, oleh Kantor Penelitian Angkatan Laut AS dan Lab MIT-IBM Watson AI.