789BNi
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

Cara yang lebih cerdas bagi model bahasa besar untuk memikirkan masalah sulit

Cara yang lebih cerdas bagi model bahasa besar untuk memikirkan masalah sulit



Untuk membuat model bahasa besar (LLM) lebih akurat ketika menjawab pertanyaan yang lebih sulit, peneliti dapat membiarkan model tersebut menghabiskan lebih banyak waktu untuk memikirkan solusi potensial.

Namun pendekatan umum yang memberikan LLM kemampuan ini menetapkan anggaran komputasi tetap untuk setiap masalah, tidak peduli seberapa rumitnya masalah tersebut. Ini berarti LLM mungkin menyia-nyiakan sumber daya komputasi untuk pertanyaan yang lebih sederhana atau tidak mampu mengatasi masalah rumit yang memerlukan lebih banyak penalaran.

Untuk mengatasi hal ini, peneliti MIT mengembangkan cara yang lebih cerdas untuk mengalokasikan upaya komputasi saat LLM memecahkan masalah. Metode mereka memungkinkan model untuk secara dinamis menyesuaikan anggaran komputasinya berdasarkan tingkat kesulitan pertanyaan dan kemungkinan bahwa setiap solusi parsial akan menghasilkan jawaban yang benar.

Para peneliti menemukan bahwa pendekatan baru mereka memungkinkan LLM menggunakan sedikitnya setengah penghitungan dibandingkan metode yang ada, sekaligus mencapai akurasi yang sebanding pada serangkaian pertanyaan dengan tingkat kesulitan yang berbeda-beda. Selain itu, metode mereka memungkinkan LLM yang lebih kecil dan tidak memerlukan banyak sumber daya untuk bekerja sama baiknya atau bahkan lebih baik daripada model yang lebih besar dalam masalah yang kompleks.

Dengan meningkatkan keandalan dan efisiensi LLM, terutama ketika mereka menangani tugas-tugas penalaran yang kompleks, teknik ini dapat mengurangi konsumsi energi sistem AI generatif dan memungkinkan penggunaan LLM dalam aplikasi yang lebih berisiko tinggi dan sensitif terhadap waktu.

“Biaya komputasi inferensi dengan cepat menjadi hambatan besar bagi penyedia model frontier, dan mereka secara aktif mencoba mencari cara untuk meningkatkan efisiensi komputasi per kueri pengguna. Misalnya, rilis GPT-5.1 baru-baru ini menyoroti kemanjuran pendekatan ‘penalaran adaptif’ yang diusulkan makalah kami. Dengan memberikan model kemampuan untuk mengetahui apa yang tidak mereka ketahui, kami dapat memungkinkan mereka menggunakan lebih banyak komputasi pada masalah yang paling sulit dan jalur solusi yang paling menjanjikan, dan menggunakan token yang jauh lebih sedikit pada masalah yang mudah. Hal ini menjadikan penalaran lebih dapat diandalkan dan jauh lebih efisien,” kata Navid Azizan, Asisten Profesor Pengembangan Karir Alfred H. dan Jean M. Hayes di Departemen Teknik Mesin dan Institut Data, Sistem, dan Masyarakat (IDSS), peneliti utama di Laboratorium Sistem Informasi dan Keputusan (LIDS), dan penulis senior makalah tentang teknik ini.

Azizan bergabung dalam makalah ini dengan penulis utama Young-Jin Park, seorang mahasiswa pascasarjana LIDS/MechE; Kristjan Greenewald, seorang ilmuwan peneliti di MIT-IBM Watson AI Lab; Kaveh Alim, mahasiswa pascasarjana IDSS; dan Hao Wang, seorang ilmuwan peneliti di MIT-IBM Watson AI Lab dan Tim Inovasi AI Red Hat. Penelitian ini dipresentasikan minggu ini di Konferensi Sistem Pemrosesan Informasi Neural.

Perhitungan untuk kontemplasi

Pendekatan terbaru yang disebut penskalaan waktu inferensi memungkinkan model bahasa berukuran besar memerlukan lebih banyak waktu untuk memikirkan masalah yang sulit.

Dengan menggunakan penskalaan waktu inferensi, LLM dapat menghasilkan beberapa upaya solusi sekaligus atau mengeksplorasi jalur penalaran yang berbeda, kemudian memilih jalur terbaik untuk dilakukan dari kandidat tersebut.

Model terpisah, yang dikenal sebagai model penghargaan proses (PRM), menilai setiap solusi potensial atau jalur penalaran. LLM menggunakan skor ini untuk mengidentifikasi skor yang paling menjanjikan.

Pendekatan penskalaan waktu inferensi yang umum menetapkan jumlah komputasi yang tetap untuk LLM untuk memecah masalah dan mempertimbangkan langkah-langkahnya.

Sebaliknya, metode para peneliti, yang dikenal sebagai penskalaan adaptif contoh, secara dinamis menyesuaikan jumlah solusi potensial atau langkah-langkah penalaran berdasarkan seberapa besar kemungkinan solusi tersebut berhasil, saat model tersebut bergulat dengan masalah tersebut.

“Beginilah cara manusia memecahkan masalah. Kita menemukan beberapa solusi parsial dan kemudian memutuskan, haruskah saya melangkah lebih jauh dengan solusi tersebut, atau berhenti dan merevisi, atau bahkan kembali ke langkah saya sebelumnya dan terus menyelesaikan masalah dari sana?” Wang menjelaskan.

Untuk melakukan hal ini, kerangka kerja ini menggunakan PRM untuk memperkirakan tingkat kesulitan pertanyaan, membantu LLM menilai berapa banyak anggaran komputasi yang digunakan untuk menghasilkan dan mempertimbangkan solusi potensial.

Pada setiap langkah dalam proses penalaran model, PRM melihat pertanyaan dan sebagian jawaban serta mengevaluasi seberapa menjanjikan masing-masing pertanyaan untuk mendapatkan solusi yang tepat. Jika LLM lebih percaya diri, hal ini dapat mengurangi jumlah solusi potensial atau jalur penalaran yang harus dicapai, sehingga menghemat sumber daya komputasi.

Namun para peneliti menemukan bahwa PRM yang ada sering kali melebih-lebihkan kemungkinan keberhasilan model tersebut.

Mengatasi rasa percaya diri yang berlebihan

“Jika kami hanya mempercayai PRM yang ada saat ini, yang sering kali melebih-lebihkan peluang keberhasilannya, sistem kami akan mengurangi anggaran komputasi secara terlalu agresif. Jadi pertama-tama kami harus menemukan cara untuk mengkalibrasi PRM dengan lebih baik agar penskalaan waktu inferensi menjadi lebih efisien dan dapat diandalkan,” kata Park.

Para peneliti memperkenalkan metode kalibrasi yang memungkinkan PRM menghasilkan rentang skor probabilitas, bukan hanya satu nilai. Dengan cara ini, PRM menciptakan perkiraan ketidakpastian yang lebih andal dan lebih mencerminkan kemungkinan keberhasilan sebenarnya.

Dengan PRM yang dikalibrasi dengan baik, kerangka penskalaan adaptif instansnya dapat menggunakan skor probabilitas untuk mengurangi komputasi secara efektif sekaligus menjaga keakuratan keluaran model.

Ketika mereka membandingkan metode mereka dengan pendekatan penskalaan waktu inferensi standar pada serangkaian tugas penalaran matematis, metode tersebut menggunakan lebih sedikit komputasi untuk menyelesaikan setiap masalah sekaligus mencapai akurasi yang serupa.

“Keunggulan dari pendekatan kami adalah adaptasi ini terjadi dengan cepat, seiring dengan penyelesaian masalah, dan tidak terjadi sekaligus di awal proses,” kata Greenewald.

Ke depannya, para peneliti tertarik untuk menerapkan teknik ini pada aplikasi lain, seperti pembuatan kode dan agen AI. Mereka juga berencana untuk mengeksplorasi kegunaan tambahan untuk metode kalibrasi PRM mereka, seperti untuk pembelajaran penguatan dan penyesuaian.

“Karyawan manusia belajar sambil bekerja – beberapa CEO bahkan mulai magang – namun agen saat ini sebagian besar masih berupa perangkat lunak probabilistik yang statis. Pekerjaan seperti makalah ini merupakan langkah penting untuk mengubah hal tersebut: membantu agen memahami apa yang tidak mereka ketahui dan membangun mekanisme untuk perbaikan diri terus-menerus. Kemampuan ini sangat penting jika kita menginginkan agen yang dapat beroperasi dengan aman, beradaptasi dengan situasi baru, dan memberikan hasil yang konsisten dalam skala besar,” kata Akash Srivastava, direktur dan kepala arsitek Core AI di IBM Software, yang tidak terlibat dengan pekerjaan ini.

Pekerjaan ini sebagian didanai oleh MIT-IBM Watson AI Lab, MIT-Amazon Science Hub, MIT-Google Program for Computing Innovation, dan MathWorks.


Previous Article

Aditya Vaidya tentang Mengapa Kepemimpinan, Sistem, dan Standar Akan Menentukan Fase Berikutnya Pertumbuhan Perhotelan India - Insights Success

Next Article

Panduan non-coder untuk Claude Code

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨