789BNi
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

Studi dapat menyebabkan LLMS yang lebih baik dalam penalaran kompleks

Studi dapat menyebabkan LLMS yang lebih baik dalam penalaran kompleks



Untuk semua kemampuan mereka yang mengesankan, model bahasa besar (LLM) sering gagal ketika diberi tugas baru yang menantang yang membutuhkan keterampilan penalaran yang kompleks.

Sementara LLM perusahaan akuntansi mungkin unggul dalam meringkas laporan keuangan, model yang sama itu bisa gagal secara tak terduga jika ditugaskan memprediksi tren pasar atau mengidentifikasi transaksi penipuan.

Untuk membuat LLM lebih mudah beradaptasi, para peneliti MIT menyelidiki bagaimana teknik pelatihan tertentu dapat digunakan secara strategis untuk meningkatkan kinerja model pada masalah yang tidak dikenal dan sulit.

Mereka menunjukkan bahwa pelatihan waktu tes, metode yang melibatkan sementara memperbarui beberapa pekerjaan dalam model selama penyebaran, dapat menyebabkan peningkatan akurasi enam kali lipat. Para peneliti mengembangkan kerangka kerja untuk mengimplementasikan strategi pelatihan test-time yang menggunakan contoh tugas baru untuk memaksimalkan keuntungan ini.

Pekerjaan mereka dapat meningkatkan fleksibilitas model, memungkinkan LLM di luar rak untuk beradaptasi dengan tugas-tugas kompleks yang membutuhkan perencanaan atau abstraksi. Hal ini dapat menyebabkan LLM yang akan lebih akurat dalam banyak aplikasi yang membutuhkan pengurangan logis, dari diagnostik medis hingga manajemen rantai pasokan.

“Pembelajaran yang tulus-apa yang kami lakukan di sini dengan pelatihan test-time-adalah sesuatu yang tidak dapat dilakukan oleh model-model ini sendiri setelah mereka dikirim. Mereka tidak dapat memperoleh keterampilan baru atau menjadi lebih baik pada suatu tugas. Tetapi kami telah menunjukkan bahwa jika Anda mendorong model sedikit untuk melakukan pembelajaran yang sebenarnya, Anda melihat bahwa peningkatan besar dalam kinerja dapat terjadi,” kata Ekin Akyürek PhD ’25, penulis utama studi.

Akyürek bergabung di atas kertas oleh mahasiswa pascasarjana Mehul Damani, Linlu Qiu, Han Guo, dan Jyothish Pari; sarjana Adam Zweiger; dan penulis senior Yoon Kim, Asisten Profesor Teknik Listrik dan Ilmu Komputer (EECS) dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL); dan Jacob Andreas, seorang profesor di EECS dan anggota CSAIL. Penelitian ini akan dipresentasikan pada Konferensi Internasional tentang Pembelajaran Mesin.

Menangani domain keras

Pengguna LLM sering mencoba meningkatkan kinerja model mereka pada tugas baru menggunakan teknik yang disebut pembelajaran dalam konteks. Mereka memberi makan model beberapa contoh tugas baru sebagai permintaan teks yang memandu output model.

Tetapi pembelajaran dalam konteks tidak selalu bekerja untuk masalah yang membutuhkan logika dan penalaran.

Para peneliti MIT menyelidiki bagaimana pelatihan waktu tes dapat digunakan bersama dengan pembelajaran dalam konteks untuk meningkatkan kinerja pada tugas-tugas yang menantang ini. Pelatihan waktu tes melibatkan memperbarui beberapa parameter model-variabel internal yang digunakannya untuk membuat prediksi-menggunakan sejumlah kecil data baru khusus untuk tugas yang dihadapi.

Para peneliti mengeksplorasi bagaimana pelatihan test-time berinteraksi dengan pembelajaran dalam konteks. Mereka mempelajari pilihan-pilihan desain yang memaksimalkan peningkatan kinerja yang dapat dibatalkan dari LLM tujuan umum.

“Kami menemukan bahwa pelatihan test-time adalah bentuk pembelajaran yang jauh lebih kuat. Sambil hanya memberikan contoh dapat secara sederhana meningkatkan akurasi, sebenarnya memperbarui model dengan contoh-contoh tersebut dapat menyebabkan kinerja yang jauh lebih baik, terutama dalam domain yang menantang,” kata Damani.

Pembelajaran dalam konteks membutuhkan serangkaian contoh tugas kecil, termasuk masalah dan solusinya. Para peneliti menggunakan contoh-contoh ini untuk membuat dataset khusus tugas yang diperlukan untuk pelatihan waktu tes.

Untuk memperluas ukuran dataset ini, mereka membuat input baru dengan sedikit mengubah masalah dan solusi dalam contoh, seperti dengan secara horizontal membalik beberapa data input. Mereka menemukan bahwa melatih model pada output dataset baru ini mengarah ke kinerja terbaik.

Selain itu, para peneliti hanya memperbarui sejumlah kecil parameter model menggunakan teknik yang disebut adaptasi peringkat rendah, yang meningkatkan efisiensi proses pelatihan waktu tes.

“Ini penting karena metode kami harus efisien jika akan digunakan di dunia nyata. Kami menemukan bahwa Anda bisa mendapatkan peningkatan besar dalam akurasi dengan sejumlah kecil pelatihan parameter,” kata Akyürek.

Mengembangkan keterampilan baru

Merampingkan proses adalah kuncinya, karena pelatihan waktu tes digunakan berdasarkan per-instansi, yang berarti pengguna perlu melakukan ini untuk setiap tugas individu. Pembaruan model hanya sementara, dan model kembali ke bentuk aslinya setelah membuat prediksi.

Model yang biasanya membutuhkan waktu kurang dari satu menit untuk menjawab kueri mungkin membutuhkan waktu lima atau 10 menit untuk memberikan jawaban dengan pelatihan waktu tes, tambah Akyürek.

“Kami tidak ingin melakukan ini untuk semua pertanyaan pengguna, tetapi ini berguna jika Anda memiliki tugas yang sangat sulit yang ingin Anda selesaikan dengan baik. Mungkin juga ada tugas yang terlalu menantang untuk dipecahkan LLM tanpa metode ini,” katanya.

Para peneliti menguji pendekatan mereka pada dua dataset benchmark masalah yang sangat kompleks, seperti teka -teki IQ. Ini meningkatkan akurasi sebanyak enam kali lipat dari teknik yang hanya menggunakan pembelajaran dalam konteks.

Tugas yang melibatkan pola terstruktur atau yang menggunakan jenis data yang sama sekali tidak dikenal menunjukkan peningkatan kinerja terbesar.

“Untuk tugas yang lebih sederhana, pembelajaran dalam konteks mungkin baik-baik saja. Tetapi memperbarui parameter itu sendiri mungkin mengembangkan keterampilan baru dalam model,” kata Damani.

Di masa depan, para peneliti ingin menggunakan wawasan ini terhadap pengembangan model yang terus belajar.

Tujuan jangka panjangnya adalah LLM yang, diberikan kueri, dapat secara otomatis menentukan apakah perlu menggunakan pelatihan waktu tes untuk memperbarui parameter atau jika dapat menyelesaikan tugas menggunakan pembelajaran dalam konteks, dan kemudian menerapkan strategi pelatihan test-time terbaik tanpa perlu intervensi manusia.

Pekerjaan ini didukung, sebagian, oleh MIT-IBM Watson AI Lab dan National Science Foundation.


Previous Article

Italia memiliki enam starter yang dijamin menjelang pertandingan pertama Gattuso yang bertanggung jawab

Next Article

Heat Monkey Rilis Album Perdana A Beautiful Nightmare, Eksplorasi Chaotic Funk dari Pekanbaru - Musicoloid News

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨