
Ketika para peneliti membangun model bahasa besar (LLM), mereka bertujuan untuk memaksimalkan kinerja di bawah anggaran komputasi dan keuangan tertentu. Karena pelatihan model dapat berjumlah jutaan dolar, pengembang harus bijaksana dengan keputusan yang memanjakan biaya tentang, misalnya, arsitektur model, pengoptimal, dan kumpulan data pelatihan sebelum berkomitmen pada model. Untuk mengantisipasi kualitas dan keakuratan prediksi model besar, praktisi sering beralih ke hukum penskalaan: menggunakan model yang lebih kecil dan lebih murah untuk mencoba memperkirakan kinerja model target yang jauh lebih besar. Namun, tantangannya adalah bahwa ada ribuan cara untuk menciptakan hukum penskalaan.
Pekerjaan baru dari MIT dan MIT-IBM Watson AI Lab peneliti membahas hal ini dengan mengumpulkan dan merilis koleksi ratusan model dan metrik tentang pelatihan dan kinerja untuk memperkirakan lebih dari seribu undang-undang penskalaan. Dari sini, tim mengembangkan meta-analisis dan panduan untuk bagaimana memilih model kecil dan memperkirakan undang-undang penskalaan untuk keluarga model LLM yang berbeda, sehingga anggaran secara optimal diterapkan untuk menghasilkan prediksi kinerja yang andal.
Gagasan bahwa Anda mungkin ingin mencoba membangun model matematika dari proses pelatihan adalah beberapa tahun, tetapi saya pikir apa yang baru di sini adalah bahwa sebagian besar pekerjaan yang dilakukan orang sebelumnya mengatakan, ‘dapatkah kita mengatakan sesuatu pasca-hoc tentang apa yang terjadi ketika kita melatih semua model ini, sehingga ketika kita mencoba untuk mencari tahu bagaimana melatih model skala baru, kita dapat membuat jado, “KEPADA PERGIAAN KEPADA KEPADA PENGGUNAAN SAYA BAGAIMAN. Di Departemen Teknik Listrik dan Ilmu Komputer dan Penyelidik Utama dengan Lab MIT-IBM Watson AI.
Penelitian ini baru-baru ini dipresentasikan pada Konferensi Internasional tentang Pembelajaran Mesin oleh Andreas, bersama dengan peneliti Lab MIT-IBM Watson AI Leshem Choshen dan Yang Zhang dari IBM Research.
Kinerja ekstrapolasi
Tidak peduli bagaimana Anda mengirisnya, mengembangkan LLMS adalah upaya yang mahal: dari pengambilan keputusan mengenai jumlah parameter dan token, pemilihan dan ukuran data, dan teknik pelatihan untuk menentukan akurasi output dan penyetelan ke aplikasi dan tugas target. Undang-undang penskalaan menawarkan cara untuk memperkirakan perilaku model dengan menghubungkan kehilangan model besar dengan kinerja model yang lebih kecil dan kurang harganya dari keluarga yang sama, menghindari kebutuhan untuk melatih sepenuhnya setiap kandidat. Terutama, perbedaan antara model yang lebih kecil adalah jumlah parameter dan ukuran pelatihan token. Menurut Choshen, menjelaskan undang-undang penskalaan tidak hanya memungkinkan keputusan pra-pelatihan yang lebih baik, tetapi juga mendemokratisasi lapangan dengan memungkinkan para peneliti tanpa sumber daya yang luas untuk memahami dan membangun undang-undang penskalaan yang efektif.
Bentuk fungsional undang -undang penskalaan relatif sederhana, menggabungkan komponen dari model kecil yang menangkap jumlah parameter dan efek penskalaannya, jumlah token pelatihan dan efek penskalaannya, dan kinerja dasar untuk keluarga model yang menarik. Bersama -sama, mereka membantu para peneliti memperkirakan kehilangan kinerja model besar target; Semakin kecil kerugiannya, semakin baik output model target.
Undang-undang ini memungkinkan tim peneliti untuk menimbang trade-off secara efisien dan untuk menguji cara terbaik untuk mengalokasikan sumber daya yang terbatas. Mereka sangat berguna untuk mengevaluasi penskalaan variabel tertentu, seperti jumlah token, dan untuk pengujian A/B dari pengaturan pra-pelatihan yang berbeda.
Secara umum, hukum penskalaan bukanlah hal baru; Namun, di bidang AI, mereka muncul ketika model tumbuh dan biaya meroket. “Ini seperti hukum penskalaan yang baru saja muncul di beberapa titik di lapangan,” kata Choshen. “Mereka mulai mendapatkan perhatian, tetapi tidak ada yang benar -benar menguji seberapa baik mereka dan apa yang perlu Anda lakukan untuk membuat hukum penskalaan yang baik.” Lebih lanjut, hukum penskalaan sendiri juga merupakan kotak hitam, dalam arti tertentu. “Setiap kali orang telah membuat undang -undang penskalaan di masa lalu, itu selalu menjadi satu model, atau satu keluarga model, dan satu dataset, dan satu pengembang,” kata Andreas. “Tidak ada banyak meta-analisis sistematis, karena semua orang secara individual melatih undang-undang penskalaan mereka sendiri. Jadi, [we wanted to know,] Apakah ada tren tingkat tinggi yang Anda lihat di seluruh hal itu? ”
Membangun lebih baik
Untuk menyelidiki ini, Choshen, Andreas, dan Zhang membuat dataset besar. Mereka mengumpulkan LLM dari 40 keluarga model, termasuk Pythia, Opt, Olmo, Llama, Bloom, T5-Pile, campuran moduleformer, GPT, dan keluarga lainnya. Ini termasuk 485 model unik, pra-terlatih, dan jika tersedia, data tentang pos pemeriksaan pelatihan mereka, biaya komputasi (flops), zaman pelatihan, dan benih, bersama dengan 1,9 juta metrik kinerja kehilangan dan tugas hilir. Model berbeda dalam arsitektur, bobot, dan sebagainya. Menggunakan model -model ini, para peneliti menyesuaikan lebih dari 1.000 undang -undang penskalaan dan membandingkan keakuratannya di seluruh arsitektur, ukuran model, dan rezim pelatihan, serta menguji bagaimana jumlah model, dimasukkannya pos pemeriksaan pelatihan menengah, dan pelatihan parsial memengaruhi kekuatan prediktif undang -undang penskalaan untuk menargetkan model. Mereka menggunakan pengukuran kesalahan relatif absolut (Are); Ini adalah perbedaan antara prediksi hukum penskalaan dan hilangnya model yang besar dan terlatih. Dengan ini, tim membandingkan undang -undang penskalaan, dan setelah analisis, rekomendasi praktis suling untuk praktisi AI tentang apa yang membuat undang -undang penskalaan yang efektif.
Pedoman bersama mereka memandu pengembang melalui langkah -langkah dan opsi untuk dipertimbangkan dan harapan. Pertama, sangat penting untuk memutuskan anggaran komputasi dan akurasi model target. Tim menemukan bahwa 4 persen adalah tentang akurasi terbaik yang dapat dicapai yang bisa diharapkan karena kebisingan benih acak, tetapi hingga 20 persen masih berguna untuk pengambilan keputusan. Para peneliti mengidentifikasi beberapa faktor yang meningkatkan prediksi, seperti termasuk pos pemeriksaan pelatihan menengah, daripada hanya mengandalkan kerugian akhir; Ini membuat undang -undang penskalaan lebih dapat diandalkan. Namun, data pelatihan yang sangat awal sebelum 10 miliar token berisik, mengurangi akurasi, dan harus dibuang. Mereka merekomendasikan memprioritaskan pelatihan lebih banyak model di seluruh penyebaran ukuran untuk meningkatkan kekokohan prediksi hukum penskalaan, bukan hanya model yang lebih besar; Memilih lima model memberikan titik awal yang solid.
Secara umum, termasuk model yang lebih besar meningkatkan prediksi, tetapi biaya dapat dihemat dengan melatih sebagian model target menjadi sekitar 30 persen dari datasetnya dan menggunakannya untuk ekstrapolasi. Jika anggaran sangat dibatasi, pengembang harus mempertimbangkan melatih satu model yang lebih kecil dalam keluarga model target dan meminjam parameter hukum penskalaan dari keluarga model dengan arsitektur yang sama; Namun, ini mungkin tidak berfungsi untuk model encoder -decoder. Terakhir, kelompok penelitian MIT-IBM menemukan bahwa ketika hukum penskalaan dibandingkan di seluruh keluarga model, ada korelasi yang kuat antara dua set hiperparameter, yang berarti bahwa tiga dari lima hyperparameters menjelaskan hampir semua variasi dan kemungkinan dapat menangkap perilaku model. Bersama -sama, pedoman ini memberikan pendekatan sistematis untuk membuat estimasi hukum penskalaan lebih efisien, andal, dan dapat diakses oleh peneliti AI yang bekerja di bawah berbagai kendala anggaran.
Beberapa kejutan muncul selama pekerjaan ini: model kecil yang sebagian dilatih sebagian masih sangat prediktif, dan lebih lanjut, tahap pelatihan menengah dari model yang sepenuhnya terlatih dapat digunakan (seolah -olah mereka adalah model individual) untuk prediksi model target lain. “Pada dasarnya, Anda tidak membayar apa pun dalam pelatihan, karena Anda sudah melatih model lengkap, sehingga model yang setengah terlatih, misalnya, hanyalah produk sampingan dari apa yang Anda lakukan,” kata Choshen. Fitur lain yang ditunjukkan Andreas adalah bahwa, ketika dikumpulkan, variabilitas di seluruh keluarga model dan berbagai percobaan melompat keluar dan lebih berisik dari yang diharapkan. Tanpa diduga, para peneliti menemukan bahwa dimungkinkan untuk memanfaatkan undang -undang penskalaan pada model besar untuk memprediksi kinerja hingga model yang lebih kecil. Penelitian lain di lapangan telah berhipotesis bahwa model yang lebih kecil adalah “binatang buas yang berbeda” dibandingkan dengan yang besar; Namun, Choshen tidak setuju. “Jika mereka sama sekali berbeda, mereka seharusnya menunjukkan perilaku yang sama sekali berbeda, dan mereka tidak.”
Sementara pekerjaan ini berfokus pada waktu pelatihan model, para peneliti berencana untuk memperluas analisis mereka ke inferensi model. Andreas mengatakan itu bukan, “Bagaimana model saya menjadi lebih baik ketika saya menambahkan lebih banyak data pelatihan atau lebih banyak parameter, tetapi sebaliknya ketika saya membiarkannya lebih lama, menggambar lebih banyak sampel. Saya pikir ada pelajaran yang harus dipelajari di sini tentang bagaimana juga membangun model prediktif tentang seberapa banyak pemikiran yang perlu Anda lakukan saat menjalankan waktu.” Dia mengatakan teori undang -undang penskalaan waktu inferensi mungkin menjadi lebih kritis karena, “Ini tidak seperti saya akan melatih satu model dan kemudian dilakukan. [Rather,] Setiap kali pengguna mendatangi saya, mereka akan memiliki kueri baru, dan saya perlu mencari tahu seberapa keras [my model needs] berpikir untuk mendapatkan jawaban terbaik. Jadi, bisa membangun model prediktif semacam itu, seperti yang kami lakukan di makalah ini, bahkan lebih penting. ”
Penelitian ini didukung, sebagian, oleh Lab MIT-IBM Watson AI dan Sloan Research Fellowship.