
Bahkan jaringan yang sudah lama dianggap “tidak dapat dilatih” dapat belajar secara efektif dengan sedikit bantuan. Para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT telah menunjukkan bahwa periode singkat penyelarasan antara jaringan saraf, sebuah metode yang mereka sebut panduan, dapat secara dramatis meningkatkan kinerja arsitektur yang sebelumnya dianggap tidak cocok untuk tugas-tugas modern.
Temuan mereka menunjukkan bahwa banyak jaringan yang disebut “tidak efektif” mungkin dimulai dari titik awal yang kurang ideal, dan bahwa panduan jangka pendek dapat menempatkan mereka pada posisi yang membuat pembelajaran lebih mudah bagi jaringan.
Metode panduan tim bekerja dengan mendorong jaringan target untuk mencocokkan representasi internal jaringan panduan selama pelatihan. Berbeda dengan metode tradisional seperti penyulingan pengetahuan, yang berfokus pada meniru keluaran guru, bimbingan mentransfer pengetahuan struktural langsung dari satu jaringan ke jaringan lainnya. Ini berarti target mempelajari bagaimana panduan mengatur informasi dalam setiap lapisan, bukan sekadar menyalin perilakunya. Hebatnya, bahkan jaringan yang tidak terlatih pun mengandung bias arsitektural yang dapat ditransfer, sementara pemandu yang terlatih juga menyampaikan pola yang dipelajari.
“Kami menemukan hasil ini cukup mengejutkan,” kata Vighnesh Subramaniam ’23, MEng ’24, mahasiswa PhD Departemen Teknik Elektro dan Ilmu Komputer (EECS) MIT dan peneliti CSAIL, yang merupakan penulis utama makalah yang menyajikan temuan ini. “Sangat mengesankan bahwa kita dapat menggunakan kesamaan representasi untuk membuat jaringan yang biasanya ‘jelek’ ini benar-benar berfungsi.”
Malaikat pemandu
Pertanyaan utamanya adalah apakah panduan harus dilanjutkan selama pelatihan, atau apakah efek utamanya adalah memberikan inisialisasi yang lebih baik. Untuk mengeksplorasi hal ini, para peneliti melakukan percobaan dengan jaringan yang terhubung sepenuhnya (FCN). Sebelum melatih masalah sebenarnya, jaringan menghabiskan beberapa langkah untuk berlatih dengan jaringan lain menggunakan kebisingan acak, seperti peregangan sebelum latihan. Hasilnya sangat mengejutkan: Jaringan yang biasanya overfit langsung tetap stabil, mencapai kerugian pelatihan yang lebih rendah, dan menghindari penurunan kinerja klasik yang terlihat pada sesuatu yang disebut FCN standar. Penyelarasan ini bertindak seperti pemanasan yang bermanfaat bagi jaringan, menunjukkan bahwa sesi latihan singkat pun dapat memberikan manfaat jangka panjang tanpa memerlukan bimbingan terus-menerus.
Studi ini juga membandingkan bimbingan dengan penyulingan pengetahuan, sebuah pendekatan populer di mana jaringan siswa berupaya meniru keluaran guru. Ketika jaringan guru tidak terlatih, distilasi gagal total, karena keluarannya tidak mengandung sinyal yang berarti. Sebaliknya, panduan masih menghasilkan kemajuan besar karena lebih memanfaatkan representasi internal dibandingkan prediksi akhir. Hasil ini menggarisbawahi sebuah wawasan penting: Jaringan yang tidak terlatih telah mengkodekan bias arsitektural yang berharga yang dapat mengarahkan jaringan lain menuju pembelajaran yang efektif.
Di luar hasil eksperimen, temuan ini memiliki implikasi luas untuk memahami arsitektur jaringan saraf. Para peneliti berpendapat bahwa keberhasilan – atau kegagalan – seringkali tidak terlalu bergantung pada data spesifik tugas, dan lebih bergantung pada posisi jaringan dalam ruang parameter. Dengan menyelaraskan dengan jaringan panduan, kontribusi bias arsitektural dan kontribusi pengetahuan yang dipelajari dapat dipisahkan. Hal ini memungkinkan para ilmuwan untuk mengidentifikasi fitur mana dari desain jaringan yang mendukung pembelajaran yang efektif, dan tantangan mana yang berasal dari inisialisasi yang buruk.
Panduan juga membuka jalan baru untuk mempelajari hubungan antar arsitektur. Dengan mengukur seberapa mudah satu jaringan dapat memandu jaringan lainnya, peneliti dapat menyelidiki jarak antara desain fungsional dan menguji kembali teori optimasi jaringan saraf. Karena metode ini mengandalkan kesamaan representasi, metode ini dapat mengungkap struktur yang sebelumnya tersembunyi dalam desain jaringan, membantu mengidentifikasi komponen mana yang berkontribusi paling besar terhadap pembelajaran dan mana yang tidak.
Menyelamatkan mereka yang putus asa
Pada akhirnya, penelitian ini menunjukkan bahwa apa yang disebut sebagai jaringan yang “tidak dapat dilatih” pada dasarnya tidak akan hancur. Dengan panduan, mode kegagalan dapat dihilangkan, overfitting dapat dihindari, dan arsitektur yang sebelumnya tidak efektif dapat disesuaikan dengan standar kinerja modern. Tim CSAIL berencana untuk mengeksplorasi elemen arsitektur mana yang paling bertanggung jawab atas peningkatan ini dan bagaimana wawasan ini dapat memengaruhi desain jaringan di masa depan. Dengan mengungkap potensi tersembunyi bahkan dari jaringan yang paling keras sekalipun, panduan memberikan alat baru yang ampuh untuk memahami — dan semoga membentuk — dasar-dasar pembelajaran mesin.
“Secara umum diasumsikan bahwa arsitektur jaringan saraf yang berbeda memiliki kekuatan dan kelemahan tertentu,” kata Leyla Isik, asisten profesor ilmu kognitif Universitas Johns Hopkins, yang tidak terlibat dalam penelitian ini. “Penelitian menarik ini menunjukkan bahwa satu jenis jaringan dapat mewarisi keunggulan arsitektur lain, tanpa kehilangan kemampuan aslinya. Hebatnya, penulis menunjukkan bahwa hal ini dapat dilakukan dengan menggunakan jaringan ‘pemandu’ yang kecil dan tidak terlatih. Makalah ini memperkenalkan cara baru dan konkret untuk menambahkan bias induktif yang berbeda ke dalam jaringan saraf, yang sangat penting untuk mengembangkan AI yang lebih efisien dan selaras dengan manusia.”
Subramaniam menulis makalah ini bersama rekan-rekannya di CSAIL: Ilmuwan Riset Brian Cheung; Mahasiswa PhD David Mayo ’18, MEng ’19; Rekan Peneliti Colin Conwell; peneliti utama Boris Katz, ilmuwan peneliti utama CSAIL, dan Tomaso Poggio, seorang profesor MIT di bidang ilmu otak dan kognitif; dan mantan ilmuwan peneliti CSAIL Andrei Barbu. Pekerjaan mereka didukung, sebagian, oleh Center for Brains, Minds, and Machines, National Science Foundation, MIT CSAIL Machine Learning Applications Initiative, MIT-IBM Watson AI Lab, US Defense Advanced Research Projects Agency (DARPA), US Department of the Air Force Artificial Intelligence Accelerator, dan US Air Force Office of Scientific Research.
Karya mereka baru-baru ini dipresentasikan pada Konferensi dan Lokakarya Sistem Pemrosesan Informasi Neural (NeurIPS).