
Kembali pada abad ke -17, astronom Jerman Johannes Kepler menemukan hukum gerak yang memungkinkan untuk memprediksi secara akurat di mana planet -planet tata surya kita akan muncul di langit saat mereka mengorbit matahari. Tetapi tidak sampai beberapa dekade kemudian, ketika Isaac Newton merumuskan hukum gravitasi universal, prinsip -prinsip yang mendasari dipahami. Meskipun mereka terinspirasi oleh hukum Kepler, mereka melangkah lebih jauh, dan memungkinkan untuk menerapkan formula yang sama untuk segala sesuatu mulai dari lintasan bola meriam hingga cara tarikan bulan mengendalikan pasang surut di bumi – atau cara meluncurkan satelit dari bumi ke permukaan bulan atau planet.
Sistem kecerdasan buatan yang canggih saat ini menjadi sangat pandai membuat jenis prediksi spesifik yang menyerupai prediksi orbit Kepler. Tetapi apakah mereka tahu mengapa prediksi ini berhasil, dengan jenis pemahaman mendalam yang berasal dari prinsip -prinsip dasar seperti hukum Newton? Ketika dunia tumbuh semakin tergantung pada sistem AI semacam ini, para peneliti berjuang untuk mencoba mengukur bagaimana mereka melakukan apa yang mereka lakukan, dan seberapa dalam pemahaman mereka tentang dunia nyata sebenarnya.
Sekarang, para peneliti di laboratorium MIT untuk sistem informasi dan keputusan (LIDS) dan di Universitas Harvard telah menyusun pendekatan baru untuk menilai seberapa dalam sistem prediksi ini memahami materi pelajaran mereka, dan apakah mereka dapat menerapkan pengetahuan dari satu domain ke yang sedikit berbeda. Dan pada umumnya jawabannya pada titik ini, dalam contoh -contoh yang mereka pelajari, adalah – tidak terlalu banyak.
Temuan ini dipresentasikan pada Konferensi Internasional tentang Pembelajaran Mesin, di Vancouver, British Columbia, bulan lalu oleh Harvard postdoc Keyon Vafa, mahasiswa pascasarjana MIT di bidang teknik listrik dan ilmu komputer dan afiliasi LIDS Peter G. Chang, Asisten Primoror MIT, dan Investigator LIDS, Investigator Ashesh Rambachan, dan MIT, dan LIDS PENELITAAN MIT.
“Manusia sepanjang waktu telah mampu melakukan transisi ini dari prediksi yang baik ke model dunia,” kata VAFA, penulis utama penelitian ini. Jadi pertanyaan yang ditangani oleh tim mereka adalah, “Memiliki model fondasi – apakah AI – telah dapat membuat lompatan dari prediksi ke model dunia? Dan kami tidak bertanya apakah mereka mampu, atau dapatkah mereka, atau akankah mereka. Hanya saja, apakah mereka melakukannya sejauh ini?” katanya.
“Kami tahu bagaimana menguji apakah suatu algoritma memprediksi dengan baik. Tetapi yang kami butuhkan adalah cara untuk menguji apakah itu telah dipahami dengan baik,” kata Mullainathan, profesor Peter de Florez dengan janji ganda di departemen MIT ekonomi dan teknik listrik dan ilmu komputer dan penulis senior pada studi tersebut. “Bahkan mendefinisikan apa arti pemahaman itu merupakan tantangan.”
Dalam analogi Kepler versus Newton, Vafa mengatakan, “Mereka berdua memiliki model yang bekerja dengan sangat baik pada satu tugas, dan yang pada dasarnya bekerja dengan cara yang sama pada tugas itu. Apa yang ditawarkan Newton adalah ide -ide yang mampu menggeneralisasi ke tugas -tugas baru.” Kemampuan itu, ketika diterapkan pada prediksi yang dibuat oleh berbagai sistem AI, akan memerlukannya mengembangkan model dunia sehingga dapat “melampaui tugas yang sedang Anda kerjakan dan dapat menggeneralisasi ke jenis masalah dan paradigma baru.”
Analogi lain yang membantu menggambarkan intinya adalah perbedaan antara berabad -abad pengetahuan akumulasi tentang bagaimana membiakkan tanaman dan hewan secara selektif, versus wawasan Gregor Mendel tentang hukum yang mendasari warisan genetik.
“Ada banyak kegembiraan di lapangan tentang menggunakan model fondasi untuk tidak hanya melakukan tugas, tetapi untuk mempelajari sesuatu tentang dunia,” misalnya dalam ilmu alam, katanya. “Itu perlu beradaptasi, memiliki model dunia untuk beradaptasi dengan tugas yang mungkin.”
Apakah sistem AI di dekat kemampuan untuk mencapai generalisasi seperti itu? Untuk menguji pertanyaan, tim melihat berbagai contoh sistem AI prediktif, pada tingkat kompleksitas yang berbeda. Pada contoh yang paling sederhana, sistem berhasil menciptakan model realistis dari sistem yang disimulasikan, tetapi karena contoh menjadi lebih kompleks kemampuannya memudar dengan cepat.
Tim mengembangkan metrik baru, cara mengukur secara kuantitatif seberapa baik suatu sistem mendekati kondisi dunia nyata. Mereka menyebut bias induktif pengukuran – yaitu, kecenderungan atau bias terhadap respons yang mencerminkan kenyataan, berdasarkan kesimpulan yang dikembangkan dari melihat sejumlah besar data pada kasus -kasus tertentu.
Tingkat contoh paling sederhana yang mereka lihat dikenal sebagai model kisi. Dalam kisi satu dimensi, sesuatu hanya bisa bergerak di sepanjang garis. Vafa membandingkannya dengan katak yang melompat di antara bantalan lily berturut -turut. Saat katak melompat atau duduk, ia memanggil apa yang dilakukannya – kanan, kiri, atau tetap. Jika mencapai lily pad terakhir di barisan, itu hanya bisa tetap atau kembali. Jika seseorang, atau sistem AI, hanya dapat mendengar panggilan, tanpa mengetahui apa pun tentang jumlah bantalan bunga lily, dapatkah ia mengetahui konfigurasi? Jawabannya adalah ya: model prediktif bekerja dengan baik dalam merekonstruksi “dunia” dalam kasus yang sederhana. Tetapi bahkan dengan kisi, saat Anda meningkatkan jumlah dimensi, sistem tidak lagi dapat membuat lompatan itu.
“Misalnya, dalam kisi dua negara atau tiga negara, kami menunjukkan bahwa model memang memiliki bias induktif yang cukup baik terhadap keadaan yang sebenarnya,” kata Chang. “Tapi ketika kita meningkatkan jumlah negara, maka itu mulai memiliki perbedaan dari model dunia nyata.”
Masalah yang lebih kompleks adalah sistem yang dapat memainkan permainan papan Othello, yang melibatkan pemain secara bergantian menempatkan disk hitam atau putih di kisi. Model AI dapat secara akurat memprediksi gerakan apa yang diizinkan pada titik tertentu, tetapi ternyata mereka melakukan dengan buruk dalam menyimpulkan apa pengaturan keseluruhan potongan di papan tulis, termasuk yang saat ini diblokir dari permainan.
Tim kemudian melihat lima kategori model prediktif yang berbeda yang sebenarnya digunakan, dan sekali lagi, semakin kompleks sistem yang terlibat, semakin buruk mode prediktif yang dilakukan dalam mencocokkan model dunia yang mendasarinya yang sebenarnya.
Dengan metrik baru dari bias induktif ini, “Harapan kami adalah menyediakan semacam tes tempat tidur di mana Anda dapat mengevaluasi berbagai model, pendekatan pelatihan yang berbeda, pada masalah di mana kami tahu apa model dunia sejati,” kata VAFA. Jika berkinerja baik pada kasus -kasus ini di mana kita sudah mengetahui kenyataan yang mendasarinya, maka kita dapat memiliki keyakinan yang lebih besar bahwa prediksi mungkin berguna bahkan dalam kasus -kasus “di mana kita tidak benar -benar tahu apa kebenarannya,” katanya.
Orang -orang sudah mencoba menggunakan jenis sistem AI prediktif semacam ini untuk membantu dalam penemuan ilmiah, termasuk hal -hal seperti sifat senyawa kimia yang belum pernah benar -benar dibuat, atau senyawa farmasi potensial, atau untuk memprediksi perilaku lipat dan sifat molekul protein yang tidak diketahui. “Untuk masalah yang lebih realistis,” kata Vafa, “bahkan untuk sesuatu seperti mekanik dasar, kami menemukan bahwa tampaknya ada jalan panjang yang harus ditempuh.”
Chang mengatakan, “Ada banyak hype di sekitar model yayasan, di mana orang mencoba membangun model fondasi khusus domain-model dasar berbasis biologi, model dasar fisika, model robotika fondasi, model fondasi untuk jenis domain lain di mana orang telah mengumpulkan banyak data” dan melatih model-model ini untuk membuat prediksi, “dan kemudian berharap bahwa mereka mendapatkan beberapa pengetahuan tentang domain itu sendiri, untuk membuat domain itu sendiri, untuk membuat domain itu sendiri, untuk membuat domain itu sendiri,” untuk mendapatkan beberapa pengetahuan tentang domain itu sendiri, untuk membuat domain sendiri, untuk membuat untuk untuk membuat domain itu sendiri, untuk membuat untuk untuk membuat domain sendiri, untuk membuat domain sendiri, “dan kemudian berharap bahwa mereka memperoleh beberapa pengetahuan tentang domain itu sendiri, untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk untuk membuat untuk forcerse forcing forcy”
Karya ini menunjukkan ada jalan panjang yang harus ditempuh, tetapi juga membantu menunjukkan jalan ke depan. “Makalah kami menunjukkan bahwa kami dapat menerapkan metrik kami untuk mengevaluasi seberapa banyak representasi yang sedang dipelajari, sehingga kami dapat menghasilkan cara -cara yang lebih baik untuk melatih model yayasan, atau setidaknya mengevaluasi model yang kami latih saat ini,” kata Chang. “Sebagai bidang teknik, begitu kami memiliki metrik untuk sesuatu, orang benar -benar pandai mengoptimalkan metrik itu.”