Para peneliti di Universitas Stanford dan Universitas California, Berkeley telah membangun kumpulan data yang disebut RoboReward yang dapat membantu melatih model AI yang menilai robot berdasarkan seberapa baik mereka melakukan tugas. Kumpulan data tersebut berisi video lengan robot yang melakukan tugas manipulasi sederhana seperti membuka laci atau mengambil dan menempatkan benda, bersama dengan deskripsi tertulis tentang tugas yang dimaksudkan dan skor kinerja yang diberikan oleh manusia. Para peneliti menggunakan kumpulan data ini untuk melatih model penghargaan bahasa penglihatan guna memprediksi skor tersebut dari video robot yang melakukan tugas. Ini berarti robot tidak lagi membutuhkan manusia untuk mengawasi dan memberi label pada setiap upaya pelatihan dan sebagai gantinya dapat menggunakan umpan balik otomatis untuk meningkatkan perilaku mereka melalui uji coba berulang.
Dapatkan datanya.
Kredit gambar: Gambar Getty