789BNi
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

Menggunakan AI generatif untuk mendiversifikasi tempat pelatihan virtual bagi robot

Menggunakan AI generatif untuk mendiversifikasi tempat pelatihan virtual bagi robot



Chatbot seperti ChatGPT dan Claude telah mengalami peningkatan pesat dalam penggunaan selama tiga tahun terakhir karena mereka dapat membantu Anda dalam berbagai tugas. Baik Anda sedang menulis soneta Shakespeare, men-debug kode, atau memerlukan jawaban atas pertanyaan sepele yang tidak jelas, sistem kecerdasan buatan sepertinya siap membantu Anda. Sumber dari keserbagunaan ini? Miliaran, atau bahkan triliunan, titik data tekstual di internet.

Namun, data tersebut tidak cukup untuk mengajarkan robot menjadi asisten rumah tangga atau pabrik yang membantu. Untuk memahami cara menangani, menumpuk, dan menempatkan berbagai susunan objek di berbagai lingkungan, robot memerlukan demonstrasi. Anda dapat menganggap data pelatihan robot sebagai kumpulan video petunjuk yang memandu sistem melalui setiap gerakan suatu tugas. Mengumpulkan demonstrasi ini pada robot nyata memakan waktu dan tidak dapat diulang dengan sempurna, sehingga para insinyur telah membuat data pelatihan dengan menghasilkan simulasi dengan AI (yang sering kali tidak mencerminkan fisika dunia nyata), atau dengan susah payah membuat setiap lingkungan digital dari awal.

Para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT dan Toyota Research Institute mungkin telah menemukan cara untuk menciptakan beragam tempat pelatihan realistis yang dibutuhkan robot. Pendekatan “pembuatan pemandangan yang dapat dikendalikan” menciptakan pemandangan digital seperti dapur, ruang keluarga, dan restoran yang dapat digunakan para insinyur untuk menyimulasikan banyak interaksi dan skenario dunia nyata. Dilatih di lebih dari 44 juta ruang 3D yang berisi model objek seperti meja dan piring, alat ini menempatkan aset yang ada dalam adegan baru, lalu menyempurnakan setiap aset menjadi lingkungan yang akurat secara fisik dan nyata.

Pembuatan pemandangan yang dapat dikendalikan menciptakan dunia 3D ini dengan “mengarahkan” model difusi — sistem AI yang menghasilkan visual dari kebisingan acak — menuju pemandangan yang Anda temukan dalam kehidupan sehari-hari. Para peneliti menggunakan sistem generatif ini untuk “melukis” suatu lingkungan, mengisi elemen-elemen tertentu di seluruh adegan. Bisa dibayangkan sebuah kanvas kosong tiba-tiba berubah menjadi dapur yang dipenuhi objek 3D, yang lambat laun disusun ulang menjadi pemandangan yang meniru fisika dunia nyata. Misalnya, sistem memastikan bahwa garpu tidak melewati mangkuk di atas meja — kesalahan umum dalam grafik 3D yang dikenal sebagai “kliping”, yaitu model yang tumpang tindih atau berpotongan.
Namun, bagaimana pembuatan adegan yang dapat dikendalikan mengarahkan penciptaannya menuju realisme, bergantung pada strategi yang Anda pilih. Strategi utamanya adalah “Pencarian pohon Monte Carlo” (MCTS), di mana model tersebut menciptakan serangkaian adegan alternatif, mengisinya dengan cara berbeda untuk mencapai tujuan tertentu (seperti membuat pemandangan lebih realistis secara fisik, atau memasukkan sebanyak mungkin item yang dapat dimakan). Ini digunakan oleh program AI AlphaGo untuk mengalahkan lawan manusia di Go (permainan yang mirip dengan catur), karena sistem mempertimbangkan kemungkinan rangkaian gerakan sebelum memilih yang paling menguntungkan.
“Kami adalah pihak pertama yang menerapkan MCTS pada pembuatan adegan dengan membingkai tugas pembuatan adegan sebagai proses pengambilan keputusan yang berurutan,” kata mahasiswa PhD Departemen Teknik Elektro dan Ilmu Komputer (EECS) MIT Nicholas Pfaff, yang merupakan peneliti CSAIL dan penulis utama makalah yang mempresentasikan karyanya. “Kami terus mengembangkan sebagian adegan untuk menghasilkan adegan yang lebih baik atau lebih diinginkan seiring berjalannya waktu. Hasilnya, MCTS menciptakan adegan yang lebih kompleks daripada model difusi yang dilatih.”

Dalam satu eksperimen yang sangat menarik, MCTS menambahkan jumlah maksimum objek ke dalam suasana restoran sederhana. Ini menampilkan sebanyak 34 item di atas meja, termasuk tumpukan besar hidangan dim sum, setelah pelatihan dalam adegan dengan rata-rata hanya 17 objek.

Pembuatan adegan yang dapat dikendalikan juga memungkinkan Anda menghasilkan beragam skenario pelatihan melalui pembelajaran penguatan — pada dasarnya, mengajarkan model difusi untuk memenuhi tujuan melalui coba-coba. Setelah Anda melatih data awal, sistem Anda menjalani tahap pelatihan kedua, di mana Anda menguraikan hadiah (pada dasarnya, hasil yang diinginkan dengan skor yang menunjukkan seberapa dekat Anda dengan tujuan tersebut). Model secara otomatis belajar membuat adegan dengan skor lebih tinggi, sering kali menghasilkan skenario yang sangat berbeda dari skenario yang dilatihnya.
Pengguna juga dapat meminta sistem secara langsung dengan mengetikkan deskripsi visual tertentu (seperti “dapur dengan empat apel dan mangkuk di atas meja”). Kemudian, pembuatan pemandangan yang dapat dikendalikan dapat mewujudkan permintaan Anda dengan tepat. Misalnya, alat ini secara akurat mengikuti perintah pengguna dengan tingkat 98 persen saat membuat tampilan rak dapur, dan 86 persen untuk meja sarapan yang berantakan. Kedua tanda tersebut setidaknya mengalami peningkatan 10 persen dibandingkan metode serupa seperti “MiDiffusion” dan “DiffuScene.”
Sistem juga dapat menyelesaikan adegan tertentu melalui petunjuk atau petunjuk cahaya (seperti “munculkan susunan adegan berbeda menggunakan objek yang sama”). Anda bisa memintanya untuk meletakkan apel di beberapa piring di meja dapur, misalnya, atau meletakkan permainan papan dan buku di rak. Ini pada dasarnya “mengisi kekosongan” dengan menempatkan item di ruang kosong, namun mempertahankan sisa adegan.

Menurut para peneliti, kekuatan proyek mereka terletak pada kemampuannya menciptakan banyak adegan yang benar-benar dapat digunakan oleh para robotika. “Pemahaman utama dari temuan kami adalah tidak apa-apa jika adegan yang telah kami latih sebelumnya tidak persis menyerupai adegan yang sebenarnya kami inginkan,” kata Pfaff. “Dengan menggunakan metode pengarah yang kami miliki, kami dapat beralih dari distribusi yang luas dan mengambil sampel dari yang ‘lebih baik’. Dengan kata lain, menghasilkan adegan yang beragam, realistis, dan selaras dengan tugas yang sebenarnya ingin kami gunakan untuk melatih robot kami.”

Adegan yang begitu luas menjadi tempat pengujian di mana mereka dapat merekam robot virtual yang berinteraksi dengan berbagai item. Mesin tersebut dengan hati-hati menempatkan garpu dan pisau ke dalam tempat peralatan makan, misalnya, dan menata ulang roti ke piring dalam berbagai pengaturan 3D. Setiap simulasi tampak lancar dan realistis, menyerupai dunia nyata, pembuatan adegan yang dapat dikendalikan oleh robot yang dapat beradaptasi dapat membantu pelatihan, suatu hari nanti.

Meskipun sistem ini bisa menjadi jalan maju yang menggembirakan dalam menghasilkan banyak data pelatihan yang beragam untuk robot, para peneliti mengatakan pekerjaan mereka lebih merupakan bukti konsep. Di masa depan, mereka ingin menggunakan AI generatif untuk membuat objek dan pemandangan yang benar-benar baru, dibandingkan menggunakan kumpulan aset yang tetap. Mereka juga berencana untuk memasukkan objek artikulasi yang dapat dibuka atau diputar oleh robot (seperti lemari atau toples berisi makanan) untuk membuat pemandangan menjadi lebih interaktif.

Untuk membuat lingkungan virtual mereka lebih realistis, Pfaff dan rekan-rekannya dapat menggabungkan objek dunia nyata dengan menggunakan perpustakaan objek dan adegan yang diambil dari gambar di internet dan menggunakan karya mereka sebelumnya pada “Scalable Real2Sim.” Dengan memperluas betapa beragam dan nyatanya tempat pengujian robot yang dibuat oleh AI, tim berharap dapat membangun komunitas pengguna yang akan menghasilkan banyak data, yang kemudian dapat digunakan sebagai kumpulan data besar untuk mengajarkan berbagai keterampilan berbeda kepada robot yang tangkas.
“Saat ini, membuat adegan realistis untuk simulasi bisa menjadi upaya yang cukup menantang; pembuatan prosedural dapat dengan mudah menghasilkan adegan dalam jumlah besar, namun kemungkinan besar adegan tersebut tidak mewakili lingkungan yang akan ditemui robot di dunia nyata. Membuat adegan khusus secara manual memakan waktu dan mahal,” kata Jeremy Binagia, ilmuwan terapan di Amazon Robotics yang tidak terlibat dalam makalah ini. “Pembuatan adegan yang dapat dikendalikan menawarkan pendekatan yang lebih baik: melatih model generatif pada kumpulan besar adegan yang sudah ada dan mengadaptasinya (menggunakan strategi seperti pembelajaran penguatan) untuk aplikasi hilir tertentu. Dibandingkan dengan karya sebelumnya yang memanfaatkan model bahasa visi siap pakai atau fokus hanya pada penataan objek dalam kisi 2D, pendekatan ini menjamin kelayakan fisik dan mempertimbangkan terjemahan dan rotasi 3D penuh, sehingga memungkinkan pembuatan adegan yang jauh lebih menarik.”

“Pembuatan adegan yang dapat dikendalikan dengan pasca pelatihan dan pencarian waktu inferensi memberikan kerangka kerja baru dan efisien untuk mengotomatisasi pembuatan adegan dalam skala besar,” kata ahli robot Toyota Research Institute, Rick Cory SM ’08, PhD ’10, yang juga tidak terlibat dalam makalah ini. “Selain itu, hal ini dapat menghasilkan adegan ‘yang belum pernah dilihat sebelumnya’ yang dianggap penting untuk tugas-tugas hilir. Di masa depan, menggabungkan kerangka kerja ini dengan data internet yang luas dapat membuka tonggak penting menuju pelatihan robot yang efisien untuk diterapkan di dunia nyata.”
Pfaff menulis makalah ini bersama penulis senior Russ Tedrake, Profesor Teknik Elektro dan Ilmu Komputer Toyota, Aeronautika dan Astronautika, dan Teknik Mesin di MIT; wakil presiden senior model perilaku besar di Toyota Research Institute; dan penyelidik utama CSAIL. Penulis lainnya adalah peneliti robotika Toyota Research Institute Hongkai Dai SM ’12, PhD ’16; ketua tim dan Ilmuwan Riset Senior Sergey Zakharov; dan mahasiswa PhD Universitas Carnegie Mellon, Shun Iwase. Pekerjaan mereka sebagian didukung oleh Amazon dan Toyota Research Institute. Para peneliti mempresentasikan karyanya di Conference on Robot Learning (CoRL) pada bulan September.


Previous Article

Zirkzee siap untuk kembalinya Serie A setelah perjuangan Manchester United

Next Article

Pemkab Maros Luncurkan Program Maros Kota Wakaf - Online24jam

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨