789BNi
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

Cara baru untuk mengedit atau menghasilkan gambar

Cara baru untuk mengedit atau menghasilkan gambar



AI Generasi Gambar-yang bergantung pada jaringan saraf untuk membuat gambar baru dari berbagai input, termasuk petunjuk teks-diproyeksikan menjadi industri miliaran dolar pada akhir dekade ini. Bahkan dengan teknologi saat ini, jika Anda ingin membuat gambar yang fantastis, katakanlah, seorang teman yang menanam bendera di Mars atau tanpa henti terbang ke lubang hitam, itu bisa memakan waktu kurang dari satu detik. Namun, sebelum mereka dapat melakukan tugas seperti itu, generator gambar biasanya dilatih pada set data besar yang berisi jutaan gambar yang sering dipasangkan dengan teks terkait. Melatih model generatif ini dapat menjadi tugas yang sulit yang membutuhkan waktu berminggu -minggu atau berbulan -bulan, mengonsumsi sumber daya komputasi yang luas dalam prosesnya.

Tetapi bagaimana jika mungkin untuk menghasilkan gambar melalui metode AI tanpa menggunakan generator sama sekali? Kemungkinan nyata itu, bersama dengan ide -ide menarik lainnya, dijelaskan dalam sebuah makalah penelitian yang disajikan pada Konferensi Internasional tentang Pembelajaran Mesin (ICML 2025), yang diadakan di Vancouver, British Columbia, awal musim panas ini. Makalah ini, menggambarkan teknik baru untuk memanipulasi dan menghasilkan gambar, ditulis oleh Lukas Lao Beyer, seorang peneliti mahasiswa pascasarjana di Laboratorium MIT untuk Informasi dan Sistem Keputusan (LIDS); Tianhong Li, postdoc di Ilmu Komputer MIT dan Laboratorium Kecerdasan Buatan (CSAIL); Xinlei Chen dari Facebook AI Research; Sertac Karaman, seorang profesor Aeronautika dan Astronautika MIT dan Direktur Lids; dan Kaiming He, seorang profesor MIT dari Teknik Listrik dan Ilmu Komputer.

Upaya kelompok ini berawal dari proyek kelas untuk seminar lulusan pada model generatif yang dalam yang diambil Lao Beyer musim gugur lalu. Dalam percakapan selama semester, menjadi jelas bagi Lao Beyer dan dia, yang mengajar seminar, bahwa penelitian ini memiliki potensi nyata, yang jauh melampaui batas -batas tugas pekerjaan rumah yang khas. Kolaborator lain segera dibawa ke dalam usaha.

Titik awal untuk penyelidikan Lao Beyer adalah makalah Juni 2024, yang ditulis oleh para peneliti dari Universitas Teknik Munich dan Perusahaan Cina Bytedance, yang memperkenalkan cara baru untuk mewakili informasi visual yang disebut tokenizer satu dimensi. Dengan perangkat ini, yang juga merupakan semacam jaringan saraf, gambar 256×256-pixel dapat diterjemahkan ke dalam urutan hanya 32 angka, yang disebut token. “Saya ingin memahami bagaimana tingkat kompresi yang begitu tinggi dapat dicapai, dan apa yang sebenarnya diwakili oleh token itu sendiri,” kata Lao Beyer.

Generasi tokenizer sebelumnya biasanya akan memecah gambar yang sama menjadi array 16×16 token – dengan masing -masing token yang merangkum informasi, dalam bentuk yang sangat kental, yang sesuai dengan bagian tertentu dari gambar asli. Tokenizer 1D yang baru dapat menyandikan gambar lebih efisien, menggunakan token yang jauh lebih sedikit secara keseluruhan, dan token ini dapat menangkap informasi tentang seluruh gambar, bukan hanya satu kuadran. Masing-masing token ini, apalagi, adalah angka 12 digit yang terdiri dari 1s dan 0s, memungkinkan untuk 212 (atau sekitar 4.000) kemungkinan sama sekali. “Ini seperti kosakata 4.000 kata yang membentuk bahasa abstrak dan tersembunyi yang diucapkan oleh komputer,” jelasnya. “Ini tidak seperti bahasa manusia, tetapi kita masih bisa mencoba mencari tahu apa artinya.”

Itulah tepatnya yang pada awalnya Lao Beyer berangkat untuk dijelajahi – pekerjaan yang menyediakan benih untuk kertas ICML 2025. Pendekatan yang dia ambil cukup mudah. Jika Anda ingin mengetahui apa yang dilakukan token tertentu, Lao Beyer mengatakan, “Anda bisa mengeluarkannya, bertukar nilai acak, dan melihat apakah ada perubahan yang dapat dikenali dalam output.” Mengganti satu token, ia menemukan, mengubah kualitas gambar, mengubah gambar resolusi rendah menjadi gambar resolusi tinggi atau sebaliknya. Token lain memengaruhi kekaburan di latar belakang, sementara yang lain masih mempengaruhi kecerahan. Dia juga menemukan token yang terkait dengan “pose,” yang berarti bahwa, dalam gambar seorang robin, misalnya, kepala burung mungkin bergeser dari kanan ke kiri.

“Ini adalah hasil yang belum pernah dilihat sebelumnya, karena tidak ada yang mengamati perubahan yang dapat diidentifikasi secara visual dari memanipulasi token,” kata Lao Beyer. Temuan ini meningkatkan kemungkinan pendekatan baru untuk mengedit gambar. Dan kelompok MIT telah menunjukkan, pada kenyataannya, bagaimana proses ini dapat dirampingkan dan otomatis, sehingga token tidak harus dimodifikasi dengan tangan, satu per satu.

Dia dan rekan -rekannya mencapai hasil yang bahkan lebih konsekuensial yang melibatkan generasi citra. Sistem yang mampu menghasilkan gambar biasanya membutuhkan tokenizer, yang mengompres dan mengkodekan data visual, bersama dengan generator yang dapat menggabungkan dan mengatur representasi kompak ini untuk membuat gambar baru. Para peneliti MIT menemukan cara untuk membuat gambar tanpa menggunakan generator sama sekali. Pendekatan baru mereka memanfaatkan tokenizer 1D dan apa yang disebut detokenizer (juga dikenal sebagai dekoder), yang dapat merekonstruksi gambar dari serangkaian token. Namun, dengan panduan yang disediakan oleh jaringan saraf di luar rak yang disebut klip-yang tidak dapat menghasilkan gambar sendiri, tetapi dapat mengukur seberapa baik gambar yang diberikan cocok dengan prompt teks tertentu-tim dapat mengonversi gambar panda merah, misalnya, menjadi harimau. Selain itu, mereka dapat membuat gambar harimau, atau bentuk lain yang diinginkan, dimulai sepenuhnya dari awal – dari situasi di mana semua token awalnya diberi nilai acak (dan kemudian diubah secara iteratif sehingga gambar yang direkonstruksi semakin cocok dengan prompt teks yang diinginkan).

Kelompok ini menunjukkan bahwa dengan pengaturan yang sama ini – mengandalkan tokenizer dan detokenizer, tetapi tidak ada generator – mereka juga bisa melakukan “inpainting,” yang berarti mengisi bagian -bagian gambar yang entah bagaimana telah dihapus. Menghindari penggunaan generator untuk tugas -tugas tertentu dapat menyebabkan pengurangan yang signifikan dalam biaya komputasi karena generator, seperti yang disebutkan, biasanya membutuhkan pelatihan yang luas.

Apa yang tampak aneh dengan kontribusi tim ini, ia menjelaskan, “adalah bahwa kami tidak menemukan sesuatu yang baru. Kami tidak menemukan tokenizer 1D, dan kami juga tidak menemukan model klip. Tapi kami menemukan bahwa kemampuan baru dapat muncul ketika Anda menyatukan semua bagian ini.”

“Karya ini mendefinisikan kembali peran token,” komentar Saining Xie, seorang ilmuwan komputer di New York University. “Ini menunjukkan bahwa tokenizer gambar-alat yang biasanya digunakan hanya untuk mengompres gambar-benar-benar dapat melakukan lebih banyak lagi. Fakta bahwa tokenizer 1D yang sederhana (tetapi sangat terkompresi) dapat menangani tugas-tugas seperti pengeditan atau pengeditan yang dipandu teks, tanpa perlu melatih model generatif penuh, cukup mengejutkan.”

Zhuang Liu dari Universitas Princeton setuju, mengatakan bahwa karya kelompok MIT “menunjukkan bahwa kita dapat menghasilkan dan memanipulasi gambar dengan cara yang jauh lebih mudah daripada yang kita pikirkan. Pada dasarnya, itu menunjukkan bahwa pembuatan gambar dapat menjadi produk sampingan dari kompresor gambar yang sangat efektif, berpotensi mengurangi biaya menghasilkan gambar beberapa kali lipat.” ””

Mungkin ada banyak aplikasi di luar bidang visi komputer, kata Karaman. “Misalnya, kita dapat mempertimbangkan untuk tokenisasi tindakan robot atau mobil self-driving dengan cara yang sama, yang dapat dengan cepat memperluas dampak dari pekerjaan ini.”

Lao Beyer sedang memikirkan garis yang sama, mencatat bahwa jumlah kompresi ekstrem yang diberikan oleh tokenizer 1D memungkinkan Anda melakukan “beberapa hal luar biasa,” yang dapat diterapkan pada bidang lain. Misalnya, di bidang mobil self-driving, yang merupakan salah satu minat penelitiannya, token dapat mewakili, alih-alih gambar, berbagai rute yang mungkin diambil kendaraan.

Xie juga tertarik dengan aplikasi yang mungkin berasal dari ide -ide inovatif ini. “Ada beberapa kasus penggunaan yang sangat keren ini bisa membuka kunci,” katanya.


Previous Article

Membuat nilai? Setiap jendela transfer Serie A Side 2025 dinilai

Next Article

Kanagawa: Hakone, Kamakura dan Yokohama

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨