onFebruary 6, 2026

Membantu pencarian agen AI untuk mendapatkan hasil terbaik dari model bahasa besar

Teknologi

5 min read

Baik Anda seorang ilmuwan yang sedang melakukan brainstorming ide-ide penelitian atau seorang CEO yang berharap untuk mengotomatiskan tugas di bidang sumber daya manusia atau keuangan, Anda akan menemukan bahwa alat kecerdasan buatan menjadi asisten yang Anda tidak tahu bahwa Anda membutuhkannya. Secara khusus, banyak profesional yang memanfaatkan kemampuan sistem perangkat lunak semi-otonom yang disebut agen AI, yang dapat menggunakan AI pada titik tertentu untuk memecahkan masalah dan menyelesaikan tugas.
Agen AI sangat efektif ketika mereka menggunakan model bahasa besar (LLM) karena sistem tersebut kuat, efisien, dan mudah beradaptasi. Salah satu cara untuk memprogram teknologi tersebut adalah dengan menjelaskan dalam kode apa yang Anda ingin sistem Anda lakukan (“alur kerja”), termasuk kapan sistem harus menggunakan LLM. Jika Anda adalah perusahaan perangkat lunak yang mencoba mengubah basis kode lama Anda untuk menggunakan bahasa pemrograman yang lebih modern untuk pengoptimalan dan keamanan yang lebih baik, Anda dapat membangun sistem yang menggunakan LLM untuk menerjemahkan basis kode satu file pada satu waktu, menguji setiap file seiring berjalannya waktu.
Tapi apa yang terjadi jika LLM melakukan kesalahan? Anda ingin agen tersebut mundur untuk melakukan upaya lain, dengan memasukkan pembelajaran dari kesalahan sebelumnya. Mengkodekan hal ini memerlukan upaya yang sama besarnya dengan penerapan agen asli; jika sistem Anda untuk menerjemahkan basis kode berisi ribuan baris kode, maka Anda akan membuat ribuan baris kode perubahan atau penambahan untuk mendukung logika penelusuran mundur ketika LLM membuat kesalahan.

Untuk menghemat waktu dan tenaga pemrogram, para peneliti di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT dan Asari AI telah mengembangkan kerangka kerja yang disebut “EnCompass.”

Dengan EnCompass, Anda tidak perlu lagi melakukan perubahan ini sendiri. Sebaliknya, saat EnCompass menjalankan program Anda, program tersebut secara otomatis melakukan kemunduran jika LLM melakukan kesalahan. EnCompass juga dapat membuat klon runtime program untuk melakukan beberapa upaya secara paralel untuk mencari solusi terbaik. Secara umum, EnCompass menelusuri berbagai kemungkinan jalur yang dapat diambil agen Anda sebagai hasil dari berbagai kemungkinan keluaran dari semua panggilan LLM, mencari jalur di mana LLM menemukan solusi terbaik.
Kemudian, yang harus Anda lakukan adalah memberi anotasi pada lokasi di mana Anda mungkin ingin melakukan backtrack atau mengkloning runtime program, serta mencatat informasi apa pun yang mungkin berguna bagi strategi yang digunakan untuk menelusuri berbagai kemungkinan jalur eksekusi agen Anda (strategi pencarian). Anda kemudian dapat menentukan strategi pencarian secara terpisah — Anda dapat menggunakan strategi yang disediakan EnCompass atau, jika diinginkan, menerapkan strategi pencarian kustom Anda sendiri.

“Dengan EnCompass, kami telah memisahkan strategi pencarian dari alur kerja yang mendasari agen AI,” kata penulis utama Zhening Li ’25, MEng ’25, yang merupakan mahasiswa PhD teknik elektro dan ilmu komputer (EECS) MIT, peneliti CSAIL, dan konsultan penelitian di Asari AI. “Kerangka kerja kami memungkinkan pemrogram dengan mudah bereksperimen dengan berbagai strategi pencarian untuk menemukan strategi yang membuat agen AI berkinerja terbaik.”
EnCompass digunakan untuk agen yang diimplementasikan sebagai program Python yang memanggil LLM, yang menunjukkan penghematan kode yang nyata. EnCompass mengurangi upaya pengkodean untuk menerapkan pencarian hingga 80 persen di seluruh agen, seperti agen untuk menerjemahkan repositori kode dan untuk menemukan aturan transformasi jaringan digital. Di masa depan, EnCompass dapat memungkinkan agen untuk menangani tugas-tugas berskala besar, termasuk mengelola perpustakaan kode yang sangat besar, merancang dan melaksanakan eksperimen sains, dan membuat cetak biru untuk roket dan perangkat keras lainnya.

Bercabang

Saat memprogram agen Anda, Anda menandai operasi tertentu — seperti panggilan ke LLM — yang hasilnya mungkin berbeda. Anotasi ini disebut “titik cabang”. Jika Anda membayangkan program agen Anda menghasilkan satu alur cerita dari sebuah cerita, maka menambahkan titik cabang akan mengubah cerita tersebut menjadi permainan cerita pilih petualangan Anda sendiri, dengan titik cabang adalah lokasi tempat alur cerita bercabang menjadi beberapa alur cerita di masa depan.

Anda kemudian dapat menentukan strategi yang digunakan EnCompass untuk menavigasi permainan cerita tersebut, untuk mencari akhir cerita yang terbaik. Hal ini dapat mencakup peluncuran rangkaian eksekusi paralel atau mundur ke titik cabang sebelumnya ketika Anda terjebak di jalan buntu.
Pengguna juga dapat langsung menggunakan beberapa strategi pencarian umum yang disediakan oleh EnCompass, atau menentukan strategi khusus mereka sendiri. Misalnya, Anda dapat memilih penelusuran pohon Monte Carlo, yang membuat pohon penelusuran dengan menyeimbangkan eksplorasi dan eksploitasi, atau penelusuran berkas, yang menyimpan beberapa keluaran terbaik dari setiap langkah. EnCompass memudahkan Anda bereksperimen dengan berbagai pendekatan untuk menemukan strategi terbaik guna memaksimalkan kemungkinan berhasil menyelesaikan tugas Anda.

Efisiensi pengkodean EnCompass

Jadi seberapa efisien kode EnCompass dalam menambahkan pencarian ke program agen? Menurut temuan para peneliti, kerangka kerja ini secara drastis mengurangi jumlah pemrogram yang perlu ditambahkan ke program agen mereka untuk menambahkan pencarian, membantu mereka bereksperimen dengan berbagai strategi untuk menemukan strategi yang berkinerja terbaik.
Misalnya, para peneliti menerapkan EnCompass pada agen yang menerjemahkan repositori kode dari bahasa pemrograman Java, yang biasanya digunakan untuk memprogram aplikasi dan perangkat lunak perusahaan, ke Python. Mereka menemukan bahwa penerapan penelusuran dengan EnCompass — terutama melibatkan penambahan anotasi titik cabang dan anotasi yang mencatat seberapa baik kinerja setiap langkah — memerlukan 348 baris kode lebih sedikit (sekitar 82 persen) dibandingkan menerapkannya secara manual. Mereka juga mendemonstrasikan bagaimana EnCompass memungkinkan mereka dengan mudah mencoba berbagai strategi pencarian, mengidentifikasi strategi terbaik menjadi algoritma pencarian sinar dua tingkat, mencapai peningkatan akurasi sebesar 15 hingga 40 persen di lima repositori berbeda dengan anggaran pencarian 16 kali lipat panggilan LLM yang dilakukan oleh agen tanpa pencarian.

“Karena LLM menjadi bagian yang lebih integral dari perangkat lunak sehari-hari, menjadi lebih penting untuk memahami bagaimana membangun perangkat lunak secara efisien yang memanfaatkan kekuatan mereka dan mengatasi keterbatasan mereka,” kata rekan penulis Armando Solar-Lezama, yang merupakan profesor MIT di bidang EECS dan peneliti utama CSAIL. “EnCompass adalah langkah penting menuju arah tersebut.”

Para peneliti menambahkan bahwa EnCompass menargetkan agen di mana program menentukan langkah-langkah alur kerja tingkat tinggi; iterasi kerangka kerja mereka saat ini kurang dapat diterapkan pada agen yang sepenuhnya dikendalikan oleh LLM. “Di agen-agen tersebut, alih-alih memiliki program yang menentukan langkah-langkah dan kemudian menggunakan LLM untuk melaksanakan langkah-langkah tersebut, LLM sendiri yang memutuskan segalanya,” kata Li. “Tidak ada alur kerja terprogram yang mendasarinya, sehingga Anda dapat menjalankan pencarian waktu inferensi pada apa pun yang diciptakan LLM dengan cepat. Dalam hal ini, kebutuhan akan alat seperti EnCompass yang mengubah cara program dijalankan dengan pencarian dan penelusuran mundur berkurang.”

Li dan rekan-rekannya berencana memperluas EnCompass ke kerangka pencarian yang lebih umum untuk agen AI. Mereka juga berencana untuk menguji sistem mereka pada tugas-tugas yang lebih kompleks untuk menyempurnakannya agar dapat digunakan di dunia nyata, termasuk di perusahaan. Terlebih lagi, mereka mengevaluasi seberapa baik EnCompass membantu agen bekerja dengan manusia dalam tugas-tugas seperti melakukan brainstorming desain perangkat keras atau menerjemahkan pustaka kode yang jauh lebih besar. Untuk saat ini, EnCompass adalah sebuah landasan kuat yang memungkinkan manusia untuk mengotak-atik agen AI dengan lebih mudah, sehingga meningkatkan kinerja mereka.

“EnCompass hadir pada saat yang tepat, ketika agen berbasis AI dan teknik berbasis pencarian mulai membentuk kembali alur kerja dalam rekayasa perangkat lunak,” kata Profesor Yiming Yang dari Universitas Carnegie Mellon, yang tidak terlibat dalam penelitian ini. “Dengan memisahkan logika pemrograman agen dari strategi pencarian waktu inferensi, kerangka kerja ini menawarkan cara berprinsip untuk mengeksplorasi bagaimana pencarian terstruktur dapat meningkatkan pembuatan kode, terjemahan, dan analisis. Abstraksi ini memberikan landasan yang kuat untuk pendekatan berbasis pencarian yang lebih sistematis dan andal dalam pengembangan perangkat lunak.”

Li dan Solar-Lezama menulis makalah tersebut bersama dua peneliti Asari AI: Profesor Caltech Yisong Yue, penasihat di perusahaan tersebut; dan penulis senior Stephan Zheng, yang merupakan pendiri dan CEO. Pekerjaan mereka didukung oleh Asari AI.
Hasil kerja tim dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural (NeurIPS) pada bulan Desember.

789bni

onFebruary 6, 2026