
Google sedang berupaya menuju masa depan yang memahami apa yang Anda inginkan sebelum Anda mengetik penelusuran.
Kini Google menerapkan pemikiran tersebut ke dalam perangkatnya sendiri, menggunakan model AI kecil yang kinerjanya hampir sama baiknya dengan model AI yang jauh lebih besar.
Apa yang terjadi. Dalam makalah penelitian yang dipresentasikan di EMNLP 2025, peneliti Google menunjukkan bahwa perubahan sederhana memungkinkan hal ini: memecah “pemahaman niat” menjadi langkah-langkah yang lebih kecil. Ketika hal ini terjadi, LLM multimodal kecil (MLLM) menjadi cukup kuat untuk menandingi sistem seperti Gemini 1.5 Pro — sekaligus berjalan lebih cepat, lebih hemat biaya, dan menyimpan data di perangkat.
- Makalah, “Model Kecil, Hasil Besar: Mencapai Ekstraksi Niat Unggul melalui Dekomposisi,” menjelaskan bagaimana Google menyimpulkan apa yang coba dilakukan seseorang berdasarkan cara mereka menggunakan aplikasi dan situs web. Itu termasuk ketukan, klik, gulir, dan perubahan layar seiring waktu.
Masa depan adalah ekstraksi niat. Model AI besar sudah dapat menyimpulkan maksud dari perilaku pengguna, tetapi biasanya model tersebut dijalankan di cloud. Hal ini menimbulkan tiga masalah. Mereka lebih lambat. Harganya lebih mahal. Dan hal ini menimbulkan kekhawatiran privasi, karena tindakan pengguna bisa jadi sensitif.
Solusi Google adalah membagi tugas menjadi dua langkah sederhana yang dapat ditangani dengan baik oleh model kecil di perangkat.
- Langkah pertama: Setiap interaksi layar dirangkum secara terpisah. Sistem mencatat apa yang ada di layar, apa yang dilakukan pengguna, dan tebakan sementara mengapa mereka melakukannya.
- Langkah kedua: Model kecil lainnya hanya meninjau bagian faktual dari ringkasan tersebut. Ini mengabaikan tebakan dan menghasilkan satu pernyataan singkat yang menjelaskan tujuan keseluruhan sesi pengguna.
- Dengan menjaga setiap langkah tetap fokus, sistem menghindari modus kegagalan yang umum terjadi pada model-model kecil: gagal ketika diminta memikirkan sejarah yang panjang dan berantakan sekaligus.
Bagaimana para peneliti mengukur kesuksesan. Daripada menanyakan apakah ringkasan maksud “terlihat mirip” dengan jawaban yang benar, mereka menggunakan metode yang disebut Bi-Fact. Dengan menggunakan metrik kualitas utamanya, skor F1, model kecil dengan pendekatan langkah demi langkah secara konsisten mengungguli metode model kecil lainnya:
- Gemini 1.5 Flash, model 8B, menyamai performa Gemini 1.5 Pro pada data perilaku seluler.
- Halusinasi hilang karena tebakan spekulatif dihilangkan sebelum maksud akhir ditulis.
- Bahkan dengan langkah ekstra, sistem ini berjalan lebih cepat dan lebih murah dibandingkan model besar berbasis cloud.
Bagaimana cara kerjanya. Niat dipecah menjadi potongan-potongan kecil informasi, atau fakta. Kemudian mereka mengukur fakta mana yang hilang dan mana yang hanya rekayasa. Ini:
- Pertunjukan Bagaimana pemahaman maksud gagal, bukan hanya gagal.
- Mengungkapkan di mana sistem cenderung berhalusinasi makna versus di mana mereka membuang detail penting.
Makalah ini juga menunjukkan bahwa data pelatihan yang berantakan lebih merugikan model end-to-end yang besar dibandingkan pendekatan langkah demi langkah. Saat label menimbulkan gangguan — hal yang biasa terjadi pada perilaku pengguna sebenarnya — sistem yang terdekomposisi akan bertahan lebih baik.
Mengapa kami peduli. Jika Google menginginkan agen yang menyarankan tindakan atau jawaban sebelum orang melakukan penelusuran, Google perlu memahami maksud dari perilaku pengguna (cara orang menelusuri aplikasi, browser, dan layar). Penelitian ini mendekatkan gagasan tersebut dengan kenyataan. Kata kunci tetap penting, namun kueri hanya akan menjadi satu sinyal. Di masa mendatang, Anda harus mengoptimalkan perjalanan pengguna yang jelas dan logis — bukan hanya kata-kata yang diketik di akhir.
Entri blog Riset Google. Model kecil, hasil besar: Mencapai ekstraksi niat yang unggul melalui dekomposisi