
Saat ChatGPT, Claude, atau AI Google dimintai rekomendasi merek atau produk, mereka hampir tidak pernah mengembalikan daftar yang sama dua kali — dan hampir tidak pernah dalam urutan yang sama.
Itulah temuan besar dari studi baru yang dilakukan oleh Rand Fishkin, CEO dan salah satu pendiri SparkToro, dan Patrick O’Donnell, CTO dan salah satu pendiri Gumshoe.ai. Mereka menyelidiki apakah rekomendasi AI generatif cukup konsisten untuk diukur.
Apa yang mereka uji. Enam ratus sukarelawan menjalankan 12 perintah serupa melalui ChatGPT, Claude, dan AI Google hampir 3.000 kali.
- Setiap respons dinormalisasi menjadi daftar merek atau produk yang diurutkan. Tim kemudian membandingkan daftar tersebut untuk tumpang tindih, urutan, dan pengulangan.
- Tujuannya adalah untuk melihat seberapa sering jawaban yang sama muncul.
Jawaban singkatnya: hampir tidak pernah. Di seluruh alat dan petunjuk, peluang untuk mendapatkan daftar yang sama dua kali berada di bawah 1 dalam 100. Peluang untuk mendapatkan daftar yang sama dalam urutan yang sama mendekati 1 dalam 1.000.
- Bahkan panjang daftarnya sangat bervariasi. Beberapa tanggapan menyebutkan dua atau tiga opsi. Orang lain yang bernama 10 atau lebih.
- Jika Anda tidak menyukai hasilnya, data menyarankan perbaikan sederhana: tanyakan lagi.

Mengapa kami peduli. Kami telah mendengar bahwa personalisasi mendorong jawaban AI. Ini adalah penelitian pertama yang mengemukakan angka-angka nyata di balik klaim tersebut – dan implikasinya sangat besar. Jika Anda mencari cara konkrit untuk membedakan SEO dan GEO, inilah saatnya.
Acak berdasarkan desain. Ini bukanlah sebuah cacat. Begitulah cara kerja sistem ini.
- Model bahasa besar adalah mesin probabilitas. Mereka dirancang untuk menghasilkan variasi, bukan untuk mengembalikan serangkaian hasil yang stabil dan teratur.
- Memperlakukannya seperti tautan biru Google tidak tepat sasaran dan menghasilkan metrik yang buruk.
Satu hal yang berhasil. Meskipun peringkatnya anjlok saat dilakukan pengawasan, ada satu metrik yang bertahan lebih baik dari perkiraan: persentase visibilitas.
- Beberapa merek muncul lagi dan lagi di puluhan run, meski posisinya melonjak-lonjak. Dalam beberapa kasus – rumah sakit, agensi, merek konsumen – nama muncul dalam 60% hingga 90% respons untuk tujuan tertentu.
- Kehadiran berulang berarti sesuatu. Peringkat pastinya tidak.
Ukuran itu penting. Semakin kecil pasarnya, semakin stabil hasilnya.
- Di ruang sempit – seperti penyedia layanan regional atau alat B2B khusus – jawaban AI dikelompokkan berdasarkan beberapa nama yang sudah dikenal. Dalam kategori besar – seperti novel atau agensi kreatif – hasilnya tersebar ke dalam kekacauan.
- Lebih banyak pilihan menciptakan lebih banyak keacakan.
Anjurannya adalah kekacauan. Tim juga menguji perintah manusia yang sebenarnya, dan hasilnya berantakan – dalam cara yang sangat manusiawi.
- Hampir tidak ada dua perintah yang serupa, bahkan ketika orang menginginkan hal yang sama. Kesamaan semantik sangat rendah.
- Inilah kejutannya: meskipun ungkapannya sangat berbeda, alat AI masih menghasilkan rangkaian merek yang serupa untuk tujuan dasar yang sama.
Niat bertahan. Untuk rekomendasi headphone, ratusan permintaan unik masih sering muncul di kalangan pemimpin seperti Bose, Sony, Apple, dan Sennheiser.
- Ubah tujuannya — bermain game, podcasting, peredam bising — dan rangkaian merek pun ikut berubah.
- Hal ini menunjukkan bahwa alat AI mampu menangkap maksud, meskipun perintahnya aneh.
Apa yang tidak berguna. Melacak “posisi” dalam jawaban AI.
- Penelitian ini bersifat blak-blakan: posisi peringkat sangat tidak stabil sehingga tidak ada artinya. Produk apa pun yang menjual pergerakan peringkat AI berarti menjual fiksi.
Apa yang mungkin berhasil. Lacak seberapa sering merek Anda muncul di banyak perintah, jalankan berkali-kali. Itu tidak sempurna. Ini berantakan. Tapi ini lebih mendekati kenyataan daripada berpura-pura bahwa jawaban AI berperilaku seperti peringkat pencarian.
Pertanyaan terbuka. Fishkin menunjukkan kesenjangan yang masih memerlukan jawaban.
- Berapa banyak lari yang diperlukan agar angka visibilitas dapat diandalkan?
- Apakah API berperilaku seperti pengguna sebenarnya?
- Berapa banyak petunjuk yang mewakili pasar secara akurat?
Intinya. Daftar rekomendasi AI pada dasarnya bersifat acak. Visibilitas — diukur dengan hati-hati dan dalam skala besar — mungkin masih memberi tahu Anda sesuatu yang nyata. Hanya saja, jangan bingung dengan peringkat.
Laporannya. Riset BARU: AI sangat tidak konsisten ketika merekomendasikan merek atau produk; pemasar harus berhati-hati saat melacak visibilitas AI