OpenAI baru-baru ini meluncurkan ChatGPT Health, yang memungkinkan pengguna menghubungkan catatan medis dan data kebugaran mereka. 
Seberapa sering Anda meminta nasihat kesehatan dari ChatGPT? Mungkin tentang ruam misterius atau rasa sesak di betis kanan Anda setelah sekian lama. Saya pernah, dalam kedua hal tersebut. ChatGPT bahkan dengan tepat mendiagnosis ruam misterius yang saya alami saat pertama kali mengalami musim dingin di Boston sebagai urtikaria dingin, seminggu sebelum dokter saya memastikannya.
Lebih dari 230 juta orang menanyakan pertanyaan terkait kesehatan ChatGPT setiap minggunya, menurut OpenAI. Meskipun orang-orang telah memasukkan kekhawatiran akan kesehatan mereka ke dalam internet sejak awal, yang berubah sekarang adalah antarmukanya: Daripada menelusuri hasil pencarian tanpa akhir, kini Anda dapat melakukan percakapan yang terasa seperti pribadi. (Pengungkapan: Vox Media adalah salah satu dari beberapa penerbit yang telah menandatangani perjanjian kemitraan dengan OpenAI. Pelaporan kami tetap independen secara editorial.)
Kisah ini pertama kali ditampilkan di buletin Future Perfect.
Daftar di sini untuk menjelajahi masalah besar dan rumit yang dihadapi dunia serta cara paling efisien untuk menyelesaikannya. Dikirim dua kali seminggu.
Dalam seminggu terakhir, dua perusahaan AI terbesar menyadari kenyataan tersebut. OpenAI meluncurkan ChatGPT Health, sebuah ruang khusus dalam antarmuka obrolannya yang lebih besar tempat pengguna dapat menghubungkan rekam medis mereka, data Apple Health, dan statistik dari aplikasi kebugaran lainnya untuk mendapatkan respons yang dipersonalisasi. (Saat ini tersedia untuk sekelompok kecil pengguna, namun perusahaan mengatakan pada akhirnya akan terbuka untuk semua pengguna.) Hanya beberapa hari kemudian, Anthropic mengumumkan alat serupa yang dapat digunakan oleh konsumen untuk Claude, bersama dengan sejumlah alat lain yang ditujukan untuk profesional perawatan kesehatan dan peneliti.
Kedua alat AI yang digunakan oleh konsumen dilengkapi dengan penafian – tidak dimaksudkan untuk diagnosis, konsultasikan dengan profesional – yang kemungkinan dibuat untuk alasan pertanggungjawaban. Namun peringatan tersebut tidak akan menghentikan ratusan juta orang yang sudah menggunakan chatbot untuk memahami gejala mereka.
Namun, mungkin saja perusahaan-perusahaan ini mempunyai kelemahan: AI unggul dalam diagnosis; beberapa penelitian menunjukkan bahwa ini adalah salah satu kasus penggunaan terbaik untuk teknologi ini. Dan terdapat trade-off nyata — seputar privasi data dan kecenderungan AI untuk menyenangkan orang — yang patut dipahami sebelum Anda menghubungkan rekam medis Anda ke chatbot.
Kabar baiknya (semacamnya)
Mari kita mulai dengan keunggulan AI: diagnosis.
Diagnosis sebagian besar dilakukan melalui pencocokan pola, yang merupakan bagian dari cara model AI dilatih. Model AI hanya perlu mengambil gejala atau data, mencocokkannya dengan kondisi yang diketahui, dan mendapatkan jawaban. Ini adalah pola yang telah divalidasi oleh para dokter selama beberapa dekade – gejala-gejala ini berarti penyakit ini, gambar seperti ini menunjukkan kondisi tersebut. AI telah dilatih pada jutaan kasus yang diberi label ini, dan hal ini terbukti.
Dalam sebuah studi pada tahun 2024, GPT-4 – model OpenAI terdepan pada saat itu – mencapai akurasi diagnostik di atas 90 persen pada kasus klinis yang kompleks, seperti pasien yang mengalami ruam berenda yang tidak lazim. Sementara itu, dokter manusia yang menggunakan sumber daya konvensional memperoleh skor sekitar 74 persen. Dalam studi terpisah yang diterbitkan tahun ini, model-model ternama mengungguli dokter dalam mengidentifikasi kondisi langka dari gambar – termasuk kanker kulit yang agresif, cacat lahir, dan pendarahan internal – terkadang dengan selisih 20 persen atau lebih.
Perawatan adalah saat segalanya menjadi suram. Dokter harus mempertimbangkan obat yang tepat, namun juga mencoba mencari tahu apakah pasien benar-benar akan meminumnya. Pil dua kali sehari mungkin bekerja lebih baik, tetapi apakah mereka ingat untuk meminum kedua dosis tersebut? Bisakah mereka membelinya? Apakah mereka memiliki transportasi ke pusat infus? Apakah mereka akan menindaklanjutinya?
Ini adalah pertanyaan manusia, bergantung pada konteks yang tidak ada dalam data pelatihan. Dan tentu saja, model bahasa yang besar tidak dapat memberikan resep apa pun kepada Anda, juga tidak memiliki memori andal yang Anda perlukan dalam manajemen kasus jangka panjang.
“Manajemen seringkali tidak memiliki jawaban yang benar,” kata Adam Rodman, seorang dokter di Beth Israel Deaconess Medical Center di Boston dan seorang profesor di Harvard Medical School. “Lebih sulit melatih model untuk melakukan hal itu.”
Namun OpenAI dan Claude bukanlah alat diagnostik pemasaran. Mereka memasarkan sesuatu yang lebih samar: AI sebagai analis kesehatan pribadi. ChatGPT Health dan Claude kini memungkinkan Anda menghubungkan Apple Health, Peloton, dan pelacak kebugaran lainnya. Harapannya adalah AI dapat menganalisis tidur, pergerakan, dan detak jantung Anda dari waktu ke waktu — dan menampilkan tren yang berarti dari semua data yang berbeda.
“Ini sedang berlangsung.”
Adam Rodman, dokter di Beth Israel Deaconess Medical Center di Boston
Salah satu masalahnya adalah belum ada penelitian independen yang menunjukkan hal tersebut bisa dilakukan. AI mungkin mengamati bahwa detak jantung istirahat Anda meningkat atau tidur Anda lebih buruk di hari Minggu. Namun mengamati suatu tren tidak sama dengan mengetahui artinya – dan belum ada yang memvalidasi tren mana, jika ada, yang memprediksi hasil kesehatan sebenarnya. “Ini terjadi,” kata Rodman.
Kedua perusahaan telah menguji produk mereka berdasarkan tolok ukur internal — OpenAI mengembangkan HealthBench, yang dibangun bersama ratusan dokter, yang menguji bagaimana model menjelaskan hasil lab, mempersiapkan pengguna untuk janji temu, dan menafsirkan data yang dapat dipakai.
Namun HealthBench mengandalkan percakapan sintetik, bukan interaksi pasien yang sebenarnya. Dan ini hanya berupa teks, artinya tidak menguji apa yang terjadi saat Anda benar-benar mengunggah data Apple Health Anda. Selain itu, rata-rata percakapan hanya 2,6 kali pertukaran, jauh dari rasa cemas yang mungkin dialami pengguna selama berhari-hari.
Bukan berarti ChatGPT atau fitur kesehatan baru Claude tidak ada gunanya. Mereka mungkin membantu Anda memperhatikan tren kebiasaan Anda, seperti catatan harian migrain membantu orang mengenali pemicunya. Namun saat ini hal tersebut belum tervalidasi secara ilmiah, dan ada baiknya mengetahui perbedaannya.
Risiko sebenarnya
Pertanyaan yang lebih penting adalah apa yang sebenarnya dapat dilakukan AI terhadap data kesehatan Anda, dan apa risiko yang Anda tanggung saat menggunakannya.
Percakapan kesehatan disimpan secara terpisah, kata OpenAI, dan kontennya tidak digunakan untuk melatih model, seperti kebanyakan interaksi lainnya dengan chatbots. Namun baik ChatGPT Health maupun fitur kesehatan konsumen Claude tidak tercakup dalam HIPAA, undang-undang yang melindungi informasi yang Anda bagikan dengan dokter dan perusahaan asuransi. (OpenAI dan Anthropic memang menawarkan perangkat lunak perusahaan ke rumah sakit dan perusahaan asuransi yang sesuai dengan HIPAA.)
Dalam kasus tuntutan hukum atau investigasi kriminal, perusahaan harus mematuhi perintah pengadilan. Sara Geoghegan, penasihat senior di Pusat Informasi Privasi Elektronik, mengatakan kepada The Record bahwa berbagi catatan medis dengan ChatGPT dapat secara efektif menghapus catatan perlindungan HIPAA tersebut.
Di saat layanan reproduksi dan layanan yang menegaskan gender berada di bawah ancaman hukum di banyak negara bagian, hal ini bukanlah sebuah kekhawatiran yang abstrak. Jika Anda mengajukan pertanyaan kepada chatbot tentang hal tersebut — dan menghubungkan rekam medis Anda — kemungkinan besar Anda akan membuat jejak data yang berpotensi dipanggil.
Selain itu, model AI bukanlah penyimpan informasi yang netral. Mereka memiliki kecenderungan terdokumentasi untuk memberi tahu Anda apa yang ingin Anda dengar. Jika Anda cemas terhadap suatu gejala – atau mencari kepastian bahwa gejala tersebut bukan masalah serius – model tersebut dapat menangkap nada bicara Anda dan mungkin menyesuaikan responsnya dengan cara yang tidak dapat dilakukan oleh dokter manusia.
Kedua perusahaan mengatakan bahwa mereka telah melatih model kesehatan mereka untuk menjelaskan informasi dan menandai ketika ada sesuatu yang memerlukan kunjungan dokter, bukan sekadar menyetujui pendapat pengguna. Model yang lebih baru lebih cenderung mengajukan pertanyaan lanjutan ketika tidak yakin. Namun masih harus dilihat bagaimana kinerjanya dalam situasi dunia nyata.
Dan terkadang risikonya lebih besar dibandingkan diagnosis yang terlewat.
Sebuah pracetak yang diterbitkan pada bulan Desember menguji 31 model AI terkemuka, termasuk model dari OpenAI dan Anthropic, pada kasus medis di dunia nyata dan menemukan bahwa model dengan kinerja terburuk memberikan rekomendasi dengan potensi bahaya yang mengancam jiwa pada sekitar satu dari setiap lima skenario. Sebuah studi terpisah mengenai alat pendukung keputusan klinis bertenaga OpenAI yang digunakan di klinik perawatan primer di Kenya menemukan bahwa ketika AI memberikan saran berbahaya yang jarang terjadi (pada sekitar 8 persen kasus), dokter mengadopsi saran buruk tersebut hampir 60 persen.
Ini bukanlah kekhawatiran teoritis. Dua tahun lalu, seorang remaja California bernama Sam Nelson meninggal setelah meminta ChatGPT membantunya menggunakan narkoba dengan aman. Kasus seperti ini jarang terjadi, dan kesalahan yang dilakukan oleh dokter manusia adalah hal yang nyata — puluhan ribu orang meninggal setiap tahun karena kesalahan medis. Namun kisah-kisah ini menunjukkan apa yang bisa terjadi jika orang memercayai AI untuk mengambil keputusan berisiko tinggi.
Jadi haruskah Anda menggunakannya?
Akan mudah untuk membaca semua ini dan menyimpulkan bahwa Anda tidak boleh menanyakan pertanyaan kesehatan kepada chatbot. Namun hal ini mengabaikan alasan mengapa jutaan orang sudah melakukan hal tersebut.
Rata-rata waktu tunggu untuk mendapatkan janji perawatan primer di AS saat ini adalah 31 hari – dan di beberapa kota, seperti Boston, waktu tunggunya lebih dari dua bulan. Ketika Anda masuk, kunjungan berlangsung sekitar 18 menit. Menurut OpenAI, tujuh dari 10 percakapan ChatGPT terkait kesehatan terjadi di luar jam klinik.
Chatbots, sebagai perbandingan, tersedia 24/7, dan “mereka sangat sabar,” kata Rodman. Mereka akan menjawab pertanyaan yang sama dengan lima cara berbeda. Bagi banyak orang, jumlah tersebut lebih dari yang mereka peroleh dari sistem layanan kesehatan.
Jadi, haruskah Anda menggunakan alat ini? Tidak ada jawaban tunggal. Tapi inilah kerangka kerjanya: AI pandai menjelaskan hal-hal seperti hasil laboratorium, terminologi medis, atau pertanyaan apa yang harus ditanyakan kepada dokter Anda. Belum terbukti menemukan tren yang berarti dalam data kesehatan Anda. Dan itu bukan pengganti diagnosis dari seseorang yang benar-benar bisa memeriksa Anda.