
Untuk apa privasi pasien? Sumpah Hipokrates, yang dianggap sebagai salah satu teks etika kedokteran yang paling awal dan paling dikenal luas di dunia, berbunyi: “Apa pun yang saya lihat atau dengar dalam kehidupan pasien saya, baik yang berkaitan dengan praktik profesional saya atau tidak, yang tidak boleh dibicarakan di luar, saya akan merahasiakannya, karena menganggap semua hal tersebut bersifat pribadi.”
Ketika privasi menjadi semakin langka di era algoritma yang haus akan data dan serangan siber, kedokteran adalah salah satu dari sedikit domain yang tersisa di mana kerahasiaan tetap menjadi hal yang penting dalam praktik, sehingga pasien dapat memercayai dokter mereka dengan informasi sensitif.
Namun sebuah makalah yang ditulis bersama oleh para peneliti MIT menyelidiki bagaimana model kecerdasan buatan yang dilatih pada catatan kesehatan elektronik (EHR) yang tidak teridentifikasi dapat mengingat informasi spesifik pasien. Penelitian tersebut, yang baru-baru ini dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural (NeurIPS) tahun 2025, merekomendasikan pengaturan pengujian yang ketat untuk memastikan permintaan yang ditargetkan tidak dapat mengungkapkan informasi, dan menekankan bahwa kebocoran harus dievaluasi dalam konteks layanan kesehatan untuk menentukan apakah hal tersebut membahayakan privasi pasien.
Model dasar yang dilatih tentang EHR biasanya harus menggeneralisasi pengetahuan untuk membuat prediksi yang lebih baik, dengan memanfaatkan banyak catatan pasien. Namun dalam “menghafal”, model ini memanfaatkan catatan pasien tunggal untuk menghasilkan keluarannya, yang berpotensi melanggar privasi pasien. Khususnya, model fondasi diketahui rentan terhadap kebocoran data.
“Pengetahuan dalam model berkapasitas tinggi ini dapat menjadi sumber daya bagi banyak komunitas, namun penyerang yang bermusuhan dapat mendorong model untuk mengekstrak informasi pada data pelatihan,” kata Sana Tonekaboni, seorang postdoc di Eric and Wendy Schmidt Center di Broad Institute of MIT dan Harvard dan penulis pertama makalah tersebut. Mengingat risiko bahwa model dasar juga dapat mengingat data pribadi, ia mencatat, “pekerjaan ini adalah sebuah langkah untuk memastikan adanya langkah-langkah evaluasi praktis yang dapat diambil oleh komunitas kita sebelum merilis model.”
Untuk melakukan penelitian tentang potensi risiko yang dapat ditimbulkan oleh model dasar EHR dalam bidang kedokteran, Tonekaboni mendekati Associate Professor MIT Marzyeh Ghassemi, yang merupakan peneliti utama di Klinik Abdul Latif Jameel untuk Pembelajaran Mesin di Kesehatan (Klinik Jameel) dan anggota Lab Ilmu Komputer dan Kecerdasan Buatan. Ghassemi, anggota fakultas di Departemen Teknik Elektro dan Ilmu Komputer MIT serta Institut Teknik dan Sains Medis, menjalankan grup ML Sehat, yang berfokus pada pembelajaran mesin yang tangguh di bidang kesehatan.
Berapa banyak informasi yang dibutuhkan pelaku kejahatan untuk mengungkap data sensitif, dan apa saja risiko yang terkait dengan kebocoran informasi tersebut? Untuk menilai hal ini, tim peneliti mengembangkan serangkaian tes yang mereka harap akan menjadi dasar bagi evaluasi privasi di masa depan. Tes-tes ini dirancang untuk mengukur berbagai jenis ketidakpastian, dan menilai risiko praktisnya terhadap pasien dengan mengukur berbagai tingkat kemungkinan serangan.
“Kami benar-benar mencoba untuk menekankan kepraktisan di sini; jika penyerang harus mengetahui tanggal dan nilai selusin tes laboratorium dari catatan Anda untuk mengekstrak informasi, risiko bahayanya sangat kecil. Jika saya sudah memiliki akses ke tingkat sumber data yang dilindungi, mengapa saya harus menyerang model fondasi yang besar untuk mendapatkan lebih banyak?” kata Gassemi.
Dengan digitalisasi rekam medis yang tidak dapat dihindari, pelanggaran data menjadi hal yang biasa. Dalam 24 bulan terakhir, Departemen Kesehatan dan Layanan Kemanusiaan AS telah mencatat 747 pelanggaran data informasi kesehatan yang berdampak pada lebih dari 500 orang, dengan mayoritas dikategorikan sebagai insiden peretasan/TI.
Pasien dengan kondisi unik sangat rentan, mengingat betapa mudahnya untuk mengenali mereka. “Bahkan dengan data yang tidak teridentifikasi, itu tergantung pada jenis informasi yang Anda bocorkan tentang individu tersebut,” kata Tonekaboni. “Setelah Anda mengidentifikasinya, Anda akan mengetahui lebih banyak.”
Dalam tes terstruktur mereka, para peneliti menemukan bahwa semakin banyak informasi yang dimiliki penyerang tentang pasien tertentu, semakin besar kemungkinan model tersebut membocorkan informasi. Mereka mendemonstrasikan cara membedakan kasus-kasus generalisasi model dari menghafal tingkat pasien, untuk menilai risiko privasi dengan tepat.
Makalah ini juga menekankan bahwa beberapa kebocoran lebih berbahaya dibandingkan kebocoran lainnya. Misalnya, model yang mengungkapkan usia atau demografi pasien dapat dikategorikan sebagai kebocoran yang lebih aman dibandingkan model yang mengungkapkan informasi yang lebih sensitif, seperti diagnosis HIV atau penyalahgunaan alkohol.
Para peneliti mencatat bahwa pasien dengan kondisi unik sangat rentan mengingat betapa mudahnya untuk mengenali mereka, yang mungkin memerlukan tingkat perlindungan yang lebih tinggi. “Bahkan dengan data yang tidak teridentifikasi, hal ini sangat bergantung pada jenis informasi yang Anda bocorkan tentang individu tersebut,” kata Tonekaboni. Para peneliti berencana untuk memperluas pekerjaan mereka menjadi lebih interdisipliner, menambahkan dokter dan pakar privasi serta pakar hukum.
“Ada alasan mengapa data kesehatan kita dirahasiakan,” kata Tonekaboni. “Tidak ada alasan bagi orang lain untuk mengetahuinya.”
Pekerjaan ini didukung oleh Eric dan Wendy Schmidt Center di Broad Institute of MIT dan Harvard, Wallenberg AI, Knut and Alice Wallenberg Foundation, US National Science Foundation (NSF), penghargaan Gordon and Betty Moore Foundation, penghargaan Google Research Scholar, dan Program AI2050 di Schmidt Sciences. Sumber daya yang digunakan dalam mempersiapkan penelitian ini sebagian disediakan oleh Provinsi Ontario, Pemerintah Kanada melalui CIFAR, dan perusahaan yang mensponsori Vector Institute.