
Katakanlah seorang ilmuwan lingkungan sedang mempelajari apakah paparan polusi udara berhubungan dengan berat badan lahir rendah di suatu daerah tertentu.
Mereka mungkin melatih model pembelajaran mesin untuk memperkirakan besarnya hubungan ini, karena metode pembelajaran mesin sangat baik dalam mempelajari hubungan yang kompleks.
Metode pembelajaran mesin standar unggul dalam membuat prediksi dan terkadang memberikan ketidakpastian, seperti interval kepercayaan, untuk prediksi tersebut. Namun, umumnya mereka tidak memberikan estimasi atau interval kepercayaan saat menentukan apakah dua variabel saling berhubungan. Metode lain telah dikembangkan secara khusus untuk mengatasi masalah asosiasi ini dan memberikan interval kepercayaan. Namun, dalam konteks spasial, peneliti MIT menemukan bahwa interval kepercayaan ini bisa sangat melenceng.
Ketika variabel seperti tingkat polusi udara atau curah hujan berubah di lokasi yang berbeda, metode umum untuk menghasilkan interval kepercayaan mungkin memiliki tingkat kepercayaan yang tinggi, padahal, pada kenyataannya, estimasi tersebut gagal untuk menangkap nilai sebenarnya. Interval kepercayaan yang salah ini dapat menyesatkan pengguna agar mempercayai model yang gagal.
Setelah mengidentifikasi kekurangan ini, para peneliti mengembangkan metode baru yang dirancang untuk menghasilkan interval kepercayaan yang valid untuk masalah yang melibatkan data yang bervariasi antar ruang. Dalam simulasi dan eksperimen dengan data nyata, metode mereka adalah satu-satunya teknik yang secara konsisten menghasilkan interval kepercayaan yang akurat.
Pekerjaan ini dapat membantu para peneliti di bidang-bidang seperti ilmu lingkungan, ekonomi, dan epidemiologi untuk lebih memahami kapan harus memercayai hasil eksperimen tertentu.
“Ada begitu banyak permasalahan yang membuat orang tertarik untuk memahami fenomena luar angkasa, seperti cuaca atau pengelolaan hutan. Kami telah menunjukkan bahwa, untuk permasalahan yang luas ini, ada metode yang lebih tepat yang dapat memberikan kinerja yang lebih baik, pemahaman yang lebih baik tentang apa yang sedang terjadi, dan hasil yang lebih dapat dipercaya,” kata Tamara Broderick, seorang profesor di Departemen Teknik Elektro dan Ilmu Komputer (EECS) MIT, anggota dari Laboratorium Sistem Informasi dan Keputusan (LIDS) dan Institut Data, Sistem, dan Masyarakat, afiliasi dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL), dan penulis senior penelitian ini.
Broderick bergabung dalam makalah ini dengan rekan penulis utama David R. Burt, seorang postdoc, dan Renato Berlinghieri, seorang mahasiswa pascasarjana EECS; dan Stephen Bates, asisten profesor di EECS dan anggota LIDS. Penelitian ini baru-baru ini dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural.
Asumsi yang tidak valid
Asosiasi spasial melibatkan mempelajari bagaimana suatu variabel dan hasil tertentu terkait dalam suatu wilayah geografis. Misalnya, seseorang mungkin ingin mempelajari hubungan tutupan pohon di Amerika Serikat dengan ketinggian.
Untuk mengatasi masalah seperti ini, seorang ilmuwan dapat mengumpulkan data observasi dari banyak lokasi dan menggunakannya untuk memperkirakan hubungan di lokasi berbeda yang tidak memiliki data.
Para peneliti MIT menyadari bahwa, dalam hal ini, metode yang ada seringkali menghasilkan interval kepercayaan yang sepenuhnya salah. Sebuah model mungkin mengatakan bahwa ia 95 persen yakin bahwa estimasi yang dibuatnya mampu menggambarkan hubungan sebenarnya antara tutupan pohon dan ketinggian, padahal model tersebut tidak menangkap hubungan tersebut sama sekali.
Setelah mengeksplorasi masalah ini, para peneliti menyimpulkan bahwa asumsi yang diandalkan oleh metode interval kepercayaan ini tidak berlaku ketika data bervariasi secara spasial.
Asumsi ibarat aturan yang harus dipatuhi untuk memastikan validitas hasil analisis statistik. Metode umum untuk menghasilkan interval kepercayaan beroperasi berdasarkan berbagai asumsi.
Pertama, mereka berasumsi bahwa sumber data, yaitu data observasi yang dikumpulkan untuk melatih model, bersifat independen dan terdistribusi secara identik. Asumsi ini menyiratkan bahwa kemungkinan dimasukkannya satu lokasi ke dalam data tidak berpengaruh pada apakah lokasi lain dimasukkan atau tidak. Namun, misalnya, sensor udara Badan Perlindungan Lingkungan AS (EPA) ditempatkan dengan mempertimbangkan lokasi sensor udara lainnya.
Kedua, metode yang ada sering kali berasumsi bahwa model tersebut sepenuhnya benar, namun asumsi ini tidak pernah benar dalam praktiknya. Terakhir, mereka berasumsi bahwa data sumber serupa dengan data target yang ingin diestimasi.
Namun dalam kondisi spasial, data sumber dapat berbeda secara mendasar dengan data target karena data target berada di lokasi yang berbeda dengan lokasi pengumpulan data sumber.
Misalnya, seorang ilmuwan mungkin menggunakan data dari pemantau polusi EPA untuk melatih model pembelajaran mesin yang dapat memprediksi hasil kesehatan di daerah pedesaan yang tidak memiliki pemantau. Namun pemantau polusi EPA kemungkinan besar ditempatkan di daerah perkotaan, dimana terdapat lebih banyak lalu lintas dan industri berat, sehingga data kualitas udara akan jauh berbeda dibandingkan data kualitas udara di daerah pedesaan.
Dalam hal ini, perkiraan asosiasi yang menggunakan data perkotaan mengalami bias karena data target secara sistematis berbeda dari data sumber.
Solusi yang lancar
Metode baru untuk menghasilkan interval kepercayaan secara eksplisit menjelaskan potensi bias ini.
Alih-alih berasumsi bahwa sumber dan data target serupa, para peneliti berasumsi bahwa data tersebut bervariasi dengan lancar di berbagai tempat.
Misalnya, dengan polusi udara partikulat halus, kita tidak akan mengira bahwa tingkat polusi di satu blok kota akan jauh berbeda dengan tingkat polusi di blok kota berikutnya. Sebaliknya, tingkat polusi akan berkurang seiring dengan menjauhnya seseorang dari sumber polusi.
“Untuk permasalahan seperti ini, asumsi kelancaran spasial lebih tepat. Ini lebih cocok dengan apa yang sebenarnya terjadi dalam data,” kata Broderick.
Ketika mereka membandingkan metode mereka dengan teknik umum lainnya, mereka menemukan bahwa metode tersebut adalah satu-satunya metode yang secara konsisten dapat menghasilkan interval kepercayaan yang dapat diandalkan untuk analisis spasial. Selain itu, metode mereka tetap dapat diandalkan meskipun data observasi terdistorsi oleh kesalahan acak.
Di masa depan, para peneliti ingin menerapkan analisis ini pada berbagai jenis variabel dan mengeksplorasi penerapan lain yang dapat memberikan hasil yang lebih dapat diandalkan.
Penelitian ini sebagian didanai oleh hibah awal MIT Social and Ethical Responsibilities of Computing (SERC), Office of Naval Research, Generali, Microsoft, dan National Science Foundation (NSF).