789BNi
Aplikasi Game Terbesar di Indonesia
DOWNLOAD APP

3 Pertanyaan: Bagaimana AI membantu kita memantau dan mendukung ekosistem yang rentan

3 Pertanyaan: Bagaimana AI membantu kita memantau dan mendukung ekosistem yang rentan



Baru-baru inibelajar dari Oregon State University memperkirakan lebih dari 3.500 spesies hewan berisiko punah karena berbagai faktor termasuk perubahan habitat, eksploitasi sumber daya alam yang berlebihan, dan perubahan iklim.

Untuk lebih memahami perubahan ini dan melindungi satwa liar yang rentan, para pegiat konservasi seperti mahasiswa PhD MIT dan peneliti Computer Science and Artificial Intelligence Laboratory (CSAIL) Justin Kay sedang mengembangkan algoritme visi komputer yang memantau populasi hewan dengan cermat. Sebagai anggota laboratorium asisten profesor Teknik Elektro dan Ilmu Komputer MIT dan peneliti utama CSAIL, Sara Beery, Kay saat ini bekerja untuk melacak salmon di Pacific Northwest, tempat mereka menyediakan nutrisi penting bagi predator seperti burung dan beruang, sekaligus mengelola populasi mangsa, seperti serangga.

Namun, dengan semua data satwa liar tersebut, para peneliti memiliki banyak informasi untuk dipilah dan banyak model AI yang dapat dipilih untuk menganalisis semuanya. Kay dan rekan-rekannya di CSAIL dan University of Massachusetts Amherst sedang mengembangkan metode AI yang membuat proses pengolahan data ini jauh lebih efisien, termasuk pendekatan baru yang disebut “pemilihan model aktif berbasis konsensus” (atau “CODA”) yang membantu para pegiat konservasi memilih model AI mana yang akan digunakan. Milik merekabekerja dinobatkan sebagai Makalah Sorotan pada Konferensi Internasional tentang Visi Komputer (ICCV) pada bulan Oktober.

Penelitian tersebut sebagian didukung oleh National Science Foundation, Natural Sciences and Engineering Research Council of Canada, dan Abdul Latif Jameel Water and Food Systems Lab (J-WAFS). Di sini, Kay membahas proyek ini, serta upaya konservasi lainnya.

Q: Dalam makalah Anda, Anda mengajukan pertanyaan tentang model AI mana yang memiliki performa terbaik pada kumpulan data tertentu. Dengan sebanyak 1,9 juta model terlatih yang tersedia di repositori Model HuggingFace saja, bagaimana CODA membantu kami mengatasi tantangan tersebut?

A: Sampai saat ini, penggunaan AI untuk analisis data biasanya berarti melatih model Anda sendiri. Hal ini memerlukan upaya yang signifikan untuk mengumpulkan dan memberi anotasi pada kumpulan data pelatihan yang representatif, serta melatih dan memvalidasi model secara berulang. Anda juga memerlukan keahlian teknis tertentu untuk menjalankan dan memodifikasi kode pelatihan AI. Namun, cara orang berinteraksi dengan AI sedang berubah — khususnya, kini terdapat jutaan model terlatih yang tersedia untuk umum dan dapat melakukan berbagai tugas prediktif dengan sangat baik. Hal ini berpotensi memungkinkan orang menggunakan AI untuk menganalisis data mereka tanpa mengembangkan model mereka sendiri, cukup dengan mengunduh model yang sudah ada dengan kemampuan yang mereka perlukan. Namun hal ini menimbulkan tantangan baru: Model manakah, dari jutaan model yang tersedia, yang harus mereka gunakan untuk menganalisis data mereka?

Biasanya, menjawab pertanyaan pemilihan model ini juga mengharuskan Anda menghabiskan banyak waktu mengumpulkan dan membuat anotasi pada kumpulan data yang besar, meskipun untuk menguji model daripada melatihnya. Hal ini terutama berlaku untuk aplikasi nyata yang kebutuhan penggunanya spesifik, distribusi datanya tidak seimbang dan terus berubah, serta performa model mungkin tidak konsisten di seluruh sampel. Tujuan kami dengan CODA adalah mengurangi upaya ini secara signifikan. Kami melakukan ini dengan membuat proses anotasi data menjadi “aktif”. Daripada mengharuskan pengguna membuat anotasi massal pada kumpulan data pengujian yang besar sekaligus, dalam pemilihan model aktif, kami menjadikan prosesnya interaktif, memandu pengguna untuk membuat anotasi pada titik data paling informatif dalam data mentah mereka. Hal ini sangat efektif, sering kali mengharuskan pengguna untuk memberi anotasi sedikitnya 25 contoh untuk mengidentifikasi model terbaik dari kumpulan kandidat mereka.

Kami sangat gembira dengan CODA yang menawarkan perspektif baru tentang cara terbaik memanfaatkan upaya manusia dalam pengembangan dan penerapan sistem pembelajaran mesin (ML). Ketika model AI menjadi lebih umum, pekerjaan kami menekankan pentingnya memfokuskan upaya pada jalur evaluasi yang kuat, bukan hanya pada pelatihan.

Q: Anda menerapkan metode CODA untuk mengklasifikasikan satwa liar dalam gambar. Mengapa sistem ini berkinerja sangat baik, dan apa peran sistem seperti ini dalam memantau ekosistem di masa depan?

A: Salah satu wawasan utamanya adalah ketika mempertimbangkan kumpulan calon model AI, konsensus dari semua prediksi mereka lebih informatif dibandingkan prediksi model individual mana pun. Hal ini dapat dilihat sebagai semacam “kebijaksanaan orang banyak:” Rata-rata, mengumpulkan suara dari semua model memberi Anda gambaran awal yang layak mengenai label titik data individual dalam kumpulan data mentah Anda. Pendekatan kami dengan CODA didasarkan pada estimasi “matriks kebingungan” untuk setiap model AI — mengingat label sebenarnya untuk beberapa titik data adalah kelas X, berapa probabilitas model individual memprediksi kelas X, Y, atau Z? Hal ini menciptakan ketergantungan informatif antara semua model kandidat, kategori yang ingin Anda beri label, dan titik yang tidak berlabel dalam kumpulan data Anda.

Pertimbangkan contoh aplikasi di mana Anda adalah seorang ahli ekologi satwa liar yang baru saja mengumpulkan kumpulan data yang berpotensi berisi ratusan ribu gambar dari kamera yang dipasang di alam liar. Anda ingin mengetahui spesies apa yang ada dalam gambar-gambar ini, tugas yang memakan waktu dan dapat diotomatisasi oleh pengklasifikasi visi komputer. Anda mencoba memutuskan model klasifikasi spesies mana yang akan dijalankan pada data Anda. Jika Anda telah memberi label pada 50 gambar harimau sejauh ini, dan beberapa model memiliki kinerja yang baik pada 50 gambar tersebut, Anda dapat cukup yakin bahwa model tersebut juga akan memiliki kinerja yang baik pada gambar harimau lainnya (yang saat ini belum diberi label) dalam kumpulan data mentah Anda. Anda juga mengetahui bahwa jika model tersebut memprediksi suatu gambar berisi seekor harimau, kemungkinan besar model tersebut benar, dan oleh karena itu, model apa pun yang memprediksi label berbeda untuk gambar tersebut kemungkinan besar akan salah. Anda dapat menggunakan semua saling ketergantungan ini untuk membuat estimasi probabilistik dari matriks konfusi setiap model, serta distribusi probabilitas model mana yang memiliki akurasi tertinggi pada keseluruhan kumpulan data. Pilihan desain ini memungkinkan kami membuat pilihan yang lebih tepat mengenai titik data mana yang akan diberi label dan pada akhirnya menjadi alasan mengapa CODA melakukan pemilihan model jauh lebih efisien dibandingkan pekerjaan sebelumnya.

Ada juga banyak kemungkinan menarik untuk mengembangkan pekerjaan kami. Kami pikir mungkin ada cara yang lebih baik untuk membangun prior yang informatif untuk pemilihan model berdasarkan keahlian domain — misalnya, jika sudah diketahui bahwa satu model memiliki kinerja yang sangat baik pada beberapa subset kelas atau buruk pada subset kelas lainnya. Ada juga peluang untuk memperluas kerangka kerja guna mendukung tugas pembelajaran mesin yang lebih kompleks dan model kinerja probabilistik yang lebih canggih. Kami berharap penelitian kami dapat memberikan inspirasi dan titik awal bagi peneliti lain untuk terus mengembangkan teknologi terkini.

Q: Anda bekerja di Beerylab, dipimpin oleh Sara Beery, tempat para peneliti menggabungkan kemampuan pengenalan pola algoritma pembelajaran mesin dengan teknologi visi komputer untuk memantau satwa liar. Apa saja cara lain yang dilakukan tim Anda untuk melacak dan menganalisis alam, selain CODA?
A: Lab adalah tempat yang sangat menarik untuk bekerja, dan proyek-proyek baru terus bermunculan. Kami memiliki proyek yang sedang berlangsung untuk memantau terumbu karang dengan drone, mengidentifikasi kembali individu gajah dari waktu ke waktu, dan menggabungkan data observasi bumi multi-modal dari satelit dan kamera in-situ, dan masih banyak lagi. Secara umum, kami melihat teknologi-teknologi baru untuk pemantauan keanekaragaman hayati dan mencoba memahami di mana letak hambatan dalam analisis data, dan mengembangkan pendekatan visi komputer dan pembelajaran mesin baru yang mengatasi masalah-masalah tersebut dengan cara yang dapat diterapkan secara luas. Ini adalah cara yang menarik untuk mendekati masalah yang menargetkan “pertanyaan meta” yang mendasari tantangan data tertentu yang kita hadapi.

Algoritme visi komputer yang pernah saya kerjakan yang menghitung migrasi salmon dalam video sonar bawah air adalah contoh dari pekerjaan tersebut. Kami sering kali menghadapi pergeseran distribusi data, bahkan saat kami mencoba membuat kumpulan data pelatihan paling beragam yang kami bisa. Kami selalu menemukan sesuatu yang baru saat menggunakan kamera baru, dan hal ini cenderung menurunkan kinerja algoritme visi komputer. Ini adalah salah satu contoh masalah umum dalam pembelajaran mesin yang disebut adaptasi domain, namun ketika kami mencoba menerapkan algoritme adaptasi domain yang ada pada data perikanan kami, kami menyadari bahwa terdapat keterbatasan serius dalam cara algoritme yang ada dilatih dan dievaluasi. Kami dapat mengembangkan kerangka adaptasi domain baru, yang diterbitkan awal tahun ini pada tahun 2017Transaksi Penelitian Pembelajaran Mesinyang mengatasi keterbatasan ini dan mengarah pada kemajuan dalam penghitungan ikan, dan bahkan analisis kendaraan tanpa pengemudi dan pesawat ruang angkasa.

Salah satu bidang pekerjaan yang sangat saya sukai adalah memahami cara mengembangkan dan menganalisis kinerja algoritme ML prediktif dengan lebih baik dalam konteks kegunaan algoritme tersebut. Biasanya, keluaran dari beberapa algoritme visi komputer — misalnya, membuat kotak pembatas di sekitar hewan dalam gambar — sebenarnya bukan hal yang dipedulikan orang, melainkan sarana untuk menjawab masalah yang lebih besar — ​​misalnya, spesies apa yang hidup di sini, dan bagaimana perubahannya seiring berjalannya waktu? Kami telah mengerjakan metode untuk menganalisis kinerja prediktif dalam konteks ini dan mempertimbangkan kembali cara kami memasukkan keahlian manusia ke dalam sistem ML dengan mempertimbangkan hal ini. CODA adalah salah satu contohnya, di mana kami menunjukkan bahwa kami sebenarnya dapat menganggap model ML itu sendiri sebagai model tetap dan membangun kerangka statistik untuk memahami kinerjanya dengan sangat efisien. Kami baru-baru ini mengerjakan analisis terintegrasi serupa yang menggabungkan prediksi ML dengan alur prediksi multi-tahap, serta model statistik ekologi.

Alam berubah dengan kecepatan dan skala yang belum pernah terjadi sebelumnya, dan kemampuan untuk dengan cepat beralih dari hipotesis ilmiah atau pertanyaan pengelolaan ke jawaban berdasarkan data sangatlah penting untuk melindungi ekosistem dan komunitas yang bergantung padanya. Kemajuan dalam AI dapat memainkan peran penting, namun kita perlu berpikir kritis tentang cara kita merancang, melatih, dan mengevaluasi algoritma dalam konteks tantangan yang sangat nyata ini.


Previous Article

Cara Cetak Lampiran SPT PPN di Coretax: Panduan Lengkap dari vOffice | vOffice

Next Article

Mengapa halaman khusus LLM bukanlah jawaban untuk pencarian AI

Write a Comment

Leave a Comment

Your email address will not be published. Required fields are marked *

Subscribe to our Newsletter

Subscribe to our email newsletter to get the latest posts delivered right to your email.
Pure inspiration, zero spam ✨