
Caroline Uhler adalah seorang Andrew (1956) dan Profesor Teknik Erna Viterbi di MIT; seorang profesor teknik listrik dan ilmu komputer di Institute for Data, Science, dan Society (IDSS); dan Direktur Pusat Eric dan Wendy Schmidt di Broad Institute of MIT dan Harvard, di mana ia juga seorang institut inti dan anggota tim kepemimpinan ilmiah.
Uhler tertarik pada semua metode yang dengannya para ilmuwan dapat mengungkap kausalitas dalam sistem biologis, mulai dari penemuan kausal pada variabel yang diamati hingga pembelajaran fitur kausal dan pembelajaran representasi. Dalam wawancara ini, ia membahas pembelajaran mesin dalam biologi, bidang yang sudah matang untuk pemecahan masalah, dan penelitian mutakhir yang keluar dari pusat Schmidt.
Q: Pusat Eric dan Wendy Schmidt memiliki empat bidang fokus yang berbeda yang terstruktur di sekitar empat tingkat alami organisasi biologis: protein, sel, jaringan, dan organisme. Apa, dalam lanskap pembelajaran mesin saat ini, sekarang membuat waktu yang tepat untuk mengerjakan kelas masalah khusus ini?
A: Biologi dan kedokteran saat ini sedang menjalani “revolusi data.” Ketersediaan dataset skala besar dan beragam-mulai dari genomik dan multi-omics hingga pencitraan resolusi tinggi dan catatan kesehatan elektronik-menjadikan ini waktu yang tepat. Urutan DNA yang murah dan akurat adalah kenyataan, pencitraan molekuler canggih telah menjadi rutin, dan genomik sel tunggal memungkinkan profil jutaan sel. Inovasi-inovasi ini-dan kumpulan data besar yang mereka hasilkan-telah membawa kita ke ambang batas era baru dalam biologi, di mana kita akan dapat bergerak melampaui ciri unit kehidupan (seperti semua protein, gen, dan tipe sel) untuk memahami `tipe kehidupan yang di bawah ini, seperti halnya mekanis dan sel-sel yang di bawah tis. peta.
Pada saat yang sama, dalam dekade terakhir, pembelajaran mesin telah melihat kemajuan luar biasa dengan model seperti Bert, GPT-3, dan ChatGPT yang menunjukkan kemampuan canggih dalam pemahaman dan pembuatan teks, sementara transformator penglihatan dan model multimodal seperti klip telah mencapai kinerja tingkat manusia dalam tugas terkait gambar. Terobosan ini memberikan cetak biru arsitektur yang kuat dan strategi pelatihan yang dapat disesuaikan dengan data biologis. Misalnya, Transformers dapat memodelkan urutan genomik yang mirip dengan bahasa, dan model penglihatan dapat menganalisis gambar medis dan mikroskop.
Yang penting, biologi siap bukan hanya penerima pembelajaran mesin, tetapi juga sumber inspirasi yang signifikan untuk penelitian ML baru. Sama seperti pertanian dan pemuliaan memacu statistik modern, biologi memiliki potensi untuk menginspirasi jalan baru dan bahkan lebih mendalam dari penelitian ML. Tidak seperti bidang seperti sistem rekomendasi dan iklan internet, di mana tidak ada hukum alam untuk menemukan dan akurasi prediktif adalah ukuran utama nilai, dalam biologi, fenomena secara fisik dapat ditafsirkan, dan mekanisme kausal adalah tujuan akhir. Selain itu, biologi menawarkan alat genetik dan kimia yang memungkinkan layar perturbasional pada skala yang tak tertandingi dibandingkan dengan bidang lain. Fitur gabungan ini membuat biologi secara unik sangat cocok untuk keduanya mendapat manfaat besar dari ML dan berfungsi sebagai sumur inspirasi yang mendalam untuk itu.
Q: Mengambil taktik yang agak berbeda, masalah apa dalam biologi masih benar -benar resisten terhadap set alat kita saat ini? Apakah ada daerah, mungkin tantangan khusus dalam penyakit atau kesehatan, yang menurut Anda sudah matang untuk pemecahan masalah?
A: Pembelajaran mesin telah menunjukkan keberhasilan yang luar biasa dalam tugas -tugas prediktif di seluruh domain seperti klasifikasi gambar, pemrosesan bahasa alami, dan pemodelan risiko klinis. Namun, dalam ilmu biologi, akurasi prediktif sering tidak cukup. Pertanyaan mendasar di bidang ini secara inheren kausal: Bagaimana gangguan pada gen atau jalur tertentu mempengaruhi proses seluler hilir? Apa mekanisme intervensi yang menyebabkan perubahan fenotipik? Model pembelajaran mesin tradisional, yang terutama dioptimalkan untuk menangkap asosiasi statistik dalam data pengamatan, seringkali gagal menjawab pertanyaan intervensi tersebut. Ada kebutuhan yang kuat untuk biologi dan obat -obatan untuk juga menginspirasi perkembangan dasar baru dalam pembelajaran mesin.
Bidang ini sekarang dilengkapi dengan teknologi gangguan throughput tinggi-seperti layar CRISPR yang dikumpulkan, transkriptomik sel tunggal, dan profil spasial-yang menghasilkan kumpulan data yang kaya di bawah intervensi sistematis. Modalitas data ini secara alami menyerukan pengembangan model yang melampaui pengenalan pola untuk mendukung inferensi kausal, desain eksperimental aktif, dan pembelajaran representasi dalam pengaturan dengan variabel laten terstruktur yang kompleks. Dari perspektif matematika, ini membutuhkan penanganan pertanyaan inti tentang pengidentifikasian, efisiensi sampel, dan integrasi alat kombinatorial, geometris, dan probabilistik. Saya percaya bahwa mengatasi tantangan -tantangan ini tidak hanya akan membuka wawasan baru ke dalam mekanisme sistem seluler, tetapi juga mendorong batas -batas teoritis pembelajaran mesin.
Sehubungan dengan model yayasan, konsensus di lapangan adalah bahwa kita masih jauh dari menciptakan model fondasi holistik untuk biologi lintas skala, mirip dengan apa yang diwakili oleh chatgpt dalam domain bahasa – semacam organisme digital yang mampu mensimulasikan semua fenomena biologis. Sementara model -model fondasi baru muncul hampir setiap minggu, model -model ini sejauh ini berspesialisasi untuk skala dan pertanyaan tertentu, dan fokus pada satu atau beberapa modalitas.
Kemajuan yang signifikan telah dibuat dalam memprediksi struktur protein dari urutannya. Keberhasilan ini telah menyoroti pentingnya tantangan pembelajaran mesin berulang, seperti CASP (penilaian kritis prediksi struktur), yang telah berperan dalam membandingkan algoritma canggih untuk prediksi struktur protein dan mendorong peningkatan mereka.
Pusat Schmidt mengatur tantangan untuk meningkatkan kesadaran di bidang ML dan membuat kemajuan dalam pengembangan metode untuk menyelesaikan masalah prediksi kausal yang sangat penting bagi ilmu biomedis. Dengan meningkatnya ketersediaan data gangguan gen tunggal pada tingkat sel tunggal, saya percaya memprediksi efek gangguan tunggal atau kombinatorial, dan gangguan mana yang dapat mendorong fenotip yang diinginkan, adalah masalah yang dapat dipecahkan. Dengan Cell Perturbation Prediction Challenge (CPPC) kami, kami bertujuan untuk menyediakan sarana untuk menguji secara objektif dan algoritma tolok ukur untuk memprediksi efek gangguan baru.
Area lain di mana lapangan telah membuat langkah luar biasa adalah diagnostik penyakit dan triase pasien. Algoritma pembelajaran mesin dapat mengintegrasikan berbagai sumber informasi pasien (modalitas data), menghasilkan modalitas yang hilang, mengidentifikasi pola yang mungkin sulit bagi kami untuk mendeteksi, dan membantu menguatkan pasien berdasarkan risiko penyakit mereka. Meskipun kita harus tetap berhati-hati tentang bias potensial dalam prediksi model, bahaya model belajar pintasan alih-alih korelasi sejati, dan risiko bias otomatisasi dalam pengambilan keputusan klinis, saya percaya ini adalah area di mana pembelajaran mesin sudah memiliki dampak yang signifikan.
Q: Mari kita bicara tentang beberapa berita utama yang keluar dari Schmidt Center baru -baru ini. Menurut Anda, penelitian apa yang harus disemangati orang saat ini, dan mengapa?
A: Bekerja sama dengan Dr. Fei Chen di Broad Institute, kami baru -baru ini mengembangkan metode untuk prediksi lokasi subseluler protein yang tidak terlihat, yang disebut PUPS. Banyak metode yang ada hanya dapat membuat prediksi berdasarkan protein spesifik dan data sel tempat mereka dilatih. Namun, anak anjing menggabungkan model bahasa protein dengan model in-lukisan gambar untuk memanfaatkan urutan protein dan gambar seluler. Kami menunjukkan bahwa input urutan protein memungkinkan generalisasi untuk protein yang tidak terlihat, dan input gambar seluler menangkap variabilitas sel tunggal, memungkinkan prediksi spesifik tipe sel. Model ini belajar seberapa relevan setiap residu asam amino untuk lokalisasi sub-seluler yang diprediksi, dan dapat memprediksi perubahan lokalisasi karena mutasi dalam urutan protein. Karena fungsi protein sangat terkait dengan lokalisasi subselulernya, prediksi kami dapat memberikan wawasan tentang mekanisme penyakit potensial. Di masa depan, kami bertujuan untuk memperluas metode ini untuk memprediksi lokalisasi beberapa protein dalam sel dan mungkin memahami interaksi protein-protein.
Bersama dengan Profesor GV Shivashankar, kolaborator lama di ETH Zürich, kami sebelumnya telah menunjukkan bagaimana gambar-gambar sederhana dari sel yang diwarnai dengan pewarna interkalasi DNA fluoresen untuk memberi label kromatin dapat menghasilkan banyak informasi tentang keadaan dan nasib sel dalam kesehatan dan penyakit, ketika dikombinasikan dengan algorith pembelajaran mesin. Baru -baru ini, kami telah melanjutkan pengamatan ini dan membuktikan hubungan yang dalam antara organisasi kromatin dan regulasi gen dengan mengembangkan Image2Reg, sebuah metode yang memungkinkan prediksi gen yang tidak terlihat secara genetik atau kimia dari gambar kromatin. Image2Reg menggunakan jaringan saraf konvolusional untuk mempelajari representasi informatif dari gambar kromatin dari sel -sel yang terganggu. Ini juga menggunakan jaringan grafik convolutional untuk membuat embedding gen yang menangkap efek regulasi gen berdasarkan data interaksi protein-protein, terintegrasi dengan data transkriptomik spesifik tipe sel. Akhirnya, ia mempelajari peta antara representasi fisik dan biokimia yang dihasilkan dari sel, memungkinkan kita untuk memprediksi modul gen yang terganggu berdasarkan gambar kromatin.
Selain itu, kami baru -baru ini menyelesaikan pengembangan metode untuk memprediksi hasil gangguan gen kombinatorial yang tidak terlihat dan mengidentifikasi jenis interaksi yang terjadi di antara gen yang terganggu. Morph dapat memandu desain gangguan paling informatif untuk eksperimen lab-in-a-loop. Selain itu, kerangka kerja berbasis perhatian terbukti memungkinkan metode kami untuk mengidentifikasi hubungan sebab akibat di antara gen, memberikan wawasan tentang program pengaturan gen yang mendasarinya. Akhirnya, berkat struktur modularnya, kita dapat menerapkan morf ke data gangguan yang diukur dalam berbagai modalitas, termasuk tidak hanya transkriptomik, tetapi juga pencitraan. Kami sangat senang dengan potensi metode ini untuk memungkinkan eksplorasi yang efisien dari ruang gangguan untuk memajukan pemahaman kami tentang program seluler dengan menjembatani teori kausal ke aplikasi penting, dengan implikasi untuk penelitian dasar dan aplikasi terapi.