
Dalam beberapa tahun terakhir, model yang dapat memprediksi struktur atau fungsi protein telah banyak digunakan untuk berbagai aplikasi biologis, seperti mengidentifikasi target obat dan merancang antibodi terapi baru.
Model -model ini, yang didasarkan pada model bahasa besar (LLM), dapat membuat prediksi yang sangat akurat dari kesesuaian protein untuk aplikasi yang diberikan. Namun, tidak ada cara untuk menentukan bagaimana model -model ini membuat prediksi atau fitur protein mana yang memainkan peran paling penting dalam keputusan tersebut.
Dalam sebuah studi baru, peneliti MIT telah menggunakan teknik baru untuk membuka “kotak hitam” itu dan memungkinkan mereka untuk menentukan fitur apa yang dipertimbangkan model bahasa protein saat membuat prediksi. Memahami apa yang terjadi di dalam kotak hitam itu dapat membantu para peneliti untuk memilih model yang lebih baik untuk tugas tertentu, membantu merampingkan proses mengidentifikasi obat baru atau target vaksin.
“Pekerjaan kami memiliki implikasi luas untuk meningkatkan kemampuan menjelaskan dalam tugas hilir yang mengandalkan representasi ini,” kata Bonnie Berger, profesor matematika Simons, kepala kelompok perhitungan dan biologi dalam ilmu komputer MIT dan laboratorium kecerdasan buatan, dan penulis senior penelitian. “Selain itu, mengidentifikasi fitur yang dilacak model bahasa protein memiliki potensi untuk mengungkapkan wawasan biologis baru dari representasi ini.”
Onkar Gujral, seorang mahasiswa pascasarjana MIT, adalah penulis utama studi akses terbuka, yang muncul minggu ini di Prosiding Akademi Ilmu Pengetahuan Nasional. Mihir Bafna, seorang mahasiswa pascasarjana MIT dalam Teknik Listrik dan Ilmu Komputer, dan Eric Alm, seorang profesor MIT dari Teknik Biologi, juga merupakan penulis makalah ini.
Membuka Kotak Hitam
Pada tahun 2018, Berger dan mantan mahasiswa pascasarjana MIT Tristan Bepler PhD ’20 memperkenalkan model bahasa protein pertama. Model mereka, seperti model protein berikutnya yang mempercepat pengembangan Alphafold, seperti ESM2 dan OmeGafold, didasarkan pada LLM. Model -model ini, yang termasuk chatgpt, dapat menganalisis sejumlah besar teks dan mencari tahu kata -kata mana yang paling mungkin muncul bersama.
Model bahasa protein menggunakan pendekatan yang sama, tetapi alih -alih menganalisis kata -kata, mereka menganalisis urutan asam amino. Para peneliti telah menggunakan model -model ini untuk memprediksi struktur dan fungsi protein, dan untuk aplikasi seperti mengidentifikasi protein yang mungkin mengikat obat tertentu.
Dalam studi 2021, Berger dan rekan menggunakan model bahasa protein untuk memprediksi bagian mana protein permukaan virus lebih kecil kemungkinannya untuk bermutasi dengan cara yang memungkinkan pelarian virus. Ini memungkinkan mereka untuk mengidentifikasi target yang mungkin untuk vaksin terhadap influenza, HIV, dan SARS-COV-2.
Namun, dalam semua studi ini, tidak mungkin untuk mengetahui bagaimana model membuat prediksi mereka.
“Kami akan mengeluarkan beberapa prediksi pada akhirnya, tetapi kami sama sekali tidak tahu apa yang terjadi dalam komponen individu kotak hitam ini,” kata Berger.
Dalam studi baru, para peneliti ingin menggali bagaimana model bahasa protein membuat prediksi. Sama seperti LLMS, model bahasa protein menyandikan informasi sebagai representasi yang terdiri dari pola aktivasi “node” yang berbeda dalam jaringan saraf. Node ini analog dengan jaringan neuron yang menyimpan ingatan dan informasi lain di dalam otak.
Pekerjaan batin LLMS tidak mudah ditafsirkan, tetapi dalam beberapa tahun terakhir, para peneliti telah mulai menggunakan jenis algoritma yang dikenal sebagai autoencoder yang jarang untuk membantu menjelaskan bagaimana model tersebut membuat prediksi mereka. Studi baru dari Berger’s Lab adalah yang pertama menggunakan algoritma ini pada model bahasa protein.
Autoencoders yang jarang bekerja dengan menyesuaikan bagaimana protein diwakili dalam jaringan saraf. Biasanya, protein yang diberikan akan diwakili oleh pola aktivasi sejumlah neuron yang dibatasi, misalnya, 480. Autoencoder yang jarang akan memperluas representasi itu menjadi jumlah node yang jauh lebih besar, katakanlah 20.000.
Ketika informasi tentang protein dikodekan oleh hanya 480 neuron, setiap node menyala untuk beberapa fitur, membuatnya sangat sulit untuk mengetahui fitur apa yang setiap node pengkodean. Namun, ketika jaringan saraf diperluas ke 20.000 node, ruang ekstra ini bersama dengan kendala sparsity memberikan ruang informasi untuk “menyebar.” Sekarang, fitur protein yang sebelumnya dikodekan oleh beberapa node dapat menempati satu node.
“Dalam representasi yang jarang, neuron yang menyala melakukannya dengan cara yang lebih bermakna,” kata Gujral. “Sebelum representasi jarang dibuat, jaringan mengemas informasi dengan sangat erat sehingga sulit untuk menafsirkan neuron.”
Model yang dapat ditafsirkan
Setelah para peneliti memperoleh representasi jarang dari banyak protein, mereka menggunakan asisten AI yang disebut Claude (terkait dengan chatbot antropik populer dengan nama yang sama), untuk menganalisis representasi. Dalam hal ini, mereka meminta Claude untuk membandingkan representasi yang jarang dengan fitur yang diketahui dari masing -masing protein, seperti fungsi molekuler, keluarga protein, atau lokasi dalam sel.
Dengan menganalisis ribuan representasi, Claude dapat menentukan node mana yang sesuai dengan fitur protein tertentu, kemudian menggambarkannya dalam bahasa Inggris biasa. Sebagai contoh, algoritma mungkin mengatakan, “Neuron ini tampaknya mendeteksi protein yang terlibat dalam transportasi transmembran ion atau asam amino, terutama yang terletak di membran plasma.”
Proses ini membuat node jauh lebih “dapat ditafsirkan,” yang berarti para peneliti dapat mengetahui apa yang dikode oleh masing -masing node. Mereka menemukan bahwa fitur yang paling mungkin dikodekan oleh node ini adalah keluarga protein dan fungsi -fungsi tertentu, termasuk beberapa proses metabolisme dan biosintetik yang berbeda.
“Ketika Anda melatih autoencoder yang jarang, Anda tidak melatihnya untuk dapat ditafsirkan, tetapi ternyata dengan memberi insentif representasi untuk benar -benar jarang, yang akhirnya menghasilkan interpretabilitas,” kata Gujral.
Memahami fitur apa yang dikode model protein dapat membantu para peneliti memilih model yang tepat untuk tugas tertentu, atau mengubah jenis input yang mereka berikan kepada model, untuk menghasilkan hasil terbaik. Selain itu, menganalisis fitur -fitur yang suatu hari encodes dapat membantu ahli biologi untuk mempelajari lebih lanjut tentang protein yang mereka pelajari.
“Pada titik tertentu ketika model menjadi jauh lebih kuat, Anda bisa belajar lebih banyak biologi daripada yang sudah Anda ketahui, dari membuka model,” kata Gujral.
Penelitian ini didanai oleh National Institutes of Health.