
Apakah review film ini rave atau wajan? Apakah berita ini tentang bisnis atau teknologi? Apakah percakapan chatbot online ini beralih ke memberikan nasihat keuangan? Apakah situs informasi medis online ini memberikan informasi yang salah?
Percakapan otomatis semacam ini, apakah mereka melibatkan mencari tinjauan film atau restoran atau mendapatkan informasi tentang rekening bank atau catatan kesehatan Anda, menjadi semakin lazim. Lebih dari sebelumnya, evaluasi semacam itu dilakukan oleh algoritma yang sangat canggih, yang dikenal sebagai pengklasifikasi teks, bukan oleh manusia. Tetapi bagaimana kita bisa mengetahui seberapa akurat klasifikasi ini sebenarnya?
Sekarang, tim di Laboratorium MIT untuk sistem informasi dan keputusan (LIDS) telah menghasilkan pendekatan inovatif untuk tidak hanya mengukur seberapa baik pengklasifikasi ini melakukan pekerjaan mereka, tetapi kemudian melangkah lebih jauh dan menunjukkan bagaimana membuat mereka lebih akurat.
Perangkat lunak evaluasi dan remediasi baru dipimpin dan dikembangkan oleh Lei Xu bersama penelitian yang dilakukan oleh Sarah Alnegheimish, Kalyan Veeramachaneni, seorang ilmuwan penelitian utama di LIDS dan penulis senior, dengan dua lainnya. Paket perangkat lunak tersedia secara bebas untuk diunduh oleh siapa saja yang ingin menggunakannya.
Metode standar untuk menguji sistem klasifikasi ini adalah menciptakan apa yang dikenal sebagai contoh sintetis – kalimat yang sangat mirip dengan yang telah diklasifikasikan. Misalnya, para peneliti mungkin mengambil kalimat yang telah ditandai oleh program classifier sebagai ulasan rave, dan melihat apakah mengubah kata atau beberapa kata sambil mempertahankan makna yang sama bisa membodohi classifier agar menganggapnya panci. Atau kalimat yang bertekad sebagai informasi yang salah mungkin salah diklasifikasikan sebagai akurat. Kemampuan untuk menipu para pengklasifikasi ini membuat contoh -contoh permusuhan ini.
Orang -orang telah mencoba berbagai cara untuk menemukan kerentanan dalam pengklasifikasi ini, kata Veeramachaneni. Tetapi metode yang ada untuk menemukan kerentanan ini mengalami kesulitan dengan tugas ini dan kehilangan banyak contoh yang harus mereka tangkap, katanya.
Semakin banyak perusahaan yang mencoba menggunakan alat evaluasi tersebut secara real time, memantau output chatbots yang digunakan untuk berbagai tujuan untuk mencoba memastikan mereka tidak mengeluarkan tanggapan yang tidak tepat. Misalnya, bank dapat menggunakan chatbot untuk menanggapi permintaan pelanggan rutin seperti memeriksa saldo rekening atau mengajukan kartu kredit, tetapi ingin memastikan bahwa tanggapannya tidak akan pernah dapat ditafsirkan sebagai nasihat keuangan, yang dapat membuat perusahaan itu mengekspos kewajiban. “Sebelum menunjukkan tanggapan chatbot kepada pengguna akhir, mereka ingin menggunakan pengklasifikasi teks untuk mendeteksi apakah itu memberikan nasihat keuangan atau tidak,” kata Veeramachaneni. Tetapi penting untuk menguji classifier itu untuk melihat seberapa andal evaluasinya.
“Chatbots ini, atau mesin peringkasan atau yang lainnya sedang diatur di seluruh papan,” katanya, untuk berurusan dengan pelanggan eksternal dan dalam suatu organisasi juga, misalnya memberikan informasi tentang masalah SDM. Penting untuk memasukkan pengklasifikasi teks ini ke dalam loop untuk mendeteksi hal -hal yang tidak seharusnya mereka katakan, dan menyaringnya sebelum output ditransmisikan ke pengguna.
Di situlah penggunaan contoh -contoh permusuhan datang – kalimat -kalimat yang telah diklasifikasikan tetapi kemudian menghasilkan respons yang berbeda ketika mereka sedikit dimodifikasi sambil mempertahankan makna yang sama. Bagaimana orang dapat mengkonfirmasi bahwa artinya sama? Dengan menggunakan model bahasa besar lainnya (LLM) yang menafsirkan dan membandingkan makna. Jadi, jika LLM mengatakan kedua kalimat itu berarti hal yang sama, tetapi classifier memberi label secara berbeda, “itu adalah kalimat yang bersifat permusuhan – itu bisa membodohi classifier,” kata Veeramachaneni. Dan ketika para peneliti memeriksa kalimat-kalimat permusuhan ini, “kami menemukan bahwa sebagian besar waktu, ini hanyalah perubahan satu kata,” meskipun orang-orang yang menggunakan LLM untuk menghasilkan kalimat-kalimat alternatif ini sering tidak menyadarinya.
Investigasi lebih lanjut, menggunakan LLMS untuk menganalisis ribuan contoh, menunjukkan bahwa kata -kata spesifik tertentu memiliki pengaruh yang sangat besar dalam mengubah klasifikasi, dan oleh karena itu pengujian akurasi classifier dapat fokus pada subset kecil kata -kata yang tampaknya membuat perbedaan. Mereka menemukan bahwa sepersepuluh dari 1 persen dari semua 30.000 kata dalam kosakata sistem dapat menjelaskan hampir setengah dari semua pembalikan klasifikasi ini, dalam beberapa aplikasi tertentu.
Lei Xu PhD ’23, lulusan baru dari kelopak yang melakukan banyak analisis sebagai bagian dari karya tesisnya, “menggunakan banyak teknik estimasi menarik untuk mencari tahu kata -kata paling kuat apa yang dapat mengubah klasifikasi keseluruhan, yang dapat membodohi pengklasifikasi,” kata Veeramachaneni. Tujuannya adalah untuk memungkinkan untuk melakukan pencarian yang jauh lebih sempit, daripada menyisir semua substitusi kata yang mungkin, sehingga membuat tugas komputasi untuk menghasilkan contoh -contoh permusuhan yang jauh lebih mudah dikelola. “Dia menggunakan model bahasa besar, cukup menarik, sebagai cara untuk memahami kekuatan satu kata.”
Kemudian, juga menggunakan LLMS, ia mencari kata -kata lain yang terkait erat dengan kata -kata yang kuat ini, dan sebagainya, memungkinkan peringkat kata secara keseluruhan sesuai dengan pengaruhnya terhadap hasil. Setelah kalimat -kalimat permusuhan ini ditemukan, mereka dapat digunakan pada gilirannya untuk melatih kembali classifier untuk memperhitungkannya, meningkatkan ketahanan classifier terhadap kesalahan tersebut.
Membuat pengklasifikasi lebih akurat mungkin tidak terdengar seperti masalah besar jika hanya masalah mengklasifikasikan artikel berita ke dalam kategori, atau memutuskan apakah ulasan tentang apa pun dari film hingga restoran adalah positif atau negatif. Tetapi semakin banyak, pengklasifikasi digunakan dalam pengaturan di mana hasilnya benar -benar penting, apakah mencegah pelepasan informasi medis, keuangan, atau keamanan yang tidak sengaja, atau membantu memandu penelitian penting, seperti ke dalam sifat -sifat senyawa kimia atau lipat protein untuk aplikasi biomedis, atau dalam mengidentifikasi dan memblokir kau kebencian atau kesalahan informasi yang diketahui.
Sebagai hasil dari penelitian ini, tim memperkenalkan metrik baru, yang mereka sebut P, yang memberikan ukuran tentang seberapa kuat classifier yang diberikan terhadap serangan kata tunggal. Dan karena pentingnya kesalahan klasifikasi seperti itu, tim peneliti telah membuat produknya tersedia sebagai akses terbuka untuk digunakan siapa saja. Paket ini terdiri dari dua komponen: SP-Attack, yang menghasilkan kalimat-kalimat yang bermusuhan untuk menguji pengklasifikasi dalam aplikasi tertentu, dan pertahanan SP, yang bertujuan untuk meningkatkan ketahanan classifier dengan menghasilkan dan menggunakan kalimat permusuhan untuk melatih kembali model.
Dalam beberapa tes, di mana metode yang bersaing untuk menguji output classifier memungkinkan tingkat keberhasilan 66 persen dengan serangan permusuhan, sistem tim ini memotong tingkat keberhasilan serangan hampir setengahnya, menjadi 33,7 persen. Dalam aplikasi lain, peningkatannya hanya sedikit perbedaan 2 persen, tetapi bahkan itu bisa sangat penting, kata Veeramachaneni, karena sistem ini digunakan untuk begitu banyak miliaran interaksi sehingga bahkan sebagian kecil dapat mempengaruhi jutaan transaksi.
Hasil tim diterbitkan pada 7 Juli di jurnal Sistem ahli Di Kertas oleh Xu, Veerachanami, dan Alnegheimish of Lids, bersama dengan Laure Berti-Equille dan IRD di Marseille, Prancis, dan Alfredo Cuesta-Infante di Universitas Carlos, di Spanyol.