Pusat Inovasi Data baru -baru ini berbicara dengan Ben Luria, CEO Angsasebuah perusahaan yang berbasis di Israel yang membangun alat pengeditan model resolusi tinggi untuk mengatasi halusinasi, bias, dan kelemahan keamanan dalam model bahasa besar (LLM). Luria membahas bagaimana platform perusahaan menggunakan pendekatan berbasis redaksi untuk mengidentifikasi dan menghapus perilaku yang tidak diinginkan dari sistem AI untuk membuatnya lebih akurat dan dapat dipercaya.
David berkata: Apa kesulitan dalam memperbaiki masalah dalam model AI terlatih?
Ben Luria: Tantangan inti adalah bahwa begitu model dilatih atau disesuaikan, itu mahal dan memakan waktu untuk secara selektif menghapus informasi atau perilaku spesifik. Ini seperti mencoba melupakan satu memori; Setelah dipelajari, pengetahuan itu sangat terjalin ke dalam struktur jaringan saraf. Untuk bisnis, ini menciptakan risiko nyata: model dapat mempertahankan materi pribadi atau berhak cipta atau menunjukkan bias berbahaya. Selain itu, di luar bias, informasi tertanam juga dapat muncul kembali secara tidak terduga, yang mengarah ke halusinasi atau membuka kerentanan keamanan. Sama seperti ingatan manusia dapat secara tidak sadar membentuk perilaku, pengetahuan model tersembunyi dapat disalahgunakan atau dieksploitasi dengan cara yang berbahaya.
Namun, di Hirundo kami telah mengembangkan solusi untuk masalah ini. Platform Unearning Machine kami dengan cepat dan efektif menghapus informasi spesifik dari LLMS. Kami dapat menghapus informasi yang dapat diidentifikasi secara pribadi, pengetahuan rahasia, dan perilaku beracun tanpa melatih kembali, membuat model yang diberikan lebih akurat, dapat dipercaya, dan sesuai.
Diperlukan: Bagaimana pendekatan Hirundo berbeda dari yang lain?
LURIA: Sebagian besar industri mencoba meningkatkan model dengan menambahkan data baru atau membangun pagar eksternal. Pendekatan kami berbeda, kami fokus pada redaksi daripada penambahan. Menggunakan apa yang kami sebut metode “bedah saraf”, mesin kami menunjukkan di mana informasi atau perilaku yang tidak diinginkan dikodekan dalam bobot dan vektor model, kemudian secara operasi mengubah nilai -nilai spesifik ini, secara efektif menghapus mereka dari memori model tanpa mempengaruhi sisa pengetahuannya.
Proses ini mengurangi halusinasi, bias, dan kerentanan lebih dari 50 persen dalam waktu pemrosesan yang singkat. Tidak seperti penelitian yang tidak belajar sendiri sebelumnya, yang sering menyebabkan kerusakan jaminan atau tidak dapat diukur, pekerjaan kami memberikan solusi berulang yang siap-produksi yang mempertahankan utilitas keseluruhan model.
Diperlukan: Siapa yang mendapat nilai paling banyak dari menggunakan Hirundo?
LURIA: Kami membawa nilai terbanyak bagi tim yang bekerja pada sistem AI yang kritis-misi, berisiko tinggi, atau diatur. Enterprise LLM dan tim sains data menggunakan kami untuk mengurangi risiko seperti halusinasi dan pelanggaran privasi, sementara tim keselamatan AI dan AI yang bertanggung jawab mengandalkan kami untuk meminimalkan risiko organisasi. Kami juga bekerja dengan Frontier AI Labs yang menghabiskan waktu yang signifikan pada perbaikan pasca-pelatihan, platform kami memperpendek siklus iterasi mereka dan meningkatkan hasil.
Diperlukan: Perbaikan terukur apa yang disampaikan oleh mesin yang tidak dikeluarkan?
LURIA: Perbedaan utama adalah bahwa Hirundo mengubah model itu sendiri, bukan hanya outputnya. Pagar dan filter bertindak seperti firewall eksternal yang dapat dilewati, tetapi platform untung mesin kami mengubah representasi internal yang menyebabkan halusinasi, bias, atau kerentanan jailbreak.
Ini telah memberikan hasil tingkat perusahaan: hingga 85 persen lebih sedikit kerentanan jailbreak, lebih dari 55 persen lebih sedikit halusinasi dan respons yang bias, dan stabilitas model keseluruhan yang lebih kuat. Dengan memperbaiki “kabel mental” yang salah di dalam model, kami membuat sistem AI lebih dapat diandalkan, sesuai, dan selaras dengan tujuan bisnis, tanpa melatih kembali.
Diperlukan: Bagaimana seharusnya para pemimpin bisnis berpikir tentang AI yang tidak belajar?
LURIA: Pikirkan mesin yang tidak belajar sebagai pria dalam neuralyzer hitam, hanya menghapus kenangan dan refleks yang tidak Anda inginkan. Dalam praktiknya, ia mengubah pengembangan AI dari proses tumpul perbaikan percobaan dan kesalahan menjadi penyesuaian yang lebih terkontrol, membuat model lebih aman, lebih andal, dan lebih mudah untuk menyelaraskan dengan persyaratan yang berkembang. Ini juga memungkinkan tim untuk merespons dengan cepat ketika risiko baru muncul. Seiring waktu, ini menciptakan sistem AI yang tetap mudah beradaptasi dan dapat dipercaya sebagai bisnis, peraturan, dan kebutuhan keamanan berkembang. Pada akhirnya, meletakkan fondasi untuk AI yang dapat mengimbangi harapan masyarakat, skaling secara bertanggung jawab tanpa mengorbankan keamanan atau kontrol.