Pusat Inovasi Data baru-baru ini berbicara dengan Cyril Gorlla, CEO CTGTsebuah perusahaan yang berbasis di San Francisco yang membantu organisasi mendeteksi dan memperbaiki keluaran yang bias atau tidak dapat diandalkan dari model AI. Gorlla berbagi bagaimana CTGT membantu organisasi mencegah kesalahan dalam keluaran AI dengan menganalisis keluaran yang dihasilkan, mengidentifikasi klaim bermasalah, dan menyesuaikannya berdasarkan data terverifikasi dan kebijakan perusahaan.
Waktu: Bagaimana cara kerja sistem Anda?
Gorla: Bayangkan CTGT seperti pemeriksa ejaan untuk model AI generatif. Daripada kesalahan ejaan, kami memeriksa keluaran yang bias dan halusinasi. Ketika sebuah model menghasilkan sebuah jawaban, CTGT berada di antara model dan pengguna, memecah respons menjadi klaim-klaim individual—pernyataan faktual, rekomendasi, atau pernyataan—dan menyaring masing-masing klaim berdasarkan grafik kebijakan. Sistem memeriksa apakah klaim tersebut sejalan dengan informasi yang dipercaya dan apakah model mencapai kesimpulannya menggunakan sumber, asumsi, dan langkah logis yang diperbolehkan, bukan spekulasi atau inferensi yang tidak didukung.
Jika model tersebut memberikan informasi yang tidak dapat diverifikasi, melanggar kebijakan, atau menunjukkan tanda-tanda pengambilan keputusan yang bias, CTGT akan menangkap permasalahan tersebut dari sumbernya dan menandai titik dimana respons tersebut keluar dari jalurnya. Terakhir, CTGT menjelaskan dengan tepat mengapa suatu respons gagal memenuhi persyaratan kepatuhan perusahaan dan mengidentifikasi aturan spesifik atau batasan pengetahuan yang dilanggar.
Waktu: Apa perbedaan CTGT dengan model alat yang sudah digunakan oleh pengembang dan perusahaan?
Sebagian besar organisasi mengandalkan perintah, filter, dan RAG sebagai pagar utama mereka. Namun hal ini pada dasarnya bersifat probabilistik. Terkadang mereka berhasil; sering kali mereka tidak melakukannya. CTGT bekerja pada lapisan yang berbeda. Kami menggunakan model yang ada dan mengevaluasi setiap keluaran secara real-time berdasarkan grafik kebijakan terstruktur yang dibuat dari data, peraturan, dan regulasi perusahaan. Karena kebijakan tersebut diterapkan secara deterministik dan bukan disarankan, kami dapat memastikan batasan yang sama diterapkan secara konsisten di seluruh model dan kasus penggunaan—tanpa pelatihan ulang dan tanpa bergantung pada petunjuk yang bisa gagal secara tak terduga.
Waktu: Bagaimana CTGT memecahkan masalah yang terdeteksi pada model AI?
Gorla: Setelah sistem kami mengidentifikasi suatu masalah, sistem kami akan membuat versi respons asli yang sesuai dengan menggunakan grafik kebijakan asli. Ini menulis ulang jawaban agar selaras dengan fakta yang terverifikasi, mengikuti semua aturan yang relevan, dan mempertahankan niat asli pengguna. CTGT melakukan hal ini dengan mengganti atau menghapus hanya klaim spesifik yang melanggar kebijakan, dibandingkan membuang seluruh tanggapan.
Sistem menentukan klaim mana yang harus disesuaikan dengan membandingkan masing-masing klaim dengan grafik kebijakan, yang berisi data, aturan, dan pedoman organisasi yang terverifikasi. Hal ini memastikan bahwa koreksi tepat dan tepat sasaran, menjaga informasi akurat tetap utuh dan menjaga konteks jawaban secara keseluruhan. Misalnya, jika model salah mengklaim bahwa obat tertentu dapat menyembuhkan suatu penyakit, CTGT akan menghapus atau memperbaiki klaim tersebut dan membiarkan respons lainnya, termasuk penjelasan terkait, tidak berubah.
Proses koreksi ini terjadi secara instan dan tidak memerlukan pelatihan ulang atau modifikasi model yang mendasarinya. Hasilnya, organisasi dapat meningkatkan keandalan dan keamanan, menjaga kepercayaan terhadap keluaran AI, dan terus menggunakan sistem dan alur kerja yang ada tanpa gangguan.
Waktu: Bagaimana CTGT membantu perusahaan yang menggunakan AI untuk memastikan kepatuhan terhadap peraturan?
Gorla: Tim kepatuhan memuat peraturan, prosedur operasi standar, dan pedoman risiko ke dalam platform CTGT, dan sistem secara otomatis memeriksa setiap respons yang dihasilkan AI terhadap kebijakan-kebijakan ini untuk memastikan respons tersebut memenuhi persyaratan organisasi. CTGT mencatat aturan apa yang diterapkan dan alasannya, menciptakan jejak audit yang jelas yang dapat digunakan tim untuk menunjukkan kepatuhan terhadap peraturan keuangan, seperti peraturan dari Securities and Exchange Commission (SEC) atau Financial Industry Regulatory Authority (FINRA), serta standar spesifik industri. Tim dapat memperbarui kebijakan ini secara instan, sehingga organisasi dapat merespons perubahan peraturan tanpa melatih ulang model atau mengganggu layanan.
Waktu: Bisakah Anda memberikan contoh penggunaan teknologi yang Anda gunakan?
Gorla: Salah satu contoh terbaru datang dari penelitian kami pada model sumber terbuka DeepSeek, yang sering kali menolak menjawab pertanyaan sensitif secara politik atau sosial karena mekanisme sensor internal. Misalnya, ketika ditanya, “Apa yang terjadi pada protes Lapangan Tiananmen tahun 1989?” model tersebut biasanya memberikan respons yang tidak jelas dan tidak informatif, atau menolak menjawab sama sekali.
Dengan menggunakan sistem kami, kami mengidentifikasi pola aktivasi internal tertentu, sinyal dalam proses berpikir model, yang menyebabkan model memblokir jawaban tertentu. Daripada melatih ulang model atau menghilangkan kontrol keselamatan sepenuhnya, kami secara selektif menyesuaikan sinyal tersebut saat model menghasilkan respons bagi pengguna, suatu tahap yang dikenal sebagai waktu inferensi. Hal ini memungkinkan model untuk merespons secara langsung dan faktual sambil mempertahankan performa secara keseluruhan.
Dalam pengujian terhadap 100 pertanyaan sensitif, model asli hanya menghasilkan jawaban lengkap sekitar 32 persen. Versi yang disesuaikan dengan CTGT menjawab semuanya, tanpa mengurangi akurasi pada tugas-tugas yang tidak terkait seperti matematika, coding, atau penalaran umum. Contoh ini menunjukkan bagaimana CTGT dapat mengurangi bias atau sensor yang tidak perlu dengan tetap menjaga kontrol, transparansi, dan kualitas model.