
Data sintetis secara artifisial dihasilkan oleh algoritma untuk meniru sifat statistik dari data aktual, tanpa berisi informasi apa pun dari sumber dunia nyata. Sementara angka konkret sulit dijabarkan, beberapa perkiraan menunjukkan bahwa lebih dari 60 persen data yang digunakan untuk aplikasi AI pada tahun 2024 adalah sintetis, dan angka ini diperkirakan akan tumbuh di seluruh industri.
Karena data sintetis tidak mengandung informasi dunia nyata, mereka memegang janji melindungi privasi sambil mengurangi biaya dan meningkatkan kecepatan di mana model AI baru dikembangkan. Tetapi menggunakan data sintetis memerlukan evaluasi, perencanaan, dan pemeriksaan dan keseimbangan yang cermat untuk mencegah hilangnya kinerja ketika model AI digunakan.
Untuk membongkar beberapa pro dan kontra menggunakan data sintetis,Berita MIT berbicara dengan Kalyan Veeramachaneni, seorang ilmuwan riset utama di laboratorium untuk sistem informasi dan keputusan dan salah satu pendiriDataCeboplatform terbuka-inti,lemari besi data sintetis,Membantu Pengguna menghasilkan dan menguji data sintetis.
Q: Bagaimana data sintetis dibuat?
A: Data sintetis dihasilkan secara algoritmik tetapi tidak berasal dari situasi nyata. Nilai mereka terletak pada kesamaan statistik mereka dengan data nyata. Jika kita berbicara tentang bahasa, misalnya, data sintetis terlihat sangat seolah -olah manusia telah menulis kalimat -kalimat itu. Sementara para peneliti telah membuat data sintetis untuk waktu yang lama, apa yang telah berubah dalam beberapa tahun terakhir adalah kemampuan kami untuk membangun model generatif dari data dan menggunakannya untuk membuat data sintetis yang realistis. Kita dapat mengambil sedikit data nyata dan membangun model generatif dari itu, yang dapat kita gunakan untuk membuat data sintetis sebanyak yang kita inginkan. Plus, model ini membuat data sintetis dengan cara yang menangkap semua aturan yang mendasari dan pola tak terbatas yang ada dalam data nyata.
Pada dasarnya ada empat modalitas data yang berbeda: bahasa, video atau gambar, audio, dan data tabel. Keempatnya memiliki cara yang sedikit berbeda untuk membangun model generatif untuk membuat data sintetis. LLM, misalnya, tidak lain adalah model generatif dari mana Anda mencicipi data sintetis ketika Anda mengajukan pertanyaan.
Banyak data bahasa dan gambar tersedia untuk umum di internet. Tetapi data tabel, yang merupakan data yang dikumpulkan ketika kita berinteraksi dengan sistem fisik dan sosial, sering dikurung di balik firewall perusahaan. Sebagian besar sensitif atau pribadi, seperti transaksi pelanggan yang disimpan oleh bank. Untuk jenis data ini, platform seperti Data Sintetic Data Vault menyediakan perangkat lunak yang dapat digunakan untuk membangun model generatif. Model -model tersebut kemudian membuat data sintetis yang mempertahankan privasi pelanggan dan dapat dibagikan secara lebih luas.
Satu hal yang kuat tentang pendekatan pemodelan generatif ini untuk mensintesis data adalah bahwa perusahaan sekarang dapat membangun model lokal yang disesuaikan untuk data mereka sendiri. AI generatif mengotomatiskan apa yang dulunya merupakan proses manual.
Q:Apa saja manfaat menggunakan data sintetis, dan kasus dan aplikasi penggunaan mana yang sangat cocok?
A: Salah satu aplikasi mendasar yang telah berkembang pesat selama dekade terakhir adalah menggunakan data sintetis untuk menguji aplikasi perangkat lunak. Ada logika berbasis data di balik banyak aplikasi perangkat lunak, sehingga Anda memerlukan data untuk menguji perangkat lunak itu dan fungsinya. Di masa lalu, orang telah menggunakan data secara manual, tetapi sekarang kita dapat menggunakan model generatif untuk membuat data sebanyak yang kita butuhkan.
Pengguna juga dapat membuat data spesifik untuk pengujian aplikasi. Katakanlah saya bekerja untuk perusahaan e-commerce. Saya dapat menghasilkan data sintetis yang meniru pelanggan nyata yang tinggal di Ohio dan melakukan transaksi yang berkaitan dengan satu produk tertentu pada bulan Februari atau Maret.
Karena data sintetis tidak diambil dari situasi nyata, mereka juga memelihara privasi. Salah satu masalah terbesar dalam pengujian perangkat lunak adalah mendapatkan akses ke data nyata yang sensitif untuk menguji perangkat lunak di lingkungan non-produksi, karena masalah privasi. Manfaat langsung lainnya adalah dalam pengujian kinerja. Anda dapat membuat miliar transaksi dari model generatif dan menguji seberapa cepat sistem Anda dapat memprosesnya.
Aplikasi lain di mana data sintetis memiliki banyak janji dalam pelatihan model pembelajaran mesin. Terkadang, kami ingin model AI membantu kami memprediksi suatu peristiwa yang lebih jarang. Bank mungkin ingin menggunakan model AI untuk memprediksi transaksi penipuan, tetapi mungkin ada terlalu sedikit contoh nyata untuk melatih model yang dapat mengidentifikasi penipuan secara akurat. Data sintetis memberikan augmentasi data – contoh data tambahan yang mirip dengan data nyata. Ini dapat secara signifikan meningkatkan akurasi model AI.
Juga, kadang -kadang pengguna tidak punya waktu atau sumber daya keuangan untuk mengumpulkan semua data. Misalnya, mengumpulkan data tentang niat pelanggan akan membutuhkan melakukan banyak survei. Jika Anda berakhir dengan data terbatas dan kemudian mencoba melatih model, itu tidak akan berkinerja baik. Anda dapat menambah dengan menambahkan data sintetis untuk melatih model -model tersebut dengan lebih baik.
Q.Apa saja risiko atau potensi jebakan menggunakan data sintetis, dan apakah ada langkah yang dapat diambil pengguna untuk mencegah atau mengurangi masalah tersebut?
A. Salah satu pertanyaan terbesar yang sering dimiliki orang dalam pikiran mereka adalah, jika data dibuat secara sintetis, mengapa saya harus mempercayai mereka? Menentukan apakah Anda dapat mempercayai data sering datang untuk mengevaluasi keseluruhan sistem di mana Anda menggunakannya.
Ada banyak aspek data sintetis yang telah kami evaluasi untuk waktu yang lama. Misalnya, ada metode yang ada untuk mengukur seberapa dekat data sintetis dengan data nyata, dan kami dapat mengukur kualitasnya dan apakah mereka mempertahankan privasi. Tetapi ada pertimbangan penting lainnya jika Anda menggunakan data sintetis itu untuk melatih model pembelajaran mesin untuk kasus penggunaan baru. Bagaimana Anda tahu data akan mengarah pada model yang masih membuat kesimpulan yang valid?
Metrik kemanjuran baru muncul, dan penekanannya sekarang pada kemanjuran untuk tugas tertentu. Anda harus benar -benar menggali alur kerja Anda untuk memastikan data sintetis yang Anda tambahkan ke sistem masih memungkinkan Anda untuk menarik kesimpulan yang valid. Itu adalah sesuatu yang harus dilakukan dengan hati-hati berdasarkan aplikasi per aplikasi.
Bias juga bisa menjadi masalah. Karena dibuat dari sejumlah kecil data nyata, bias yang sama yang ada dalam data nyata dapat dibawa ke dalam data sintetis. Sama seperti dengan data nyata, Anda perlu dengan sengaja memastikan bias dihapus melalui berbagai teknik pengambilan sampel, yang dapat membuat kumpulan data seimbang. Dibutuhkan beberapa perencanaan yang cermat, tetapi Anda dapat mengkalibrasi pembuatan data untuk mencegah proliferasi bias.
Untuk membantu proses evaluasi, grup kami membuat pustaka metrik data sintetis. Kami khawatir orang akan menggunakan data sintetis di lingkungan mereka dan itu akan memberikan kesimpulan yang berbeda di dunia nyata. Kami membuat pustaka metrik dan evaluasi untuk memastikan pemeriksaan dan saldo. Komunitas pembelajaran mesin telah menghadapi banyak tantangan dalam memastikan model dapat menggeneralisasi ke situasi baru. Penggunaan data sintetis menambahkan dimensi yang sama sekali baru untuk masalah itu.
Saya berharap bahwa sistem lama bekerja dengan data, apakah akan membangun aplikasi perangkat lunak, menjawab pertanyaan analitik, atau model kereta api, akan secara dramatis berubah karena kami menjadi lebih canggih dalam membangun model generatif ini. Banyak hal yang belum pernah kita lakukan sebelumnya sekarang akan mungkin terjadi.