Kecerdasan buatan

Identitas Asli Dapat Dipulihkan Dari Dataset Sintetis

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Jika tahun 2022 menandai saat potensi gangguan AI generatif pertama kali menarik perhatian luas, 2024 telah menjadi tahun ketika pertanyaan tentang legalitas data yang mendasarinya telah menjadi pusat perhatian untuk bisnis yang ingin memanfaatkan kekuatannya.

Doktrin penggunaan wajar di AS, bersama dengan lisensi akademis implisit yang telah lama memungkinkan sektor penelitian akademik dan komersial untuk mengeksplorasi AI generatif, menjadi semakin tidak dapat dipertahankan karena bukti plagiarisme yang meningkat. Selanjutnya, AS telah, untuk saat ini, melarang konten yang dihasilkan AI untuk dilindungi hak cipta.

Masalah ini jauh dari terselesaikan, dan jauh dari diselesaikan dalam waktu dekat; pada 2023, sebagian karena meningkatnya kekhawatiran media dan publik tentang status hukum output AI, Kantor Hak Cipta AS meluncurkan penyelidikan berlangsung beberapa tahun ke aspek AI generatif ini, menerbitkan bagian pertama (mengenai replika digital) pada Juli 2024.

Sementara itu, kepentingan bisnis tetap frustrasi oleh kemungkinan bahwa model mahal yang mereka inginkan untuk dimanfaatkan dapat memaparkan mereka pada konsekuensi hukum ketika legislasi dan definisi definitif akhirnya muncul.

Solusi mahal jangka pendek telah menjadi melegitimasi model generatif dengan melatih mereka pada data yang perusahaan memiliki hak untuk dimanfaatkan. Arsitektur Firefly Adobe, yang merupakan teks-ke-gambar (dan sekarang teks-ke-video), didukung terutama oleh pembelian dataset gambar stok Fotolia pada 2014, dilengkapi dengan penggunaan data domain publik yang telah kedaluwarsa hak ciptanya*. Pada saat yang sama, penyedia foto stok mapan seperti Getty dan Shutterstock telah memanfaatkan nilai baru dari data lisensi mereka, dengan jumlah kesepakatan yang meningkat untuk melisensikan konten atau mengembangkan sistem GenAI yang sesuai dengan IP mereka.

Solusi Sintetis

Karena menghapus data hak cipta dari ruang laten yang dilatih dari model AI adalah penuh masalah, kesalahan dalam area ini bisa sangat mahal bagi perusahaan yang bereksperimen dengan solusi konsumen dan bisnis yang menggunakan pembelajaran mesin.

Solusi alternatif, dan jauh lebih murah, untuk sistem visi komputer (dan juga Model Bahasa Besar, atau LLM), adalah penggunaan data sintetis, di mana dataset terdiri dari contoh acak dari domain target (seperti wajah, kucing, gereja, atau bahkan dataset yang lebih umum).

Situs seperti thispersondoesnotexist.com telah lama mempopulerkan gagasan bahwa foto yang terlihat asli dari ‘orang tidak nyata’ dapat disintesis (dalam kasus tertentu, melalui Jaringan Adversarial Generatif, atau GAN) tanpa memiliki hubungan dengan orang yang benar-benar ada di dunia nyata.

Oleh karena itu, jika Anda melatih sistem pengenalan wajah atau sistem generatif pada contoh abstrak dan tidak nyata, Anda dapat, secara teori, mendapatkan standar produktivitas yang fotorealistis untuk model AI tanpa perlu mempertimbangkan apakah data tersebut dapat digunakan secara hukum.

Keseimbangan

Masalahnya adalah bahwa sistem yang menghasilkan data sintetis itu sendiri dilatih pada data nyata. Jika jejak data tersebut bocor ke dalam data sintetis, ini berpotensi memberikan bukti bahwa materi yang terbatas atau tidak sah telah dimanfaatkan untuk keuntungan moneter.

Untuk menghindari ini, dan untuk menghasilkan citra yang benar-benar ‘acak’, model tersebut perlu memastikan bahwa mereka telah umum dengan baik. Generalisasi adalah ukuran kemampuan model AI yang dilatih untuk memahami konsep tingkat tinggi (seperti ‘wajah’, ‘pria’, atau ‘wanita’) tanpa mengandalkan replikasi data pelatihan yang sebenarnya.

Sayangnya, bisa sulit bagi sistem yang dilatih untuk menghasilkan (atau mengenali) detail granular kecuali mereka dilatih secara ekstensif pada dataset. Ini memaparkan sistem pada risiko memorisasi: kecenderungan untuk mereproduksi, sampai batas tertentu, contoh data pelatihan yang sebenarnya.

Ini dapat diminimalkan dengan menetapkan tingkat pembelajaran yang lebih santai, atau dengan mengakhiri pelatihan pada tahap di mana konsep inti masih fleksibel dan tidak terkait dengan titik data tertentu (seperti gambar tertentu dari seseorang, dalam kasus dataset wajah).

Namun, kedua solusi ini kemungkinan akan menghasilkan model dengan detail yang kurang granular, karena sistem tidak mendapatkan kesempatan untuk melampaui ‘dasar’ dari domain target, dan turun ke spesifik.

Oleh karena itu, dalam literatur ilmiah, tingkat pembelajaran yang sangat tinggi dan jadwal pelatihan yang komprehensif umumnya diterapkan. Meskipun peneliti biasanya mencoba untuk membalans antara aplikasi yang luas dan granularitas dalam model akhir, bahkan sistem yang sedikit ‘memorized’ dapat sering menyamar sebagai umum dengan baik – bahkan dalam tes awal.

Wajah Terungkap

Ini membawa kita pada karya penelitian baru dari Swiss, yang mengklaim sebagai yang pertama untuk menunjukkan bahwa gambar asli yang mendasari data sintetis dapat dipulihkan dari gambar yang dihasilkan yang seharusnya sepenuhnya acak:

Contoh gambar wajah yang bocor dari data pelatihan. Pada baris atas, kita lihat gambar asli (nyata); pada baris bawah, kita lihat gambar yang dihasilkan secara acak, yang sesuai secara signifikan dengan gambar nyata. Sumber: https://arxiv.org/pdf/2410.24015

Hasilnya, menurut penulis, menunjukkan bahwa ‘generator sintetis’ telah memang memorized sejumlah besar titik data pelatihan, dalam pencarian mereka untuk granularitas yang lebih besar. Mereka juga menunjukkan bahwa sistem yang mengandalkan data sintetis untuk melindungi produsen AI dari konsekuensi hukum bisa sangat tidak dapat diandalkan dalam hal ini.

Peneliti melakukan studi ekstensif pada enam dataset sintetis yang mutakhir, menunjukkan bahwa dalam semua kasus, data asli (yang berpotensi dilindungi hak cipta atau dilindungi) dapat dipulihkan. Mereka mengomentari:

‘Eksperimen kami menunjukkan bahwa dataset pengenalan wajah sintetis yang mutakhir berisi sampel yang sangat dekat dengan sampel dalam data pelatihan model generator mereka. Dalam beberapa kasus, sampel sintetis berisi perubahan kecil pada gambar asli, namun, kita juga dapat mengamati dalam beberapa kasus sampel yang dihasilkan berisi variasi lebih besar (misalnya, pose yang berbeda, kondisi cahaya, dll.) sementara identitasnya dipertahankan.

‘Ini menunjukkan bahwa model generator mempelajari dan memorized informasi terkait identitas dari data pelatihan dan mungkin menghasilkan identitas yang serupa. Ini menciptakan kekhawatiran kritis mengenai penerapan data sintetis dalam tugas yang sensitif terhadap privasi, seperti biometrik dan pengenalan wajah.’

Makalah ini berjudul Mengungkap Wajah Sintetis: Bagaimana Dataset Sintetis Dapat Mengungkap Identitas Nyata, dan berasal dari dua peneliti di Institut Penelitian Idiap di Martigny, École Polytechnique Fédérale de Lausanne (EPFL), dan Université de Lausanne (UNIL) di Lausanne.

Metode, Data, dan Hasil

Wajah yang memorized dalam studi ini diungkapkan oleh Serangan Inferensi Keanggotaan. Meskipun konsepnya terdengar rumit, ini cukup menjelaskan dirinya: inferensi keanggotaan, dalam kasus ini, merujuk pada proses mengajukan pertanyaan pada sistem sampai sistem tersebut mengungkapkan data yang sama dengan data yang Anda cari, atau sangat mirip dengannya.

Contoh lebih lanjut dari sumber data yang diinfer, dari studi. Dalam kasus ini, gambar sintetis sumber berasal dari dataset DCFace.

Peneliti mempelajari enam dataset sintetis untuk mana sumber dataset asli (nyata) diketahui. Karena baik dataset nyata maupun sintetis yang dipertanyakan berisi volume gambar yang sangat tinggi, ini efektif seperti mencari jarum di tumpukan jerami.

Oleh karena itu, penulis menggunakan model pengenalan wajah off-the-shelf^† dengan backbone ResNet100 yang dilatih pada fungsi kerugian AdaFace (pada dataset WebFace12M).

Enam dataset sintetis yang digunakan adalah: DCFace (model difusi laten); IDiff-Face (Uniform – model difusi berdasarkan FFHQ); IDiff-Face (Dua-tahap – varian yang menggunakan metode sampling yang berbeda); GANDiffFace (berdasarkan Jaringan Adversarial Generatif dan model difusi, menggunakan StyleGAN3 untuk menghasilkan identitas awal, dan kemudian DreamBooth untuk membuat contoh yang bervariasi); IDNet (metode GAN, berdasarkan StyleGAN-ADA); dan SFace (kerangka kerja yang melindungi identitas).

Karena GANDiffFace menggunakan baik GAN dan metode difusi, ini dibandingkan dengan dataset pelatihan StyleGAN – yang paling dekat dengan ‘asli’ yang jaringan ini berikan.

Penulis mengecualikan dataset sintetis yang menggunakan CGI daripada metode AI, dan dalam mengevaluasi hasil, mengabaikan kecocokan untuk anak-anak, karena anomali distribusional dalam hal ini, serta gambar non-wajah (yang dapat sering terjadi dalam dataset wajah, di mana sistem web-scraping menghasilkan false positif untuk objek atau artefak yang memiliki kualitas wajah).

Kesamaan kosin dihitung untuk semua pasangan yang diperoleh, dan dihubungkan menjadi histogram, diilustrasikan di bawah:

Representasi histogram untuk skor kesamaan kosin yang dihitung di seluruh dataset yang beragam, bersama dengan nilai kesamaan mereka untuk pasangan top-k (garis vertikal putus-putus).

Jumlah kesamaan direpresentasikan dalam puncak pada grafik di atas. Makalah ini juga menampilkan perbandingan contoh dari enam dataset, dan gambar yang diestimasi mereka dalam dataset asli (nyata), dari mana beberapa pilihan ditampilkan di bawah:

Contoh dari banyak contoh yang direproduksi dalam makalah sumber, yang merujuk pembaca untuk pilihan yang lebih komprehensif.

Makalah ini mengomentari:

‘[Dataset sintetis yang dihasilkan] berisi gambar yang sangat mirip dengan gambar dalam dataset pelatihan model generator mereka, yang menimbulkan kekhawatiran tentang generasi identitas tersebut.’

Penulis mencatat bahwa untuk pendekatan ini, penskalaan ke dataset yang lebih besar kemungkinan akan tidak efisien, karena perhitungan yang diperlukan akan sangat berat. Mereka mengamati lebih lanjut bahwa perbandingan visual diperlukan untuk menginfer kecocokan, dan bahwa pengenalan wajah otomatis saja tidak mungkin cukup untuk tugas yang lebih besar.

Mengenai implikasi penelitian, dan dengan pandangan ke depan, karya ini menyatakan:

‘[Kami] ingin menekankan bahwa motivasi utama untuk menghasilkan dataset sintetis adalah untuk mengatasi kekhawatiran privasi dalam menggunakan dataset wajah yang besar yang diambil dari web.

‘Oleh karena itu, kebocoran informasi sensitif apa pun (seperti identitas gambar nyata dalam data pelatihan) dalam dataset sintetis menimbulkan kekhawatiran kritis mengenai penerapan data sintetis untuk tugas yang sensitif terhadap privasi, seperti biometrik. Studi kami memperlihatkan jalan bagi penelitian masa depan untuk menghasilkan dataset sintetis wajah yang bertanggung jawab.’

Meskipun penulis berjanji untuk merilis kode untuk karya ini di halaman proyek, tidak ada tautan repositori saat ini.

Kesimpulan

Baru-baru ini, perhatian media telah menekankan pada pengembalian yang menurun yang diperoleh dengan melatih model AI pada data yang dihasilkan AI.

Penelitian Swiss baru, bagaimanapun, membawa ke fokus pertimbangan yang mungkin lebih mendesak untuk jumlah perusahaan yang tumbuh yang ingin memanfaatkan dan memperoleh keuntungan dari AI generatif – persistensi pola data yang dilindungi IP atau tidak sah, bahkan dalam dataset yang dirancang untuk melawan praktik ini. Jika kita harus memberinya definisi, dalam kasus ini mungkin disebut ‘pencucian wajah’.

* Namun, keputusan Adobe untuk mengizinkan gambar yang dihasilkan AI yang diunggah pengguna ke Adobe Stock telah efektif melemahkan ‘kemurnian’ hukum dari data ini. Bloomberg menyatakan pada April 2024 bahwa gambar yang dihasilkan AI yang diunggah pengguna dari sistem AI generatif MidJourney telah dimasukkan ke dalam kemampuan Firefly.

^† Model ini tidak diidentifikasi dalam makalah.

Dipublikasikan pertama kali pada Rabu, 6 November 2024