Connect with us

Sudut Anderson

Metode Pencucian IP di AI

mm
An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

Jika ada penyelesaian hukum yang akan datang atas penggunaan kekayaan intelektual dalam pelatihan AI, ada beberapa metode untuk mengaburkan penggunaan tersebut.

 

Opini Revolusi AI generatif saat ini yang sedang berkembang dengan cepat terjadi dalam lingkungan hukum yang paling tidak stabil yang telah menyertai setiap perkembangan teknologi transformasional sejak abad ke-19.

Sampai 3-4 tahun yang lalu, komunitas penelitian pembelajaran mesin menikmati izin tersirat (sering eksplisit) untuk mengeksploitasi materi yang dilindungi IP dalam pengembangan sistem baru; karena sistem ini belum berhasil, dalam arti belum matang atau layak secara komersial, hasilnya, dalam setiap arti, akademis.

Dalam periode tersebut, kesuksesan tiba-tiba dari generasi baru model bahasa besar berbasis difusi (LLM, seperti ChatGPT dan Claude) dan Model Bahasa-Visi (VLM, seperti Sora) menandakan bahwa benang-benang penelitian abstrak dan sebelumnya ‘tidak berbahaya’ ini telah berkembang menjadi layak secara komersial, dan outgrown ‘free pass’ mereka, sejauh penggunaan kekayaan intelektual orang lain yang bersangkutan.

Dari sekarang, pemegang hak akan mencari bagian dalam hasil sistem AI yang dilatih sebagian besar atau sebagian pada data yang dilindungi hak cipta atau dilindungi lainnya, yang menyebabkan avalanche kasus hukum yang sedang berlangsung yang memerlukan usaha untuk bahkan memantau.

Terbatas hanya pada kasus yang dibawa di AS, kasus baru muncul dengan kecepatan yang frenetik di Amerika Serikat dan di luar negeri. Sumber - https://copyrightalliance.org/artificial-intelligence-copyright/court-cases/

Di sini terbatas hanya pada kasus yang dibawa di AS, kasus baru muncul dengan kecepatan yang frenetik di Amerika Serikat dan di luar negeri. Sumber

Mengharuskan ‘Makan Siang Gratis’

Komitmen keuangan saat ini terjadi sehubungan dengan infrastruktur AI telah dipostulatkan oleh beberapa suara sebagai upaya untuk mengukuhkan ‘bahaya hak cipta’ AI sehingga dalam di dalam ekonomi masyarakat sehingga menjadi tidak hanya ‘terlalu besar untuk gagal’, tetapi juga ‘terlalu kuat untuk digugat’ – atau terlalu kuat, setidaknya, sehingga gugatan yang sukses bisa diizinkan untuk mengguncang revolusi.

Terhadap sentimen umum ini, presiden saat ini Amerika Serikat mengkomitmen ke dalam kebijakan pandangannya bahwa ‘Anda tidak bisa diharapkan memiliki program AI yang sukses ketika setiap artikel, buku, atau apa pun yang telah Anda baca atau pelajari, Anda harus membayarnya’.

Benarkah? Tidak ada yang sama atau dapat dibandingkan yang telah terjadi dalam era industri Barat, dan ini mewakili gerakan yang menggosok dengan keras terhadap budaya tradisional AS dari litigasi dan reparasi; mungkin posisi yang paling mirip adalah kedaluwarsa wajib paten obat setelah 20 tahun (yang sendiri sering diserang), dan batasan pada harapan privasi di tempat umum.

Namun, waktu berubah; dalam ketiadaan jaminan bahwa tren saat ini menuju ‘domain yang ditekan’ terhadap perlindungan IP tidak akan gagal, atau bahkan dibalik nanti, ada beberapa pendekatan sekunder yang menjadi praktik standar dalam pengembangan sistem AI, dan perlakuan data pelatihan yang sangat diperdebatkan yang memungkinkannya.

Dataset-by-Proxy

Salah satu pendekatan ini mengambil pendekatan yang sangat mirip dengan pertahanan oleh situs torrent-daftar yang mereka tidak benar-benar menyimpan materi yang diperdebatkan – atau materi apa pun.

Selain menghilangkan kebutuhan untuk menyimpan dan melayani jumlah besar data gambar atau video yang minimally-kompres, koleksi semacam ini memungkinkan pembaruan yang cepat – seperti penghapusan materi atas permintaan pemegang hak cipta – dan versi.

Sama seperti torrent hanya tanda-tanda ke mana materi yang dilindungi IP dapat ditemukan, sejumlah dataset yang sangat berpengaruh hanya ‘pointer’-style daftar data yang ada; jika pengguna akhir ingin menggunakan daftar ini sebagai daftar unduhan untuk dataset mereka sendiri, itu tergantung pada mereka, sejauh kewajiban kurator yang bersangkutan.

Di antara ini adalah dataset Conceptual 12M dari Google Research, yang menyediakan keterangan untuk gambar, tetapi hanya menunjuk ke lokasi di web di mana gambar-gambar ini ada (atau ada pada saat kurasi):

Dua contoh dari kurasi Conceptual 12M. Sumber - https://github.com/google-research-datasets/conceptual-12m/blob/main/images/cc12m_1.jpg

Dua contoh dari kurasi Conceptual 12M. Sumber

Contoh lain yang menonjol, dan yang sekarang memiliki klaim yang valid untuk reverensi dalam sejarah AI, adalah dataset LAION yang memfasilitasi kemunculan sistem generatif Stable Diffusion pada 2022 – sistem generatif pertama yang menawarkan gambar generatif terbuka kepada pengguna akhir, ketika sistem propietary tampaknya akan menetapkan layanan semacam itu sebagai domain komersial yang murni:

Salah satu varian dari proyek LAION, menampilkan karya seni modern dan berhak cipta. Sumber - https://huggingface.co/datasets/laion/relaion-pop/viewer/default/train

Salah satu varian dari proyek LAION, menampilkan karya seni modern dan berhak cipta. Sumber

Dalam banyak kasus, ukuran file yang besar dari beberapa koleksi ‘pointer’ ini menunjukkan inklusi konten gambar dalam file yang dapat diunduh dan disimpan; namun, ukuran unduhan yang tidak trivial sering kali disebabkan oleh volume teks yang tinggi, dan terkadang inklusi embedding yang diekstrak atau fitur – ringkasan atau node dari konten sumber yang diekstrak selama proses pelatihan.

Video Premium

Dataset video menyajikan kasus yang lebih kuat untuk pendekatan ‘dataset-by-proxy’ atau pointer, karena volume penyimpanan data yang diperlukan untuk mengumpulkan jumlah video yang bermakna dan berguna dalam koleksi tunggal sangat besar, dan metode ‘terdistribusi’ diinginkan.

Namun, dalam kedua kasus – tetapi terutama dengan video – URL sumber yang dapat diunduh mewakili data yang akan memerlukan perhatian lebih lanjut sebelum digunakan dalam proses pelatihan. Baik gambar maupun video akan memerlukan pengubahan ukuran, atau keputusan pemotongan dibuat, untuk menciptakan sampel yang akan sesuai dengan ruang GPU yang tersedia. Bahkan video yang sangat downsampling juga akan memerlukan pemotongan menjadi panjang yang sangat singkat, seperti 3-5 detik, biasanya.

Dataset video yang terkenal yang menggunakan referensi ke video online (bukan kurasi dan pengemasan langsung video) termasuk dataset Kinetics Human Action Video dari Google, dan koleksi YouTube-8M dari raksasa pencarian, yang menggunakan annotasi segmen untuk menunjukkan bagaimana memperlakukan setiap video sekali diunduh – tetapi yang sekali lagi meninggalkan pengguna akhir untuk mendapatkan video dari URL yang disediakan.

Tertutup dan Terbuka

Akhirnya, dalam kategori ini, data VFX ‘terbuka’ dapat dihasilkan dengan platform tertutup yang kemudian menerbitkan dan membuat dataset yang dihasilkan tersedia. Ini masuk akal untuk bertanya-tanya mengapa ini terjadi, dan untuk mempertimbangkan apakah ini mungkin karena perusahaan asal ingin mensanitasi model hulu yang tidak ramah IP, untuk kegunaan mereka sendiri; atau bahwa ‘set yang dicuci’ diminta dari luar.

Salah satu kasus ‘pencucian generasi’ adalah, secara argumentatif, dataset Omni-VFX, yang menggabungkan banyak titik data dari dataset Open-VFX (yang sendiri merujuk pada banyak platform tertutup dan semi-tertutup, seperti Pika dan PixVerse).

Untuk jujur, Omni-VFX tidak bahkan mencoba:

Di dataset Omni-VFX sumber terbuka, sebuah wajah yang familiar. Sumber - https://huggingface.co/datasets/GD-ML/Omni-VFX/blob/main/Harley/pixverse%252Fmp4%252Fmedia%252Fweb%252F15e45744-64b1-4a41-84de-626225cf017b_seed734716767.mp4

Di dataset Omni-VFX sumber terbuka, sebuah wajah yang familiar. Sumber

Tanggung Jawab Ancestral

Pendekatan kedua besar untuk pencucian IP adalah melalui penggunaan materi yang dilindungi hak cipta pada satu atau banyak tingkat. Salah satu metode dalam kategori ini adalah penggunaan data sintetis yang telah dilatih, pada suatu titik hulu, pada data yang dilindungi hak cipta. Dalam kasus seperti ini, terutama di mana data sintetis dapat menghasilkan hasil yang terlihat otentik, karya yang dilindungi hak cipta menyediakan transformasi yang tidak mungkin ditebak atau diapproximasi oleh model umum atau non-spesialis.

Ini sangatlah kasus di mana sistem generatif video memerlukan untuk menghasilkan ‘peristiwa yang tidak mungkin’, dan peristiwa yang akan jatuh umumnya ke dalam kategori ‘efek visual’ (VFX).

Sebenarnya, apa yang membawa topik ini ke pikiran adalah makalah penelitian terbaru yang menawarkan kemampuan untuk ‘mengabstraksi’ berbagai jenis efek visual, seperti menghasilkan sinar laser dari bagian tubuh yang tidak mungkin, dengan dilatih pada klip VFX yang dikomisi atau ‘sumber terbuka’ (bukan sumber yang lebih jelas, seperti tembakan VFX yang sangat mahal dari output universe sinematik Marvel):

Contoh dari situs web EffectMaker, di mana ‘aksi’ dalam klip sumber (jauh kiri) diterapkan ke gambar sumber (tengah). Sumber

Contoh di atas berasal dari halaman proyek untuk proyek EffectMaker. EffectMaker bukanlah penawaran pertama tahun ini yang mencari untuk mengekstrak dinamika VFX dari satu klip video dan memindahkannya ke klip baru, dan sebenarnya ini sedang menjadi tugas sub-tugas diskrit dalam penelitian VFX AI*.

Sadari bahwa raksasa media seperti Marvel memiliki kemungkinan yang lebih tinggi untuk memenangkan kasus hukum atas IP (bahkan dalam iklim ‘toleransi yang dipaksakan’), perusahaan efek visual dan startup saat ini melakukan upaya besar untuk memastikan bahwa kerangka VFX generatif mereka bebas dari IP perusahaan lain.

Terutama di antaranya adalah Meta, yang telah dilaporkan di subreddit r/vfx untuk melakukan perekrutan musim dingin yang terbayar dengan baik pada tahun 2026, menawarkan seniman VFX pekerjaan melatih model AI untuk menghasilkan tembakan efek visual level Hollywood. Meskipun gaji tidak ditentukan di seluruh posting, satu menggambarkannya sebagai ‘uang pensiun’.

Mengikuti Uang

Namun, seseorang harus bertanya-tanya berapa banyak uang bahkan seperti Meta yang mau membayar untuk keanekaragaman dan kelimpahan tembakan VFX ad hoc yang sebenarnya, mengingat bahwa satu tembakan VFX rata-rata untuk film blockbuster adalah sekitar $42.000 USD – dan banyak datang jauh lebih tinggi.

Lebih lanjut, masuk akal bahwa model AI VFX generatif yang dibuat khusus akan mengikuti permintaan populer, termasuk berbagai efek standar dari kategori film paling populer dan paling mahal.

Selain dari sudut pandang bahwa profesional VFX yang ‘tersisa’ mungkin berakhir merekayasa ulang tembakan yang mereka kerjakan untuk katalog film yang ada – yang dalam dirinya sendiri mengkontekstualisasikan pekerjaan dataset khusus sebagai imitasi – tidak ada jaminan bahwa sampel baru yang mahal ini akan berakhir dilatih ‘dari nol’ dalam arsitektur baru.

Sebenarnya, jika rekreasi semacam ini diarahkan ke modul tambahan seperti LoRAs, yang bergantung pada model dasar, maka proses ini hanya sebagus model dasar adalah ‘bersih IP’ – dan tidak banyak yang seperti itu.

Serupa, jika ‘proses baru’ menggunakan teknik ‘hybrid’ seperti fine-tuning, di mana nilai efek visual bergantung pada model, prior, atau embedding dari koleksi atau model lama yang integritasnya tidak terbukti, orisinalitas pekerjaan ini secara argumentatif kosmetik, dan tunduk pada tantangan.

Misi yang Tidak Mungkin

Domain output VFX adalah kasus yang sangat menarik dalam kaitannya dengan potensi pencucian IP dalam dataset AI, karena tembakan efek visual sering menggambarkan ‘hal yang tidak mungkin’ yang tidak akan ada alternatif sumber terbuka yang tersedia.

Misalnya, jika Anda ingin melatih model untuk menghasilkan sinar laser manusia, Anda akan memerlukan untuk melatih pada klip VFX, dicuri atau dikomisi; hal seperti itu tidak terjadi di tempat lain.

Bahkan dalam kasus bencana alam lainnya, seperti banjir dramatis, materi sumber yang tersedia tidak mungkin dapat mereproduksi POV dramatis pada peristiwa bencana, karena (dengan beberapa pengecualian) orang tidak biasanya live-stream dari lokasi bencana. Oleh karena itu, ‘pemandangan yang keren’ pada bencana langka dalam dataset dunia nyata, dan model AI mana pun yang dapat menghasilkannya kemungkinan mendapatkan informasi dari tempat lain.

Sebagian besar alur tugas AI yang diinginkan tidak memiliki tingkat spesifisitas yang sama, dan dalam kasus seperti itu, pengaburan manfaat dari data yang dilindungi IP mungkin tidak memerlukan usaha yang sama.

Kesimpulan: Jaring yang Terjalin

Hanya mereka yang telah menggunakan AI generatif secara ekstensif dan selama periode yang berkelanjutan akan memahami secara intuitif bahwa sistem seperti itu berjuang untuk menggabungkan konsep multiple ketika tidak ada contoh yang comparable dalam data pelatihan mereka.

Batasan ini dikenal sebagai pengikatan, di mana berbagai aspek konsep yang dilatih cenderung mengelompokkan bersama dengan elemen yang terkait, bukan memecah menjadi balok bangunan yang berguna yang dapat disusun menjadi konfigurasi baru yang diinginkan pengguna.

Pengikatan adalah gravitasi arsitektur yang hampir tidak mungkin untuk melarikan diri, setidaknya untuk pendekatan berbasis difusi yang karakteristik dari semua kerangka AI generatif saat ini. Namun, mungkin bahwa pendekatan baru muncul dalam beberapa tahun ke depan yang lebih baik dalam mendiskretkan konsep yang dilatih sehingga mereka dapat disatukan dengan lebih adroit, dan menawarkan fewer indikasi tentang provenance mereka.

 

* Saya tidak membuat tuduhan terhadap EffectMaker, tetapi berkomentar di sini tentang keumuman praktik yang muncul dalam penelitian video AI.

Karena tembakan ini, dalam jenis film ini, telah menghasilkan dan terus menghasilkan uang.

Dipublikasikan pertama kali pada hari Senin, 16 Maret 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.