Sudut Anderson

Praktik AI Saat Ini Dapat Membuat Generasi Baru Penipu Hak Cipta

Diterbitkan 5 November 2021

Diperbarui 24 Mei 2026

Oleh

Martin Anderson

Kolaborasi penelitian baru antara Huawei dan akademisi menunjukkan bahwa sebagian besar penelitian saat ini di bidang kecerdasan buatan dan pembelajaran mesin dapat terbuka untuk litigasi segera setelah menjadi komersial, karena dataset yang membuat kemajuan menjadi mungkin didistribusikan dengan lisensi yang tidak valid yang tidak menghormati ketentuan asli dari domain publik dari mana data diperoleh.

Secara efektif, ini memiliki dua hasil yang hampir tidak terhindikan: bahwa algoritma AI yang sangat sukses dan dikomersialkan yang diketahui telah menggunakan dataset tersebut akan menjadi target penipu hak cipta yang oportunis di masa depan, yang hak ciptanya tidak dihormati ketika data mereka diambil; dan bahwa organisasi dan individu akan dapat menggunakan kerentanan hukum yang sama untuk memprotes penerapan atau penyebaran teknologi pembelajaran mesin yang mereka anggap tidak dapat diterima.

Makalah ini berjudul Apakah saya bisa menggunakan dataset yang tersedia secara publik ini untuk membangun perangkat lunak AI komersial? Kemungkinan besar tidak, dan merupakan kolaborasi antara Huawei Kanada dan Huawei Tiongkok, bersama dengan Universitas York di Inggris dan Universitas Victoria di Kanada.

Lima dari Enam Dataset Sumber Terbuka Tidak Dapat Digunakan Secara Hukum

Untuk penelitian ini, penulis meminta departemen di Huawei untuk memilih dataset sumber terbuka yang paling diinginkan untuk dieksploitasi dalam proyek komersial, dan memilih enam dataset yang paling diminta dari responsnya: CIFAR-10 (subset dari dataset 80 juta gambar kecil, karena ditarik karena ‘istilah yang merendahkan’ dan ‘gambar ofensif’, meskipun turunannya berkembang biak); ImageNet; Cityscapes (yang berisi materi eksklusif asli); FFHQ; VGGFace2, dan MSCOCO.

Untuk menganalisis apakah dataset yang dipilih layak untuk digunakan secara hukum dalam proyek komersial, penulis mengembangkan pipeline baru untuk melacak rantai lisensi sejauh mungkin untuk setiap set, meskipun mereka sering harus menggunakan capture arsip web untuk menemukan lisensi dari domain yang telah kedaluwarsa, dan dalam beberapa kasus harus ‘menebak’ status lisensi dari informasi yang tersedia.

Arsitektur untuk sistem pelacakan provenance yang dikembangkan oleh penulis. Sumber: https://arxiv.org/pdf/2111.02374.pdf

Penulis menemukan bahwa lisensi untuk lima dari enam dataset ‘mengandung risiko yang terkait dengan setidaknya satu konteks penggunaan komersial’:

‘[Kami] mengamati bahwa, kecuali MS COCO, tidak ada lisensi yang memungkinkan praktisi untuk mengkomersialkan model AI yang dilatih pada data atau bahkan output dari model AI yang dilatih. Hasil seperti ini juga efektif mencegah praktisi untuk menggunakan model pra-dilatih yang dilatih pada dataset tersebut. Dataset dan model AI yang tersedia secara publik dan pra-dilatih pada mereka sedang secara luas digunakan secara komersial.’ *

Penulis lebih lanjut mencatat bahwa tiga dari enam dataset yang dipelajari dapat mengakibatkan pelanggaran lisensi dalam produk komersial jika dataset tersebut dimodifikasi, karena hanya MS-COCO yang memungkinkan hal ini. Namun, augmentasi data dan subset serta supersets dari dataset yang berpengaruh adalah praktik yang umum.

Dalam kasus CIFAR-10, kompilator asli tidak membuat bentuk lisensi konvensional, hanya meminta bahwa proyek yang menggunakan dataset tersebut mencantumkan kutipan ke makalah asli yang menyertai rilis dataset tersebut, menyajikan hambatan lebih lanjut untuk menetapkan status hukum data.

Lebih lanjut, hanya dataset CityScapes yang berisi materi yang secara eksklusif dihasilkan oleh pengembang dataset, bukan ‘dikurasi’ (diambil) dari sumber jaringan, dengan CIFAR-10 dan ImageNet menggunakan beberapa sumber, masing-masing yang perlu diselidiki dan dilacak kembali untuk menetapkan mekanisme hak cipta (atau bahkan disclaimer yang bermakna).

Tidak Ada Jalan Keluar

Ada tiga faktor yang perusahaan AI komersial tampaknya bergantung untuk melindungi mereka dari litigasi sekitar produk yang telah menggunakan konten hak cipta dari dataset secara gratis dan tanpa izin, untuk melatih algoritma AI. Tidak ada yang menawarkan perlindungan yang dapat diandalkan dalam jangka panjang:

1: Hukum Nasional Laissez Faire
Meskipun pemerintah di seluruh dunia terpaksa melonggarkan hukum sekitar pengambilan data dalam upaya tidak ketinggalan dalam perlombaan menuju AI yang performant (yang bergantung pada volume data dunia nyata yang besar untuk yang copyright compliance dan lisensi yang biasa tidak realistis), hanya Amerika Serikat yang menawarkan imunitas penuh dalam hal ini, di bawah Doktrin Penggunaan Wajar – kebijakan yang diratifikasi pada 2015 dengan penyelesaian Authors Guild v. Google, Inc., yang menegaskan bahwa raksasa pencarian dapat secara bebas mengambil materi hak cipta untuk proyek Google Books tanpa dituduh melakukan pelanggaran.

Jika kebijakan Doktrin Penggunaan Wajar pernah berubah (misalnya, sebagai respons terhadap kasus lain yang cukup penting yang melibatkan organisasi atau perusahaan yang cukup kuat), maka kemungkinan akan dianggap sebagai keadaan a priori dalam hal mengeksploitasi database yang melanggar hak cipta saat ini; tetapi tidak penggunaan berkelanjutan dan pengembangan sistem yang diaktifkan melalui materi hak cipta tanpa persetujuan.

Hal ini menempatkan perlindungan saat ini dari Doktrin Penggunaan Wajar pada dasar yang sangat sementara, dan dapat memerlukan algoritma pembelajaran mesin yang telah mapan dan dikomersialkan untuk berhenti beroperasi dalam kasus di mana asal-usulnya diaktifkan oleh materi hak cipta yang dilanggar – bahkan dalam kasus di mana bobot model sekarang menangani konten yang diizinkan, tetapi dilatih pada (dan dibuat berguna oleh) konten yang diambil secara ilegal.

Di luar AS, seperti yang dicatat oleh penulis dalam makalah baru, kebijakan umumnya kurang toleran. Inggris dan Kanada hanya memberikan pengampunan untuk penggunaan data hak cipta untuk tujuan non-komersial, sementara Hukum Penambangan Teks dan Data Uni Eropa (yang belum sepenuhnya digantikan oleh proposal baru untuk regulasi AI yang lebih formal) juga mengecualikan eksploitasi komersial untuk sistem AI yang tidak mematuhi persyaratan hak cipta dari data asli.

Penyelenggaraan ini berarti bahwa suatu organisasi dapat mencapai hal-hal hebat dengan data orang lain, hingga – tetapi tidak termasuk – titik di mana mereka membuat uang dari itu. Pada tahap itu, produk tersebut akan menjadi terbuka secara hukum, atau pengaturan perlu dibuat dengan jutaan pemegang hak cipta, banyak di antaranya sekarang tidak dapat dilacak karena sifat berubah-ubah dari internet – sebuah prospek yang mustahil dan tidak terjangkau.

2: Caveat Emptor
Dalam kasus di mana organisasi yang melanggar harap dapat menunda kesalahan, makalah baru juga mencatat bahwa banyak lisensi untuk dataset sumber terbuka yang paling populer secara otomatis membebaskan diri dari klaim penyalahgunaan hak cipta:

‘Misalnya, lisensi ImageNet secara eksplisit memerlukan praktisi untuk membebaskan tim ImageNet dari klaim yang timbul dari penggunaan dataset. Dataset FFHQ, VGGFace2, dan MS COCO memerlukan dataset, jika didistribusikan atau dimodifikasi, untuk disajikan di bawah lisensi yang sama.’

Secara efektif, ini memaksa mereka yang menggunakan dataset sumber terbuka untuk menyerap kesalahan untuk penggunaan materi hak cipta, dalam menghadapi litigasi yang akan datang (meskipun tidak selalu melindungi kompilator asli dalam kasus di mana iklim ‘pelabuhan yang aman’ saat ini terganggu).

3: Perlindungan melalui Kekaburan
Sifat kolaboratif dari komunitas pembelajaran mesin membuatnya cukup sulit untuk menggunakan okultisme perusahaan untuk mengaburkan kehadiran algoritma yang telah mendapat manfaat dari dataset yang melanggar hak cipta. Proyek komersial jangka panjang sering dimulai dalam lingkungan sumber terbuka di mana penggunaan dataset merupakan catatan, di GitHub dan forum lain yang dapat diakses secara publik, atau di mana asal-usul proyek telah dipublikasikan dalam makalah pra-cetak atau peer-review.

Meskipun ini tidak terjadi, inversi model semakin mampu mengungkapkan karakteristik khas dari dataset (atau bahkan secara eksplisit mengeluarkan beberapa materi sumber), baik memberikan bukti dalam dirinya sendiri, atau cukup curiga akan pelanggaran untuk memungkinkan akses yang diperintahkan oleh pengadilan ke riwayat pengembangan algoritma, dan rincian dataset yang digunakan dalam pengembangan tersebut.

Kesimpulan

Makalah ini menggambarkan penggunaan materi hak cipta yang kacau dan ad hoc yang diperoleh tanpa izin, dan serangkaian rantai lisensi yang, diikuti secara logis sejauh mungkin, akan memerlukan negosiasi dengan ribuan pemegang hak cipta yang pekerjaannya disajikan di bawah payung situs dengan berbagai istilah lisensi, banyak di antaranya melarang karya turunan komersial.

Penulis menyimpulkan:

‘Dataset yang tersedia secara publik sedang digunakan secara luas untuk membangun perangkat lunak AI komersial. Seseorang dapat melakukannya jika [dan] hanya jika lisensi yang terkait dengan dataset yang tersedia secara publik memberikan hak untuk melakukannya. Namun, tidak mudah untuk memverifikasi hak dan kewajiban yang diberikan dalam lisensi yang terkait dengan dataset yang tersedia secara publik. Karena, terkadang lisensi tidak jelas atau potensial tidak valid.’

Karya baru lainnya, berjudul Membangun Dataset Hukum, dirilis pada 2 November dari Pusat Hukum Komputasi di Singapore Management University, juga menekankan pentingnya bagi ilmuwan data untuk mengakui bahwa era ‘wild west’ dari pengumpulan data ad hoc sedang berakhir, dan mencerminkan rekomendasi makalah Huawei untuk mengadopsi kebiasaan dan metodologi yang lebih ketat untuk memastikan bahwa penggunaan dataset tidak membuka proyek untuk ramifikasi hukum seiring dengan perubahan budaya dari waktu ke waktu, dan seiring dengan kegiatan akademik global saat ini di sektor pembelajaran mesin yang mencari pengembalian komersial atas investasi tahun-tahun. Penulis mengamati*:

‘[Korpus legislasi yang mempengaruhi dataset ML] akan tumbuh, di tengah kekhawatiran bahwa hukum saat ini menawarkan perlindungan yang tidak memadai safeguard. Rancangan Undang-Undang Kecerdasan Buatan Uni Eropa, jika dan ketika disetujui, akan mengubah lanskap tata kelola AI dan data; yurisdiksi lain mungkin mengikuti dengan Undang-Undang mereka sendiri. ‘

* Konversi saya dari kutipan inline ke tautan