Kecerdasan buatan

Menghambat Dataset Penglihatan Komputer terhadap Penggunaan Tidak Sah

Published September 17, 2021

Updated April 5, 2026

Martin Anderson

Peneliti dari Tiongkok telah mengembangkan metode untuk melindungi hak cipta dataset gambar yang digunakan untuk pelatihan penglihatan komputer, dengan efektif ‘mengawatermark’ gambar di data, dan kemudian mendekripsi gambar ‘bersih’ melalui platform berbasis cloud untuk pengguna yang sah saja.

Pengujian pada sistem menunjukkan bahwa pelatihan model pembelajaran mesin pada gambar yang dilindungi hak cipta menyebabkan penurunan akurasi model yang drastis. Pengujian sistem pada dua dataset gambar sumber terbuka yang populer, peneliti menemukan bahwa memungkinkan untuk menurunkan akurasi dari 86,21% dan 74,00% untuk dataset bersih ke 38,23% dan 16,20% ketika mencoba melatih model pada data yang tidak didekripsi.

Dari paper – contoh gambar bersih, dilindungi (yaitu diacak) dan dipulihkan. Sumber: https://arxiv.org/pdf/2109.07921.pdf

Dari paper – contoh, kiri ke kanan, gambar bersih, dilindungi (yaitu diacak) dan dipulihkan. Sumber: https://arxiv.org/pdf/2109.07921.pdf

Hal ini memungkinkan distribusi luas dataset berkualitas tinggi dan mahal, dan (kemungkinan), bahkan ‘demo’ pelatihan dataset yang terganggu untuk mendemonstrasikan fungsi yang mendekati.

Autentikasi Dataset Berbasis Cloud

Paper ini berasal dari peneliti di dua departemen di Universitas Aeronautika dan Astronautika Nanjing, dan membayangkan penggunaan rutin Platform Manajemen Dataset Cloud (DMCP), kerangka kerja autentikasi jarak jauh yang akan menyediakan validasi pra-peluncuran berbasis telemetri yang sama seperti yang telah menjadi umum di instalasi lokal yang membosankan seperti Adobe Creative Suite.

Alur dan kerangka kerja untuk metode yang diusulkan.

Gambar yang dilindungi dihasilkan melalui gangguan ruang fitur, metode serangan adversarial yang dikembangkan di Universitas Duke di Carolina Utara pada tahun 2019.

Gangguan ruang fitur melakukan ‘Serangan Aktivasi’ di mana fitur dari satu gambar didorong ke ruang fitur gambar adversarial. Dalam kasus ini, serangan memaksa sistem pengenalan mesin pembelajaran untuk mengklasifikasikan anjing sebagai pesawat. Sumber: https://openaccess.thecvf.com

Selanjutnya, gambar yang tidak dimodifikasi disematkan ke gambar yang terdistorsi melalui pasangan blok dan transformasi blok, seperti yang diusulkan dalam paper Pengsembunyian Data yang Dapat Dipulihkan di Gambar yang Dienskripsi dengan Transformasi Gambar yang Dapat Dipulihkan pada tahun 2016.

Urutan yang berisi informasi pasangan blok kemudian disematkan ke gambar sementara menggunakan enkripsi AES, kunci yang akan diambil dari DMCP pada saat autentikasi. Algoritma steganografi Least Significant Bit kemudian digunakan untuk menyematkan kunci. Penulis menyebut proses ini sebagai Transformasi Gambar yang Dapat Dipulihkan yang Dimodifikasi (mRIT).

Rutinitas mRIT pada dasarnya dibalik pada saat dekripsi, dengan gambar ‘bersih’ dipulihkan untuk digunakan dalam sesi pelatihan.

Pengujian

Peneliti menguji sistem pada arsitektur ResNet-18 dengan dua dataset: CIFAR-10 pada tahun 2009, yang berisi 6000 gambar di 10 kelas; dan TinyImageNet dari Stanford, subset dari data untuk tantangan klasifikasi ImageNet yang berisi dataset pelatihan 100.000 gambar, bersama dengan dataset validasi 10.000 gambar dan dataset tes 10.000 gambar.

Related Topics:intellectual property research

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Menghambat Dataset Penglihatan Komputer terhadap Penggunaan Tidak Sah

Autentikasi Dataset Berbasis Cloud

Pengujian

You may like