Sudut Anderson

Sekarang NSFW dan ‘Selebriti’ Pose Adalah Bahan untuk Sensor AI

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Sebuah pengaman AI baru untuk sistem video generatif mengusulkan untuk menyensor pose tubuh. Sikap fisik (atau ekspresi wajah) yang mungkin diartikan sebagai sugestif seksual, ‘gerakan ofensif’, atau bahkan pose selebriti yang dilindungi hak cipta atau merek dagang, semua menjadi target.

 

Penelitian baru dari Cina dan Singapura membahas salah satu domain yang kurang jelas dalam ‘gambar dan video tidak aman’: penggambaran pose itu sendiri, dalam arti disposisi tubuh atau ekspresi wajah orang yang digambarkan dalam output AI:

Skema konseptual untuk PoseGuard, sistem yang diusulkan dalam penelitian baru. Sumber: https://arxiv.org/pdf/2508.02476

Skema konseptual untuk PoseGuard, sistem yang diusulkan dalam penelitian baru. Sumber: https://arxiv.org/pdf/2508.02476

Sistem ini, yang berjudul PoseGuard, menggunakan fine-tuning dan LoRAs untuk membuat model yang secara intrinsik tidak dapat menghasilkan ‘pose yang dilarang’. Pendekatan ini diambil karena pengaman yang dibangun ke dalam model FOSS dapat biasanya dengan mudah diatasi, menekankan bahwa filter baru ini secara khusus menargetkan instalasi lokal (karena model API-only dapat menyaring konten dan prompt masuk dan keluar, tanpa perlu mengancam integritas bobot model dengan fine-tuning).

Ini bukanlah pekerjaan pertama yang memperlakukan pose sebagai data tidak aman dalam dirinya sendiri; ‘ekspresi wajah seksual’ telah menjadi sub-field studi kecil selama beberapa waktu, sementara beberapa penulis pekerjaan baru juga menciptakan sistem Dormant yang kurang canggih.

Namun, makalah baru ini adalah yang pertama, selama yang saya ketahui, untuk memperluas pengetikan pose di luar konten seksual, bahkan hingga mencakup ‘gerakan selebriti yang dilindungi hak cipta’:

‘Kami mendefinisikan pose tidak aman berdasarkan potensi risiko dari output yang dihasilkan, bukan karakteristik geometris. [Pose tidak aman] termasuk: 1) pose diskriminatif (misalnya, berlutut, salut ofensif), 2) pose sugestif seksual NSFW, dan 3) pose yang peka terhadap hak cipta yang meniru gambar selebriti khusus.

‘Pose-pose ini dikumpulkan melalui sumber online (misalnya, Wikipedia), penyaringan berbasis LLM, dan dataset yang dilabeli risiko (misalnya, tag NSFW Civitai), memastikan dataset pose tidak aman yang seimbang dan komprehensif untuk pelatihan.’

Kategori 'NSFW' dari 50 pose inti yang dikembangkan untuk PoseGuard.

Kategori ‘NSFW’ dari 50 pose inti yang dikembangkan untuk PoseGuard.

Menarik untuk dicatat bahwa pose selebriti dapat dilindungi hak cipta atau dilindungi oleh sarana hukum, dan bahwa kombinasi pose atau sikap yang cukup ‘kreatif’ dapat dilindungi sebagai urutan koreografi unik sebagai urutan koreografi unik. Namun, bahkan pose ikonik tunggal mungkin tidak dilindungi, seperti yang ditemukan oleh seorang fotografer, dalam keputusan Rentmeester Vs. Nike ruling:

Seorang fotografer yang mengambil foto kiri Michael Jordan menuntut Nike ketika mereka merekam foto (kanan); namun, panel hakim menolak klaim tersebut. Sumber: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Seorang fotografer yang mengambil foto kiri Michael Jordan menuntut Nike ketika mereka merekam foto (kanan); namun, panel hakim menolak klaim tersebut. Sumber: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Sistem PoseGuard baru ini mengklaim sebagai yang pertama untuk menurunkan output ketika pose tidak aman terdeteksi; untuk memasang pengaman keamanan langsung ke dalam model generatif; untuk mendefinisikan ‘pose tidak aman’ di seluruh tiga kategori; dan untuk memastikan bahwa generasi mempertahankan kualitas dan integritas setelah pose yang melanggar telah diubah cukup untuk melarikan diri dari filter.

Makalah baru ini berjudul PoseGuard: Pose-Guided Generation with Safety Guardrails, dan berasal dari enam peneliti di Universitas Sains dan Teknologi Cina, Badan Penelitian dan Pengembangan Ilmiah Singapura (A*STAR CFAR), dan Universitas Teknologi Nanyang.

Metode

PoseGuard menggunakan logika serangan backdoor untuk membangun mekanisme pertahanan langsung ke dalam model. Dalam serangan backdoor yang khas, input khusus memicu output berbahaya, dan PoseGuard membalikkan setup ini: pose yang telah ditentukan sebelumnya yang dianggap tidak aman karena sifat seksual, ofensif, atau peka terhadap hak cipta, dihubungkan dengan gambar target ‘netral’, seperti bingkai kosong atau buram.

Dengan fine-tuning model pada dataset gabungan dari pose normal dan pose pemicu, sistem belajar untuk mempertahankan fidelitas untuk input yang tidak berbahaya sementara menurunkan kualitas output untuk input yang tidak aman:

PoseGuard memproses gambar referensi dan urutan pose menggunakan denoising UNet yang dibagikan, menggabungkan bobot pra-dilatih dengan fine-tuning yang selaras dengan keamanan. Setup ini memungkinkan model untuk menekan generasi berbahaya dari pose tidak aman sementara mempertahankan kualitas output untuk input normal.

PoseGuard memproses gambar referensi dan urutan pose menggunakan denoising UNet yang dibagikan, menggabungkan bobot pra-dilatih dengan fine-tuning yang selaras dengan keamanan. Setup ini memungkinkan model untuk menekan generasi berbahaya dari pose tidak aman sementara mempertahankan kualitas output untuk input normal.

Strategi ‘in-model’ ini menghilangkan kebutuhan akan filter eksternal, dan tetap efektif bahkan dalam lingkungan yang antagonis atau terbuka.*

Data dan Tes

Untuk mendapatkan pose dasar yang tidak berbahaya, penulis menggunakan dataset UBC-Fashion:

Contoh dari dataset fashion Universitas British Columbia, digunakan sebagai sumber pose yang tidak berbahaya dalam PoseGuard. Sumber: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Contoh dari dataset fashion Universitas British Columbia, digunakan sebagai sumber pose yang tidak berbahaya dalam PoseGuard. Abstrak pose diambil dari gambar-gambar ini dengan kerangka kerja pose-estimasi. Sumber: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Pose tidak aman, seperti yang disebutkan sebelumnya, bersumber dari platform sumber terbuka seperti CivitAI. Pose diambil menggunakan kerangka kerja DWPose, menghasilkan gambar pose 768x768px:

Contoh dari 50 pose tidak aman yang digunakan dalam pelatihan. Ditampilkan di sini adalah pose NSFW dan pose yang peka terhadap hak cipta, bersumber dari Wikipedia, Render-State, Civitai, dan Google Search.

Contoh dari 50 pose tidak aman yang digunakan dalam pelatihan. Ditampilkan di sini adalah pose NSFW dan pose yang peka terhadap hak cipta, bersumber dari Wikipedia, Render-State, Civitai, dan Google Search.

Model generasi pose-guided yang digunakan adalah AnimateAnyone.

Enam metrik yang digunakan adalah Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); dan Fréchet Inception Distance (FID). Tes dilakukan pada NVIDIA A6000 GPU dengan 48GB VRAM, pada ukuran batch 4 dan tingkat pembelajaran 1×10-5.

Tiga kategori utama yang diuji adalah efektivitas, ketahanan, dan generalisasi.

Dalam efektivitas, penulis membandingkan dua strategi pelatihan untuk PoseGuard: fine-tuning penuh dari denoising UNet dan fine-tuning parameter-efisien menggunakan modul LoRA.

Kedua pendekatan menekan output dari pose tidak aman sementara mempertahankan kualitas output pada pose yang tidak berbahaya, tetapi dengan trade-off yang berbeda: fine-tuning penuh mencapai penekanan yang lebih kuat dan mempertahankan fidelitas yang lebih tinggi, terutama ketika jumlah pose tidak aman yang dilatih kecil; dan fine-tuning berbasis LoRA memperkenalkan lebih banyak degradasi dalam kualitas generasi – tetapi memerlukan parameter yang jauh lebih sedikit, dan komputasi yang lebih sedikit.

Kinerja PoseGuard di seluruh metrik generasi dan pertahanan. Panah ke atas menunjukkan metrik di mana nilai yang lebih tinggi lebih baik; panah ke bawah menunjukkan metrik di mana nilai yang lebih rendah lebih baik.

Kinerja PoseGuard di seluruh metrik generasi dan pertahanan. Panah ke atas menunjukkan metrik di mana nilai yang lebih tinggi lebih baik; panah ke bawah menunjukkan metrik di mana nilai yang lebih rendah lebih baik.

Hasil kualitatif (lihat gambar di bawah) menunjukkan bahwa, tanpa intervensi, model mereproduksi pose ofensif dan NSFW dengan fidelitas yang tinggi. Dengan PoseGuard diaktifkan, pose-pose ini memicu output dengan kualitas rendah atau kosong, sementara input yang tidak berbahaya tetap utuh secara visual. Ketika set pertahanan tumbuh dari empat menjadi tiga puluh dua pose tidak aman, kualitas output yang tidak berbahaya menurun sedikit, terutama untuk LoRA.

Hasil visual menunjukkan bagaimana PoseGuard merespons pose tidak aman tunggal menggunakan fine-tuning parameter penuh. Model menekan output untuk pose diskriminatif, NSFW, dan pose yang peka terhadap hak cipta, mengarahkannya ke gambar hitam, sementara mempertahankan kualitas untuk input normal.

Hasil visual menunjukkan bagaimana PoseGuard merespons pose tidak aman tunggal menggunakan fine-tuning parameter penuh. Model menekan output untuk pose diskriminatif, NSFW, dan pose yang peka terhadap hak cipta, mengarahkannya ke gambar hitam, sementara mempertahankan kualitas untuk input normal.

Untuk ketahanan, PoseGuard diuji dalam kondisi yang mensimulasikan penerapan di dunia nyata, di mana pose input mungkin tidak cocok dengan contoh yang telah ditentukan sebelumnya. Evaluasi ini termasuk transformasi umum seperti translasi, scaling, dan rotasi, serta penyesuaian manual pada sudut sendi untuk meniru variasi alami.

Hasil untuk ketahanan PoseGuard dalam menghadapi transformasi pose umum.

Hasil untuk ketahanan PoseGuard dalam menghadapi transformasi pose umum.

Dalam sebagian besar kasus, model terus menekan generasi yang tidak aman, menunjukkan bahwa pertahanan tetap kuat terhadap gangguan moderat. Ketika perubahan menghilangkan risiko yang mendasarinya dalam pose, model berhenti menekan dan menghasilkan output normal, menunjukkan bahwa model menghindari hasil positif palsu di bawah deviasi yang tidak berbahaya.

Evaluasi ketahanan PoseGuard terhadap modifikasi pose. Gambar ini menunjukkan output model untuk pose tidak aman yang diubah dengan translasi, scaling, dan rotasi, serta penyesuaian manual pada anggota tubuh. PoseGuard terus menekan generasi yang tidak aman di bawah perubahan ringan, tetapi melanjutkan output normal ketika pose tidak lagi membawa konten berisiko.

Evaluasi ketahanan PoseGuard terhadap modifikasi pose. Gambar ini menunjukkan output model untuk pose tidak aman yang diubah dengan translasi, scaling, dan rotasi, serta penyesuaian manual pada anggota tubuh. PoseGuard terus menekan generasi yang tidak aman di bawah perubahan ringan, tetapi melanjutkan output normal ketika pose tidak lagi membawa konten ‘berisiko’.

Akhirnya, dalam eksperimen utama, peneliti menguji PoseGuard untuk generalisasi – kemampuannya untuk beroperasi secara efektif pada data baru, dalam berbagai lingkungan dan keadaan.

Di sini, PoseGuard diterapkan pada generasi yang dipandu oleh gambar referensi menggunakan model AnimateAnyone. Dalam pengaturan ini, sistem menunjukkan penekanan yang lebih kuat terhadap output yang tidak sah dibandingkan dengan kontrol pose, dengan penurunan hampir total dari video yang dihasilkan dalam beberapa kasus:

Perbandingan kinerja PoseGuard ketika diterapkan pada generasi pose-guided versus generasi yang dipandu oleh gambar referensi, menggunakan fine-tuning penuh pada empat input tidak aman.

Perbandingan kinerja PoseGuard ketika diterapkan pada generasi pose-guided versus generasi yang dipandu oleh gambar referensi, menggunakan fine-tuning penuh pada empat input tidak aman.

Penulis mengatributkan ini pada informasi identitas yang padat dalam gambar referensi, yang memungkinkan model untuk lebih mudah belajar perilaku pertahanan yang ditargetkan. Hasilnya, mereka sarankan, menunjukkan bahwa PoseGuard dapat membatasi risiko peniruan dalam skenario di mana video dihasilkan langsung dari penampilan seseorang.

Untuk tes terakhir, penulis menerapkan PoseGuard pada sintesis video yang dipandu oleh landmark wajah menggunakan sistem AniPortrait, skenario yang menargetkan ekspresi wajah halus daripada pose tubuh penuh.

Ekspresi wajah tidak aman ditekan dalam AniPortrait, dengan sistem baru.

Ekspresi wajah tidak aman ditekan dalam AniPortrait, dengan sistem baru.

Dengan fine-tuning Denoising UNet dengan mekanisme pertahanan yang sama, model dapat menekan output dari landmark wajah yang tidak aman sementara mempertahankan ekspresi yang tidak berbahaya. Hasilnya, penulis sarankan, menunjukkan bahwa PoseGuard dapat menggeneralisasi di seluruh modalitas input dan mempertahankan efektivitas dalam tugas generasi yang lebih lokal dan dipandu oleh ekspresi.

Hasil visual menunjukkan bagaimana PoseGuard merespons generasi yang dipandu oleh gambar referensi.

Hasil visual menunjukkan bagaimana PoseGuard merespons generasi yang dipandu oleh gambar referensi.

Kesimpulan

Harus diakui bahwa untuk banyak dari 50 pose yang dilarang yang disediakan oleh makalah, kegiatan seperti pemeriksaan medis, atau bahkan melakukan tugas rumah tangga yang membosankan, kemungkinan akan diblokir dalam apa yang hanya dapat dipahami sebagai versi sintesis dari efek Scunthorpe.

Dari sudut pandang ini, dan lebih lagi dalam kasus ekspresi wajah, (yang dapat lebih ambigu dan nuansa dalam niat), PoseGuard tampaknya menjadi semacam instrumen tumpul. Selain itu, karena efek pendinginan umum sekitar NSFW AI, rilis FOSS seperti Flux Kontext secara teratur sangat disensor dalam hal apa pun,, baik melalui penyaringan dataset yang ketat, penyuntingan bobot, atau keduanya.

Oleh karena itu, menambahkan pembatasan yang diusulkan di sini ke beban sensor lokal tampaknya seperti upaya untuk menekan efektivitas sistem generatif non-API. Ini mungkin menunjukkan kita menuju masa depan di mana model lokal dapat menghasilkan generasi yang lebih rendah dari apa pun yang diinginkan pengguna, sementara model API menawarkan output yang jauh lebih unggul, jika seseorang hanya dapat menavigasi gauntlet filter dan pengaman yang memuaskan departemen hukum perusahaan.

Sistem seperti PoseGuard, di mana fine-tuning secara aktif mempengaruhi kualitas output model dasar (meskipun ini diabaikan dalam makalah), tidak ditujukan untuk model API sama sekali; model vanguard online akan kemungkinan terus menikmati data pelatihan yang tidak terbatas, karena kemampuan NSFW yang luar biasa dari model ini ditekan oleh langkah-langkah pengawasan yang cukup.

 

* Metode ini sependek di sini seperti di makalah (yang hanya lima halaman), dan, seperti biasa, pendekatan ini paling baik dipahami dari bagian tes.

Dipublikasikan pertama kali pada Rabu, 6 Agustus 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.