Bizimle iletişime geçin

Artık NSFW ve 'Ünlü' Pozları Yapay Zeka Sansürünün Malzemesi

Anderson'ın Açısı

Artık NSFW ve 'Ünlü' Pozları Yapay Zeka Sansürünün Malzemesi

mm
Bir sanatçının tutuklanan tahta mankeni – Flux 1D.

Üretken video sistemleri için yeni bir yapay zeka güvenlik önlemi, vücut pozlarının sansürlenmesini öneriyor. Cinsel içerikli, "saldırgan hareketler" veya hatta telif hakkıyla korunan ünlülere ait veya potansiyel olarak ticari markalı pozlar olarak yorumlanabilecek fiziksel duruşlar (veya yüz ifadeleri) hedef alınıyor.

 

Çin ve Singapur'dan gelen yeni bir araştırma, 'güvenli olmayan' görüntü ve video üretiminde daha az belirgin olan alanlardan birini ele alıyor: Yapay zeka tarafından oluşturulan çıktıda tasvir edilen bir kişinin vücut pozisyonu veya yüz ifadesi anlamında bir pozun tasviri:

Yeni araştırmada önerilen sistem olan PoseGuard için kavramsal şema. Kaynak: https://arxiv.org/pdf/2508.02476

Yeni araştırmada önerilen sistem olan PoseGuard için kavramsal şema. Kaynak: https://arxiv.org/pdf/2508.02476

başlıklı sistem, PoseGuardKullanır ince ayar ve LoRA'lar 'Yasaklanmış' pozlar üretemeyen modeller oluşturmak için. Bu yaklaşım, FOSS modellerine entegre edilmiş güvenlik önlemlerinin genellikle önemsiz bir şekilde üstesinden gelinmesiBu yeni 'filtrenin' özellikle yerel kurulumları hedeflediğini vurgulayarak (API'ye özel modeller süzebilir gelen ve giden içerik ve istemler, gerek kalmadan tehlike (Model ağırlıklarının bütünlüğünün ince ayar yapılarak korunması).

Bu, pozları kendi başlarına güvenli olmayan veriler olarak ele alan ilk çalışma değil; 'cinsel yüz ifadeleri' bir küçük bir çalışma alt alanı bir süredir, yeni eserin yazarlarından birkaçı aynı zamanda daha az gelişmiş olanı da yarattı Uyuyan sistem.

Ancak, bildiğim kadarıyla yeni makale, poz yazımını cinsel içerikten öteye, hatta 'telif hakkıyla korunan ünlü hareketlerini' de kapsayacak şekilde genişleten ilk makale:

'Güvenli olmayan pozları, geometrik özelliklerden ziyade, üretilen çıktıların potansiyel risklerine göre tanımlıyoruz. [Güvenli olmayan] pozlar şunları içerir: 1) ayrımcı pozlar (örneğin, diz çökme, saldırgan selamlar), 2) cinsel içerikli NSFW pozlar ve 3) ünlülere özgü görselleri taklit eden telif hakkı açısından hassas pozlar.

'Bu pozlar, çevrimiçi kaynaklar (örneğin Wikipedia), LLM tabanlı filtreleme ve risk etiketli veri kümeleri (örneğin Civitai NSFW etiketleri) aracılığıyla toplanarak eğitim için dengeli ve kapsamlı bir güvenli olmayan poz veri kümesi sağlanır.'

PoseGuard için geliştirilen 50 temel pozun 'NSFW' kategorisi.

PoseGuard için geliştirilen 50 temel pozun 'NSFW' kategorisi.

Ünlülerin pozlarının ilginç olduğunu belirtmek gerekir ticari marka olarak tescil edilebilir or yasal yollarla korunmaktadırve pozların veya duruşların yeterince 'yaratıcı' kombinasyonlarının benzersiz olarak korunabileceği koreografi dizileriAncak, bir fotoğrafçının Rentmeester ile Nike arasındaki rekabette keşfettiği gibi, ikonik tek bir poz bile korunamayabilir. iktidar:

Michael Jordan'ın en soldaki fotoğrafını çeken bir fotoğrafçı, fotoğrafı yeniden üreten Nike'a dava açtı (sağda); ancak bir jüri heyeti iddiayı reddetti. Kaynak: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Michael Jordan'ın en soldaki fotoğrafını çeken bir fotoğrafçı, fotoğrafı (sağda) yeniden yaratan Nike'a dava açtı; ancak bir jüri heyeti bu iddiayı reddetti. Kaynak: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Yeni PoseGuard sistemi, güvenli olmayan bir poz tespit edildiğinde çıktıyı düşüren; güvenlik bariyerlerini doğrudan üretken bir modele yerleştiren; üç kategoride 'güvenli olmayan' pozları tanımlayan; ve rahatsız edici bir poz filtreden kaçacak kadar değiştirildiğinde üretimin kalite ve bütünlüğünü korumasını sağlayan ilk sistem olduğunu iddia ediyor.

MKS yeni kağıt başlıklı PoseGuard: Güvenlik Korkuluklarıyla Poz Rehberli Üretimve Çin Bilim ve Teknoloji Üniversitesi, (Singapur) Bilim, Teknoloji ve Araştırma Ajansı (A*STAR CFAR) ve Nanyang Teknoloji Üniversitesi'ndeki altı araştırmacıdan geliyor.

Yöntem

PoseGuard, mantığını yeniden kullanıyor arka kapı saldırıları Modele doğrudan bir savunma mekanizması inşa etmek. Tipik bir arka kapı saldırısında, belirli girdiler kötü amaçlı çıktıları tetikler ve PoseGuard bu düzeni tersine çevirir: Cinsel, saldırgan veya telif hakkına duyarlı nitelikleri nedeniyle güvenli olmadığı düşünülen belirli önceden tanımlanmış pozlar, boş veya bulanık çerçeveler gibi 'nötr' hedef görüntülere bağlanır.

Sistem, normal ve tetikleyici pozların birleştirilmiş bir veri kümesi üzerinde modeli ince ayar yaparak, güvenli olmayan girdiler için çıktı kalitesini düşürürken, güvenli olmayan girdiler için doğruluğu korumayı öğrenir:

PoseGuard, önceden eğitilmiş ağırlıkları güvenlik uyumlu ince ayarlarla birleştirerek, paylaşılan bir gürültü giderme UNet kullanarak bir referans görüntü ve poz dizisini işler. Bu kurulum, modelin normal girdiler için çıktı kalitesini korurken, güvenli olmayan pozlardan kaynaklanan zararlı oluşumları bastırmasını sağlar.

PoseGuard, önceden eğitilmiş ağırlıkları güvenlik uyumlu ince ayarlarla birleştirerek, paylaşılan bir gürültü giderme UNet kullanarak bir referans görüntü ve poz dizisini işler. Bu kurulum, modelin normal girdiler için çıktı kalitesini korurken, güvenli olmayan pozlardan kaynaklanan zararlı oluşumları bastırmasını sağlar.

Bu 'model içi' strateji, harici filtrelere olan ihtiyacı ortadan kaldırır ve düşmanca veya açık kaynaklı ortamlarda bile etkililiğini korur.*

Veriler ve Testler

İyi huylu temel pozlar elde etmek için yazarlar şunları kullandı: UBC-Moda veri kümesi:

PoseGuard'da zararsız pozların kaynağı olarak kullanılan British Columbia Üniversitesi moda veri setinden örnekler. Kaynak: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

British Columbia Üniversitesi moda veri setinden örnekler, PoseGuard'da iyi huylu pozların kaynağı olarak kullanılmıştır. Bu görüntülerden, bir poz tahmin çerçevesi kullanılarak soyut pozlar çıkarılmıştır.  Kaynak: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Daha önce de belirtildiği gibi, güvenli olmayan pozlar CivitAI gibi açık kaynaklı platformlardan alınmıştır. Pozlar, şu şekilde çıkarılmıştır: DWPoz çerçeve, 768x768px poz görüntüleri ile sonuçlanır:

Eğitimde kullanılan 50 güvenli olmayan pozdan örnekler. Burada gösterilen pozlar, Wikipedia, Render-State, Civitai ve Google Arama'dan alınan, NSFW ve telif hakkı açısından hassas pozlardır.

Eğitimde kullanılan 50 güvenli olmayan pozdan örnekler. Burada gösterilen pozlar, Wikipedia, Render-State, Civitai ve Google Arama'dan alınan, NSFW ve telif hakkı açısından hassas pozlardır.

Poz rehberliğindeki nesil modeli AnimateAnyone.

Kullanılan altı ölçüm şunlardı: Fréchet Video Mesafesi (ÖVD); FID-VID; Yapısal Benzerlik Endeksi (SSM); Tepe Sinyal-Gürültü Oranı (PSNR); Öğrenilmiş Algısal Benzerlik Ölçümleri (LPIP'ler); ve Fréchet Başlangıç ​​Mesafesi (FID). Testler, 6000 GB VRAM'li bir NVIDIA A48 GPU'da gerçekleştirildi. Parti boyutu 4 ve bir öğrenme oranı 1 × 10-5.

Test edilen üç temel kategori şunlardı: etki, sağlamlık, ve genelleme.

Bunlardan ilkinde, etkiYazarlar, PoseGuard için iki eğitim stratejisini karşılaştırdılar: gürültü giderici UNet'in tam ince ayarı ve LoRA modülleri kullanılarak parametre açısından verimli ince ayar.

Her iki yaklaşım da güvenli olmayan pozlardan gelen çıktıları bastırırken, iyi huylu pozlarda çıktı kalitesini korur, ancak farklı ödünleşimlerle: tam ince ayar daha güçlü bastırma sağlar ve özellikle güvenli olmayan eğitim pozlarının sayısı az olduğunda daha yüksek doğruluğu korur; ve LoRA tabanlı ayarlama, güvenli olmayan pozların sayısı arttıkça üretim kalitesinde daha fazla bozulmaya neden olur - ancak önemli ölçüde daha az parametre ve daha az hesaplama gerektirir.

PoseGuard'ın nesil ve savunma metriklerindeki performansı. Yukarı oklar, daha yüksek değerlerin daha iyi olduğu metrikleri; aşağı oklar ise daha düşük değerlerin daha iyi olduğu metrikleri gösterir.

PoseGuard'ın nesil ve savunma metriklerindeki performansı. Yukarı oklar, daha yüksek değerlerin daha iyi olduğu metrikleri; aşağı oklar ise daha düşük değerlerin daha iyi olduğu metrikleri gösterir.

Nitel sonuçlar (aşağıdaki görsele bakın), müdahale olmadan modelin saldırgan ve uygunsuz pozları yüksek doğrulukla yeniden ürettiğini gösterdi. PoseGuard etkinleştirildiğinde, bu pozlar düşük kaliteli veya boş çıktıları tetiklerken, zararsız girdiler görsel olarak bozulmadan kaldı. Savunma seti dörtten otuz iki güvensiz poza çıktıkça, zararsız çıktı kalitesi, özellikle LoRA için orta düzeyde azaldı.

PoseGuard'ın tam parametreli ince ayar kullanarak tek bir güvenli olmayan poza nasıl tepki verdiğini gösteren görsel sonuçlar. Model, ayrımcı, uygunsuz ve telif hakkına duyarlı pozların çıktısını bastırarak bunları siyah bir görüntüye yönlendirirken, normal girdilerin kalitesini korur.

PoseGuard'ın tam parametreli ince ayar kullanarak tek bir güvenli olmayan poza nasıl tepki verdiğini gösteren görsel sonuçlar. Model, ayrımcı, uygunsuz ve telif hakkına duyarlı pozların çıktısını bastırarak bunları siyah bir görüntüye yönlendirirken, normal girdilerin kalitesini korur.

Her Ticaretçi İçin Mükemmellik sağlamlıkPoseGuard, giriş pozlarının önceden tanımlanmış örneklerle tam olarak eşleşmeyebileceği gerçek dünya dağıtımını simüle eden koşullar altında test edildi. Değerlendirme, aşağıdaki gibi yaygın dönüşümleri içeriyordu: çeviri, ölçekleme, ve rotasyonve doğal değişimi taklit etmek için eklem açılarında manuel ayarlamalar da mevcuttur.

Yaygın poz dönüşümleri karşısında PoseGuard'ın sağlamlığına ilişkin sonuçlar.

Yaygın poz dönüşümleri karşısında PoseGuard'ın sağlamlığına ilişkin sonuçlar.

Çoğu durumda, model güvenli olmayan nesilleri bastırmaya devam etti ve bu da savunmanın orta düzeydeki bozulmalara karşı güçlü kaldığını gösteriyor. Değişiklikler, risk altındaki temel riski ortadan kaldırdığında, model bastırmayı bıraktı ve normal çıktılar üretti; bu da, iyi huylu sapmalar altında yanlış pozitiflerden kaçındığını gösteriyor.

PoseGuard'ın poz değişikliklerine karşı dayanıklılığının değerlendirilmesi. Şekilde, çeviri, ölçekleme ve döndürme ile manuel uzuv ayarlamaları ile değiştirilen güvenli olmayan pozlar için model çıktıları gösterilmektedir. PoseGuard, hafif değişiklikler altında güvenli olmayan oluşumları bastırmaya devam eder, ancak poz artık riskli içerik taşımadığında normal çıktıyı sürdürür.

PoseGuard'ın poz değişikliklerine karşı dayanıklılığının değerlendirilmesi. Şekil, çeviri, ölçekleme ve döndürme ile manuel uzuv ayarlamaları ile değiştirilen güvenli olmayan pozlar için model çıktılarını göstermektedir. PoseGuard, hafif değişiklikler altında güvenli olmayan oluşumları bastırmaya devam eder, ancak poz artık 'riskli' içerik taşımadığında normal çıktıyı sürdürür.

Son olarak, deneylerin ana aşamasında araştırmacılar PoseGuard'ı şu açılardan test ettiler: genelleme – çeşitli ortamlarda ve koşullarda yeni veriler üzerinde etkili bir şekilde çalışabilme yeteneği.

Burada, PoseGuard, yukarıda bahsedilen AnimateAnyone modeli kullanılarak referans görüntü kılavuzlu üretim için uygulandı. Bu ayarda, sistem, poz tabanlı kontrole kıyasla yetkisiz çıktıları daha güçlü bir şekilde bastırdı ve bazı durumlarda üretilen videonun neredeyse tamamen bozulmasına neden oldu:

Dört güvenli olmayan girdi üzerinde tam ince ayar kullanılarak, poz rehberliğinde ve referans görüntü rehberliğinde üretime uygulandığında PoseGuard'ın performansının karşılaştırılması.

Dört güvenli olmayan girdi üzerinde tam ince ayar kullanılarak, poz rehberliğinde ve referans görüntü rehberliğinde üretime uygulandığında PoseGuard'ın performansının karşılaştırılması.

Yazarlar bunu, referans görüntülerdeki yoğun kimlik bilgisine bağlıyor ve bu da modelin hedefli savunma davranışlarını daha kolay öğrenmesini sağlıyor. Sonuçlar, PoseGuard'ın videonun doğrudan bir kişinin görünümünden oluşturulduğu durumlarda taklit risklerini sınırlayabileceğini gösteriyor.

Son bir test için yazarlar, PoseGuard'ı yüz simgesi rehberliğindeki video sentezine uyguladılar. AniPortre Sistem, tüm vücudu kapsayan pozlar yerine, ince ayrıntılı yüz ifadelerini hedefleyen bir senaryodur.

AniPortrait'te yeni sistemle güvenli olmayan yüz ifadeleri bastırılıyor.

AniPortrait'te yeni sistemle güvenli olmayan yüz ifadeleri bastırılıyor.

Denoising UNet'i aynı savunma mekanizmasıyla ince ayarlayarak, model güvenli olmayan yüz işaretlerinden gelen çıktıları bastırmayı başarırken, zararsız ifadeleri etkilememeyi başardı. Yazarlar, sonuçların PoseGuard'ın girdi biçimleri arasında genelleştirilebileceğini ve daha yerelleştirilmiş, ifade odaklı üretim görevlerinde etkinliğini koruyabileceğini gösterdiğini öne sürüyor.

PoseGuard'ın referans görüntü kılavuzlu üretime nasıl yanıt verdiğini gösteren görsel sonuçlar.

PoseGuard'ın referans görüntü kılavuzlu üretime nasıl yanıt verdiğini gösteren görsel sonuçlar.

Sonuç

Makalede yer alan 50 yasaklı referans pozunun birçoğu için, tıbbi muayeneler veya hatta sıkıcı ev işleri yapmak gibi aktivitelerin, yalnızca sentez tabanlı bir versiyon olarak düşünülebilecek bir şeyde engelleneceği kabul edilmelidir. Scunthorpe etkisi.

Bu açıdan bakıldığında ve özellikle yüz ifadeleri söz konusu olduğunda (ki bunlar niyet açısından çok daha belirsiz ve nüanslı olabilir), PoseGuard biraz kaba bir araç gibi görünüyor. Üstelik, genel bir bakış açısı nedeniyle soğutma etkisi NSFW AI ve FOSS yayınları, Flux Kontext gibi son zamanlarda rutin olarak yayınlanıyor çok sansürlü her durumda, ya titiz veri seti filtrelemesi, ya ağırlık düzenlemesi ya da her ikisi yoluyla.

Dolayısıyla, burada önerilen kısıtlamaları yerel model sansürünün yüküne eklemek, API dışı üretici sistemlerin etkinliğini bastırmak için örtük bir girişim gibi görünüyor. Bu durum bizi, yerel modellerin kullanıcının beğendiği herhangi bir şeyin daha düşük bir versiyonunu üretebileceği, API modellerinin ise sonsuz derecede üstün çıktılar sunabileceği bir geleceğe işaret ediyor; tabii eğer kişi, ana şirketin hukuk departmanını yatıştıran filtreler ve güvenlik önlemleriyle başa çıkabilirse.

PoseGuard gibi, ince ayarların temel modelin çıktısının kalitesini aktif olarak etkilediği bir sistem (makalede göz ardı edilmesine rağmen) API sistemlerine yönelik değildir; yalnızca çevrimiçi öncü modeller, bu modellerin muazzam NSFW kapasitelerinin önemli denetim önlemleriyle dizginlenmesi nedeniyle, kısıtlanmamış eğitim verilerinden yararlanmaya devam edecektir.

 

* Yöntem burada da makaledeki kadar kısa (makale sadece beş sayfa) ve her zamanki gibi yaklaşım testler bölümünden daha iyi anlaşılıyor.

İlk yayınlanma tarihi: 6 Ağustos 2025 Çarşamba

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai