Connect with us

Unite.AI

Nu är NSFW och “kändis”-poser bränsle för AI-censur

Andersons vinkel

Nu är NSFW och “kändis”-poser bränsle för AI-censur

Published August 6, 2025

Updated May 18, 2026

By

Martin Anderson

An artist's wooden mannequin getting arrested – Flux 1D.

En ny AI-säkerhetsåtgärd för generativa videosystem föreslår censur av kroppsställningar. Fysiska ställningar (eller ansiktsuttryck) som kan tolkas som sexuellt suggestiva, “offensiva gester” eller till och med upphovsrättsskyddade kändis- eller varumärkesskyddade poser, är alla måltavlor.

Ny forskning från Kina och Singapore behandlar en av de mindre uppenbara domänerna inom “osäkra” bild- och videogenerering: avbildandet av en pose i sig, i bemärkelsen kroppens eller ansiktsuttryckets disposition i AI-skapade utdata:

Konceptuell schema för PoseGuard, systemet som föreslås i den nya forskningen. Källa: https://arxiv.org/pdf/2508.02476

Konceptuell schema för PoseGuard, systemet som föreslås i den nya forskningen. Källa: https://arxiv.org/pdf/2508.02476

Systemet, med titeln PoseGuard, använder finjustering och LoRAs för att skapa modeller som inte kan generera “förbjudna” poser. Denna tillvägagångssätt valdes eftersom de säkerhetsåtgärder som är inbyggda i FOSS-modeller vanligtvis kan övervinnas på ett trivialt sätt, vilket betonar att denna nya “filter” specifikt riktar sig mot lokala installationer (eftersom API-modeller kan filtrera inkommande och utgående innehåll och prompter, utan att skada modellens integritet genom finjustering).

Detta är inte den första forskningen som behandlar poser som osäkra data i sig; “sexuella ansiktsuttryck” har varit ett mindre underområde för studier under en tid, medan flera av författarna till den nya forskningen också skapade det mindre avancerade Dormant-systemet.

Men den nya artikeln är den första, såvitt jag kan se, som utvidgar typningen av poser bortom sexuellt innehåll, till och med till upphovsrättsskyddade kändisrörelser:

‘Vi definierar osäkra poser baserat på de potentiella riskerna med genererade utdata snarare än geometriska egenskaper. [Osäkra] poser inkluderar: 1) diskriminerande poser (t.ex. knäböj, offensiva hälsningar), 2) sexuellt suggestiva NSFW-poser och 3) upphovsrättsskyddade poser som imiterar kändis-specifika bilder.

‘Dessa poser samlas in från onlinekällor (t.ex. Wikipedia), LLM-baserad filtrering och riskmärkta datamängder (t.ex. Civitai NSFW-taggar), vilket säkerställer en balanserad och omfattande osäker pose-datamängd för utbildning.’

Den 'NSFW'-kategori av de 50 poser som utvecklats för PoseGuard.

Den ‘NSFW’-kategori av de 50 poser som utvecklats för PoseGuard.

Det är intressant att notera att kändisposer kan vara upphovsrättsskyddade eller skyddade av juridiska medel, och att tillräckligt “kreativa” kombinationer av poser eller ställningar kan skyddas som unika koreografiska sekvenser. Men även en ikonisk enskild pose kan inte vara skyddad, som en fotograf upptäckte i fallet Rentmeester Vs. Nike dom:

En fotograf som tog den vänstra bilden av Michael Jordan stämde Nike när de återskapade bilden (höger); men en panel av domare avslog anspråket. Källa: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

En fotograf som tog den vänstra bilden av Michael Jordan stämde Nike när de återskapade bilden (höger); men en panel av domare avslog anspråket. Källa: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Det nya PoseGuard-systemet påstår sig vara det första som försämrar utdata när en osäker pose upptäcks; att införa säkerhetsåtgärder direkt i en generativ modell; att definiera “osäkra” poser över tre kategorier; och att säkerställa att generationen behåller kvalitet och integritet när en stötande pose har ändrats tillräckligt för att undvika filtret.

Den nya artikeln har titeln PoseGuard: Pose-Guided Generation with Safety Guardrails, och kommer från sex forskare vid University of Science and Technology of China, Agency for Science, Technology and Research (A*STAR CFAR) och Nanyang Technological University.

Metod

PoseGuard återanvänder logiken för bakdörrsattacker för att bygga en försvarsmekanism direkt i modellen. I en typisk bakdörrsattack utlöser specifika indata skadliga utdata, och PoseGuard inverterar denna konfiguration: vissa fördefinierade poser som anses osäkra på grund av sin sexuella, offensiva eller upphovsrättsskyddade natur, är länkade till “neutrala” målbilder, såsom tomma eller suddiga ramar.

Genom finjustering av modellen på en kombinerad datamängd av normala och utlösande poser lär sig systemet att bevara trohet för benigna indata medan utdatakvaliteten försämras för osäkra indata:

PoseGuard bearbetar en referensbild och pose-sekvens med en delad avlägsnande UNet, som kombinerar förutbildade vikter med säkerhetsjusterad finjustering. Denna konfiguration tillåter modellen att undertrycka skadliga generationer från osäkra poser medan utdatakvaliteten för normala indata behålls.

PoseGuard bearbetar en referensbild och pose-sekvens med en delad avlägsnande UNet, som kombinerar förutbildade vikter med säkerhetsjusterad finjustering. Denna konfiguration tillåter modellen att undertrycka skadliga generationer från osäkra poser medan utdatakvaliteten för normala indata behålls.

Denna “in-model”-strategi eliminerar behovet av externa filter och förblir effektiv även i adversariala eller öppna miljöer.*

Data och tester

För att få benigna basposer använde författarna UBC-Fashion-datamängden:

Exempel från University of British Columbia fashion-datamängd, som används som källa för benigna poser i PoseGuard. Källa: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exempel från University of British Columbia fashion-datamängd, som används som källa för benigna poser i PoseGuard. Abstrakta poser extraherades från dessa bilder med en pose-estimeringsram. Källa: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Osäkra poser, som nämndes tidigare, samlades in från öppna plattformar som CivitAI. Poser extraherades med DWPose-ramverket, vilket resulterade i 768x768px pose-bilder:

Exempel från de 50 osäkra poser som används i utbildningen. Här visas NSFW- och upphovsrättsskyddade poser, som samlats in från Wikipedia, Render-State, Civitai och Google Search.

Exempel från de 50 osäkra poser som används i utbildningen. Här visas NSFW- och upphovsrättsskyddade poser, som samlats in från Wikipedia, Render-State, Civitai och Google Search.

Pose-guided generation-modellen var AnimateAnyone.

De sex metricer som användes var Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Lärd Perceptuell Similaritetsmått (LPIPS); och Fréchet Inception Distance (FID). Tester utfördes på en NVIDIA A6000 GPU med 48 GB VRAM, vid en batchstorlek på 4 och en inlärningshastighet på 1×10^-5.

De tre primära kategorierna som testades var effektivitet, robusthet och generalisering.

I den första av dessa, effektivitet, jämförde författarna två utbildningsstrategier för PoseGuard: fullständig finjustering av den avlägsnande UNet och parameter-effektiv finjustering med LoRA-moduler.

Båda tillvägagångssätten undertrycker utdata från osäkra poser medan de behåller utdatakvalitet på benigna poser, men med olika kompromisser: fullständig finjustering uppnår starkare undertryck och behåller högre trohet, särskilt när antalet osäkra utbildningsposer var litet; och LoRA-baserad finjustering introducerar mer försämring av generationskvalitet när antalet osäkra poser ökar – men kräver betydligt färre parametrar och mindre beräkningar.

PoseGuards prestation över generations- och försvarsmetriska värden. Uppåtriktade pilar indikerar metriker där högre värden är bättre; nedåtriktade pilar indikerar metriker där lägre värden är bättre.

PoseGuards prestation över generations- och försvarsmetriska värden. Uppåtriktade pilar indikerar metriker där högre värden är bättre; nedåtriktade pilar indikerar metriker där lägre värden är bättre.

Kvalitativa resultat (se bild nedan) visade att, utan ingrepp, modellen återskapade offensiva och NSFW-poser med hög trohet. Med PoseGuard aktiverat utlöste dessa poser lågkvalitativa eller tomma utdata, medan benigna indata förblev visuellt intakta. När försvarsuppsättningen växte från fyra till trettiotvå osäkra poser, försämrades benign utdatakvalitet måttligt, särskilt för LoRA.

Visuella resultat som visar hur PoseGuard svarar på en enskild osäker pose med fullständig parameterfinjustering. Modellen undertrycker utdata för diskriminerande, NSFW- och upphovsrättsskyddade poser, och omdirigerar dem till en svart bild, medan den behåller kvalitet för normala indata.

Visuella resultat som visar hur PoseGuard svarar på en enskild osäker pose med fullständig parameterfinjustering. Modellen undertrycker utdata för diskriminerande, NSFW- och upphovsrättsskyddade poser, och omdirigerar dem till en svart bild, medan den behåller kvalitet för normala indata.

För robusthet testades PoseGuard under förhållanden som simulerar verklig distribution, där indataposer kanske inte matchar fördefinierade exempel exakt. Utvärderingen inkluderade vanliga transformationer som översättning, skalning och rotation, samt manuella justeringar av ledvinklar för att imitera naturlig variation.

Resultat för PoseGuards robusthet i förhållande till vanliga pose-transformationer.

Resultat för PoseGuards robusthet i förhållande till vanliga pose-transformationer.

I de flesta fall fortsatte modellen att undertrycka osäkra generationer, vilket indikerar att försvaret förblir robust mot måttliga perturbationer. När ändringarna avlägsnade den underliggande risken i posen, slutade modellen undertrycka och producerade normala utdata, vilket tyder på att den undviker falska positiva under benigna avvikelser.

Utvärdering av PoseGuards robusthet mot pose-modifikationer. Figuren visar modellens utdata för osäkra poser som ändrats genom översättning, skalning och rotation, samt manuella ledjusteringar. PoseGuard fortsätter att undertrycka osäkra generationer under måttliga förändringar, men återgår till normal utdata när posen inte längre innehåller riskabelt innehåll.

Utvärdering av PoseGuards robusthet mot pose-modifikationer. Figuren visar modellens utdata för osäkra poser som ändrats genom översättning, skalning och rotation, samt manuella ledjusteringar. PoseGuard fortsätter att undertrycka osäkra generationer under måttliga förändringar, men återgår till normal utdata när posen inte längre innehåller riskabelt innehåll.

Slutligen, i den huvudsakliga testserien, testade forskarna PoseGuard för generalisering – dess förmåga att fungera effektivt på nya data, i en mängd olika miljöer och omständigheter.

Här tillämpades PoseGuard på referensbildsstyrd generation med hjälp av den ovannämnda AnimateAnyone-modellen. I denna inställning visade systemet en starkare undertryckning av obehöriga utdata jämfört med pose-baserad kontroll, med nästan total försämring av den genererade videon i vissa fall:

Jämförelse av PoseGuards prestation när den tillämpas på pose-styrd kontra referensbildsstyrd generation, med fullständig finjustering på fyra osäkra indata.

Jämförelse av PoseGuards prestation när den tillämpas på pose-styrd kontra referensbildsstyrd generation, med fullständig finjustering på fyra osäkra indata.

Författarna tillskriver detta den täta identitetsinformationen i referensbilder, som tillåter modellen att lättare lära sig riktad defensiv beteende. Resultaten, menar de, indikerar att PoseGuard kan begränsa risken för imitation i scenarier där video genereras direkt från en persons utseende.

För en sista test tillämpade författarna PoseGuard på ansiktslandmärkesstyrd videosyntes med hjälp av AniPortrait-systemet, ett scenario som riktar sig mot fina ansiktsuttryck snarare än fullständiga kroppsposter.

Osäkra ansiktsuttryck undertrycks i AniPortrait, med det nya systemet.

Osäkra ansiktsuttryck undertrycks i AniPortrait, med det nya systemet.

Genom finjustering av den avlägsnande UNet med samma försvarsmekanism kunde modellen undertrycka utdata från osäkra ansiktslandmärken medan den lämnade benigna uttryck opåverkade. Resultaten, menar författarna, visar att PoseGuard kan generaliseras över indata-modaliteter och behålla effektivitet i mer lokaliserade, uttrycksdrivna generationsuppgifter.

Visuella resultat som visar hur PoseGuard svarar på referensbildsstyrd generation.

Visuella resultat som visar hur PoseGuard svarar på referensbildsstyrd generation.

Slutsats

Det måste erkännas att för många av de 50 förbjudna referensposerna som tillhandahålls av artikeln, skulle aktiviteter som medicinska undersökningar eller till och med tråkiga hushållssysslor sannolikt blockeras i vad som bara kan beskrivas som en syntesbaserad version av Scunthorpe-effekten.

Från den synvinkeln, och ännu mer i fallet med ansiktsuttryck (som kan vara mycket mer tvetydiga och nyanserade i avsikt), verkar PoseGuard vara en ganska grov instrument. Dessutom, på grund av en allmän kylig effekt runt NSFW AI, släpps FOSS-utgåvor som den nyligen släppta Flux Kontext rutinmässigt mycket censurerade i alla fall,, antingen genom rigorös datamängdsfiltrering, viktredigering eller båda.

Därför verkar det som att lägga till de begränsningar som föreslås här till bördan av lokalmodellcensur är en tyst strävan att undertrycka effektiviteten hos icke-API-generativa system. Detta pekar kanske mot en framtid där lokala modeller kan producera en underlägsen generation av vad som helst användaren vill ha, medan API-modeller erbjuder oändligt bättre utdata, om man bara kan navigera genom filtren och säkerhetsåtgärderna som pacificerar värdens juridiska avdelning.

Ett system som PoseGuard, där finjustering aktivt påverkar kvaliteten på basmodellens utdata (även om detta försummas i artikeln), är inte riktat mot API-system alls; online-vaktmodeller kommer troligen att fortsätta dra nytta av obegränsade träningsdata, eftersom de imponerande NSFW-förmågorna hos dessa modeller hålls tillbaka av betydande övervakningsåtgärder.

* Metoden är lika kort här som i artikeln (som bara är fem sidor lång), och som vanligt är tillvägagångssättet bäst förstått från testsektionen.

Publicerad första gången onsdag, 6 augusti 2025

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.