Connect with us

Andersons vinkel

Nu NSFW og “celebrity”-poser er føde for AI-censur

mm
An artist's wooden mannequin getting arrested – Flux 1D.

En ny AI-sikkerhedsforanstaltning for generative videosystemer foreslår at censurere kroppsstillinger. Fysisk stillinger (eller ansigtsudtryk) som kan fortolkes som seksuelt sugestive, “offensive gestus” eller endda ophavsretligt beskyttede celebrity- eller varemærkebeskyttede stillinger, er alle mål.

 

Nyt forskning fra Kina og Singapore beskæftiger sig med et af de mindre åbenlyse områder i “usikre” billed- og videogenerering: afbildning af en stilling i sig selv, i betydningen af dispositionen af kroppen eller ansigtsudtrykket af en afbildet person i AI-genereret output:

Konceptuel skema for PoseGuard, systemet foreslået i den nye forskning. Kilde: https://arxiv.org/pdf/2508.02476

Konceptuel skema for PoseGuard, systemet foreslået i den nye forskning. Kilde: https://arxiv.org/pdf/2508.02476

Systemet, med titlen PoseGuard, bruger fine-tuning og LoRAs til at oprette modeller, der intrinsisk ikke kan generere “forbudte” stillinger. Denne tilgang blev valgt, fordi sikkerhedsforanstaltningerne i FOSS-modellerne normalt kan overvindes, hvilket understreger, at denne nye “filter” specifikt målretter lokale installationer (siden API-kun-modeller kan filtrere indgående og udgående indhold og prompts, uden at udsætte integriteten af modelvægtene ved fine-tuning).

Dette er ikke det første arbejde, der behandler stillinger som usikker data i sig selv; “seksuelle ansigtsudtryk” har været et mindre underfelt af studie i nogen tid, mens flere af forfatterne af det nye arbejde også skabte det mindre avancerede Dormant-system.

Men det nye papir er det første, så vidt jeg kan se, til at udvide typningen af stillinger ud over seksuelt indhold, endda til at inkludere “ophavsretligt beskyttede celebrity-bevægelser”:

‘Vi definerer usikre stillinger baseret på de potentielle risici for genererede outputs snarere end geometriske karakteristika. [Usikre] stillinger inkluderer: 1) diskriminerende stillinger (f.eks. knælende, offensive hilsner), 2) seksuelt sugestive NSFW-stillinger og 3) ophavsretligt beskyttede stillinger, der imiterer celebrity-specifikke billeder.

‘Disse stillinger indsamles gennem online-kilder (f.eks. Wikipedia), LLM-baseret filtrering og risiko-mærkede datasæt (f.eks. Civitai NSFW-mærker), hvilket sikrer et balanceret og omfattende usikker stillingsdatasæt for træning.’

Den 'NSFW'-kategori af de 50 stillinger, der er udviklet til PoseGuard.

Den ‘NSFW’-kategori af de 50 stillinger, der er udviklet til PoseGuard.

Det er interessant at bemærke, at celebrity-stillinger kan være varemærkebeskyttede eller beskyttet af lovmæssige midler, og at tilstrækkeligt “kreative” kombinationer af stillinger eller stillinger kan være beskyttet som unikke sekvenser af koreografi. Men selv en ikonisk enkelt stilling kan ikke være beskyttet, som en fotograf opdagede i Rentmeester Vs. Nike dom:

En fotograf, der tog det venstre foto af Michael Jordan, anlagde sag mod Nike, da de genskabte fotograffiet (højre); men en pane af dommere afviste kravet. Kilde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

En fotograf, der tog det venstre foto af Michael Jordan, anlagde sag mod Nike, da de genskabte fotograffiet (højre); men en pane af dommere afviste kravet. Kilde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Det nye PoseGuard-system påberåber sig at være det første til at degradere output, når en usikker stilling er detekteret; at indbygge sikkerhedsforanstaltninger direkte i en generativ model; at definere “usikre” stillinger på tværs af tre kategorier; og at sikre, at generationen opretholder kvalitet og integritet, når en forbudt stilling er ændret nok til at undgå filtret.

Den nye artikel har titlen PoseGuard: Pose-Guided Generation with Safety Guardrails og kommer fra seks forskere på University of Science and Technology of China, Agency for Science, Technology and Research (A*STAR CFAR) og Nanyang Technological University.

Metode

PoseGuard genbruger logikken fra backdoor-angreb til at bygge en forsvarsmekanisme direkte ind i modellen. I et typisk backdoor-angreb udløser bestemte indgange skadelige outputs, og PoseGuard inverterer denne opsætning: bestemte foruddefinerede stillinger, der er betragtet som usikre på grund af deres seksuelle, offensive eller ophavsretligt beskyttede natur, er knyttet til “neutrale” målbilleder, såsom tomme eller uklare rammer.

Ved at fine-tune modellen på en kombineret datasæt af normale og udløsende stillinger, lærer systemet at bevare trofasthed for benigne indgange, mens outputkvaliteten for usikre indgange degraderes:

PoseGuard behandler et referencebillede og stillingssekvens ved hjælp af en fælles denoiserende UNet, kombineret med forudtrænede vægte og sikkerhedsjusteret fine-tuning. Denne opsætning tillader modellen at undertrykke skadelige generationer fra usikre stillinger, mens outputkvaliteten for normale indgange opretholdes.

PoseGuard behandler et referencebillede og stillingssekvens ved hjælp af en fælles denoiserende UNet, kombineret med forudtrænede vægte og sikkerhedsjusteret fine-tuning. Denne opsætning tillader modellen at undertrykke skadelige generationer fra usikre stillinger, mens outputkvaliteten for normale indgange opretholdes.

Denne “i-modellen”-strategi eliminerer behovet for eksterne filtre og forbliver effektiv, selv i adversarielle eller åbne kilde-miljøer.*

Data og tests

For at opnå benigne baseline-stillinger, brugte forfatterne UBC-Fashion-datasættet:

Eksempler fra University of British Columbia fashion-datasættet, brugt som kilde til benigne stillinger i PoseGuard. Kilde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Eksempler fra University of British Columbia fashion-datasættet, brugt som kilde til benigne stillinger i PoseGuard. Abstrakte stillinger blev ekstraheret fra disse billeder med en stillings-estimeringsramme. Kilde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Usikre stillinger, som tidligere nævnt, blev hentet fra åbne kilde-platforme som CivitAI. Stillingerne blev ekstraheret ved hjælp af DWPose-rammen, hvilket resulterede i 768x768px stillingsbilleder:

Eksempler fra de 50 usikre stillinger, der er brugt til træning. Her vises NSFW- og ophavsretligt beskyttede stillinger, hentet fra Wikipedia, Render-State, Civitai og Google Search.

Eksempler fra de 50 usikre stillinger, der er brugt til træning. Her vises NSFW- og ophavsretligt beskyttede stillinger, hentet fra Wikipedia, Render-State, Civitai og Google Search.

Stilling-guidet generationsmodellen var AnimateAnyone.

De seks metrikker, der blev brugt, var Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); og Fréchet Inception Distance (FID). Testsene blev udført på en NVIDIA A6000 GPU med 48GB RAM, ved en batch-størrelse på 4 og en læringsrate på 1×10-5.

De tre primære kategorier, der blev testet, var effektivitet, robusthed og generalisering.

I den første af disse, effektivitet, sammenlignede forfatterne to træningsstrategier for PoseGuard: fuld fine-tuning af denoiserende UNet og parameter-effektiv fine-tuning ved hjælp af LoRA-moduler.

Begge tilgange undertrykker outputs fra usikre stillinger, mens outputkvaliteten på benigne stillinger opretholdes, men med forskellige kompromiser: fuld fine-tuning opnår stærkere undertrykkelse og opretholder højere trofasthed, især når antallet af usikre træningsstillinger var lille; og LoRA-baseret finjustering introducerer mere degradering af generationskvaliteten, når antallet af usikre stillinger øges – men kræver betydeligt færre parametre og mindre beregning.

PoseGuards præstationer på tværs af generations- og forsvarsmetrikker. Opadpegende pile angiver metrikker, hvor højere værdier er bedre; nedadpegende pile angiver metrikker, hvor lavere værdier er bedre.

PoseGuards præstationer på tværs af generations- og forsvarsmetrikker. Opadpegende pile angiver metrikker, hvor højere værdier er bedre; nedadpegende pile angiver metrikker, hvor lavere værdier er bedre.

Kvalitative resultater (se billedet nedenfor) viste, at uden intervention reproducerede modellen offensive og NSFW-stillinger med høj trofasthed. Med PoseGuard aktiveret udløste disse stillinger lavkvalitets- eller tomme outputs, mens benigne indgange forblev visuelt intakte. Da forsvarssettet voksede fra fire til 32 usikre stillinger, faldt benigne outputkvaliteten moderat, især for LoRA:

Visuelle resultater, der viser, hvordan PoseGuard reagerer på en enkelt usikker stilling ved hjælp af fuld-parameter fine-tuning. Modellen undertrykker output for diskriminerende, NSFW- og ophavsretligt beskyttede stillinger, mens outputkvaliteten for normale indgange opretholdes.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på en enkelt usikker stilling ved hjælp af fuld-parameter fine-tuning. Modellen undertrykker output for diskriminerende, NSFW- og ophavsretligt beskyttede stillinger, mens outputkvaliteten for normale indgange opretholdes.

For robusthed blev PoseGuard testet under betingelser, der simulerer virkelige anvendelser, hvor indstillingerne måske ikke matcher foruddefinerede eksempler nøjagtigt. Evalueringen inkluderede almindelige transformationer som translation, skalering og rotation, samt manuelle justeringer af ledvinkler for at efterligne naturlig variation.

Resultater for robustheden af PoseGuard over for almindelige stillingstransformationer.

Resultater for robustheden af PoseGuard over for almindelige stillingstransformationer.

I de fleste tilfælde fortsatte modellen med at undertrykke usikre generationer, hvilket indikerer, at forsvaret forbliver robust over for moderate perturbationer. Når ændringerne fjernede den underliggende risiko i stillingen, stoppede modellen med at undertrykke og producerede normale outputs, hvilket antyder, at den undgår falske positiver under benigne afvigelser.

Evaluering af PoseGuards robusthed over for stillingsændringer. Figuren viser modeloutput for usikre stillinger ændret af translation, skalering og rotation, samt manuelle lemjusteringer. PoseGuard fortsætter med at undertrykke usikre generationer under milde ændringer, men genoptager normal output, når stillingen ikke længere indeholder risikofyldt indhold.

Evaluering af PoseGuards robusthed over for stillingsændringer. Figuren viser modeloutput for usikre stillinger ændret af translation, skalering og rotation, samt manuelle lemjusteringer. PoseGuard fortsætter med at undertrykke usikre generationer under milde ændringer, men genoptager normal output, når stillingen ikke længere indeholder ‘risikofyldt’ indhold.

Til sidst, i den primære række af eksperimenter, testede forskerne PoseGuard for generalisering – dens evne til at fungere effektivt på nye data, i en række miljøer og omstændigheder.

Her blev PoseGuard anvendt på referencebillede-guidet generation ved hjælp af ovennævnte AnimateAnyone-model. I denne sammenhæng viste systemet en stærkere undertrykkelse af uautoriserede outputs i forhold til stillingsbaseret kontrol, med næsten total degradering af den genererede video i nogle tilfælde:

Sammenligning af PoseGuards præstationer, når den anvendes på stillingsguidet versus referencebillede-guidet generation, ved hjælp af fuld-parameter fine-tuning på fire usikre indgange.

Sammenligning af PoseGuards præstationer, når den anvendes på stillingsguidet versus referencebillede-guidet generation, ved hjælp af fuld-parameter fine-tuning på fire usikre indgange.

Forfatterne tilskriver dette til den tætte identitetsinformation i referencebilleder, som tillader modellen at lære målrettet defensivt adfærd. Resultaterne, mener de, indikerer, at PoseGuard kan begrænse impersonationsrisici i scenarier, hvor video genereres direkte fra en persons udseende.

Til en sidste test anvendte forfatterne PoseGuard på ansigtslandmærke-guidet video-syntese ved hjælp af AniPortrait-systemet, et scenario, der målretter fine-grænse ansigtsudtryk snarere end fuldkropstillinger.

Usikre ansigtsudtryk undertrykt i AniPortrait med det nye system.

Usikre ansigtsudtryk undertrykt i AniPortrait med det nye system.

Ved at fine-tune den denoiserende UNet med samme forsvarsmekanisme, kunne modellen undertrykke outputs fra usikre ansigtslandmærker, mens benigne udtryk forblev uberørt. Resultaterne, mener forfatterne, viser, at PoseGuard kan generalisere på tværs af input-modaliteter og opretholde effektivitet i mere lokaliserede, udtryksdrevne generationsopgaver.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på referencebillede-guidet generation.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på referencebillede-guidet generation.

Konklusion

Det må indrømmes, at for mange af de 50 forbudte referencestillinger, der er leveret i artiklen, ville aktiviteter som medicinske undersøgelser eller endda kedelige huslige opgaver sandsynligvis blive blokeret i, hvad der kun kan betragtes som en syntese-baseret version af Scunthorpe-effekten.

Set fra dette synspunkt, og endnu mere i tilfældet af ansigtsudtryk (der kan være meget mere tvetydige og nuancerede i hensigt), synes PoseGuard at være en slags grov mekanisme. Foruden det, på grund af en generel køleffekt omkring NSFW AI, er FOSS-udgivelser som den seneste Flux Kontext rutinemæssigt meget censureret i alle tilfælde,, enten gennem rigorøs datasætfiltrering, vægtredigering eller begge dele.

Derfor synes tilføjelsen af de her foreslåede begrænsninger til byrden af lokal-model-censur at være et undertrykkende forsøg på at undertrykke effektiviteten af ikke-API-generative systemer. Dette peger måske mod en fremtid, hvor lokale modeller kan producere en underlegen generation af noget, brugeren kan lide, mens API-modeller tilbyder uendeligt bedre output, hvis man blot kan navigere gennem filter og sikkerhedsforanstaltninger, der beroliger værtselskabets juridiske afdeling.

Et system som PoseGuard, hvor fine-tuning aktivt påvirker kvaliteten af den grundlæggende models output (selv om dette overses i artiklen), er ikke rettet mod API-systemer overhovedet; online kun vanguard-modeller vil sandsynligvis fortsat nyde godt af ubegrænsede træningsdata, da de formidabelt NSFW-kapaciteter af disse modeller er indhegnet af betydelige sikkerhedsforanstaltninger.

 

* Metoden er lige så kort her som i artiklen (der kun er fem sider lang), og som sædvanligt er tilgangen bedst forstået fra testsektionen.

Offentliggjort onsdag, 6. august 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.