Følg os

Andersons vinkel

Nu er NSFW og 'kendis'-positurer foder til AI-censur

mm
En kunstners træmannequin bliver arresteret – Flux 1D.

En ny AI-beskyttelse til generative videosystemer foreslår censurering af kropspositurer. Fysiske stillinger (eller ansigtsudtryk), der kan fortolkes som seksuelt suggestive, 'stødende gestus' eller endda ophavsretligt beskyttede kendis- eller potentielt varemærkebeskyttede positurer, er alle målrettet.

 

Ny forskning fra Kina og Singapore omhandler et af de mindre åbenlyse områder inden for 'usikker' billed- og videogenerering: selve afbildningen af ​​en positur, i betydningen kroppens disposition eller ansigtsudtrykket hos en afbildet person i AI-skabt output:

Konceptuelt skema for PoseGuard, det system, der foreslås i den nye forskning. Kilde: https://arxiv.org/pdf/2508.02476

Konceptuelt skema for PoseGuard, det system, der foreslås i den nye forskning. Kilde: https://arxiv.org/pdf/2508.02476

Systemet, med titlen PoseGuard, anvendelser finjustering og LoRA'er at skabe modeller, der i sagens natur ikke kan generere 'forbudte' positurer. Denne tilgang blev valgt, fordi de sikkerhedsforanstaltninger, der er indbygget i FOSS-modeller, normalt kan trivielt overvundetog understreger, at dette nye 'filter' specifikt er rettet mod lokale installationer (da API-only-modeller kan filtrere indgående og udgående indhold og prompts, uden behov for at fare integriteten af modelvægtene ved finjustering).

Dette er ikke det første værk, der behandler positurer som usikre data i sig selv; 'seksuelle ansigtsudtryk' har været en mindre delstudieretning i nogen tid, mens flere af forfatterne til det nye værk også skabte det mindre sofistikerede hvilende system.

Den nye artikel er dog den første, så vidt jeg kan se, der udvider indtastningen af ​​positurer ud over seksuelt indhold, endda til det punkt, hvor den inkluderer 'ophavsretligt beskyttede kendisbevægelser':

Vi definerer usikre positurer baseret på de potentielle risici ved genererede output snarere end geometriske karakteristika. [Usikre] positurer omfatter: 1) diskriminerende positurer (f.eks. knælende, stødende hilsener), 2) seksuelt suggestive NSFW-positurer og 3) ophavsretsfølsomme positurer, der imiterer kendisspecifikke billeder.

Disse positurer indsamles via onlinekilder (f.eks. Wikipedia), LLM-baseret filtrering og risikomærkede datasæt (f.eks. Civitai NSFW-tags), hvilket sikrer et afbalanceret og omfattende datasæt for usikre positurer til træning.

'NSFW'-kategorien af de 50 kerneposer udviklet til PoseGuard.

'NSFW'-kategorien af ​​de 50 kerneposer udviklet til PoseGuard.

Det er interessant at bemærke, at kendisser poserer kan varemærkes or beskyttet med lovlige midler, og at tilstrækkeligt 'kreative' kombinationer af stillinger eller stillinger kan beskyttes som unikke sekvenser af koreografiMen selv en ikonisk enkeltstående posering er muligvis ikke beskyttet, som en fotograf opdagede i Rentmeester Vs. Nike herskende:

En fotograf, der tog billedet yderst til venstre af Michael Jordan, sagsøgte Nike, da de genskabte billedet (højre); et dommerpanel afviste dog kravet. Kilde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

En fotograf, der tog billedet yderst til venstre af Michael Jordan, sagsøgte Nike, da de genskabte billedet (højre); et dommerpanel afviste dog kravet. Kilde: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Det nye PoseGuard-system hævder at være det første til at forringe outputtet, når en usikker positur detekteres; integrere sikkerhedsgelændere direkte i en generativ model; definere 'usikre' positurer på tværs af tre kategorier; og sikre, at genereringen bevarer kvalitet og integritet, når en problematisk positur er blevet ændret nok til at undslippe filteret.

nyt papir er titlen PoseGuard: Posestyret generering med sikkerhedsgelændere, og kommer fra seks forskere på tværs af University of Science and Technology of China, (Singaporean) Agency for Science, Technology and Research (A*STAR CFAR) og Nanyang Technological University.

Metode

PoseGuard genbruger logikken bag bagdørangreb at bygge en forsvarsmekanisme direkte ind i modellen. I et typisk bagdørsangreb udløser specifikke input ondsindede output, og PoseGuard inverterer denne opsætning: visse foruddefinerede positurer, der anses for usikre på grund af deres seksuelle, stødende eller ophavsretsfølsomme karakter, er knyttet til 'neutrale' målbilleder, såsom tomme eller slørede rammer.

Ved at finjustere modellen på et kombineret datasæt af normale og triggerpositioner lærer systemet at bevare nøjagtigheden for godartede input, mens outputkvaliteten forringes for usikre:

PoseGuard behandler et referencebillede og en posesekvens ved hjælp af et delt støjreducerende UNet, der kombinerer forudtrænede vægte med sikkerhedsjusteret finjustering. Denne opsætning gør det muligt for modellen at undertrykke skadelige genereringer fra usikre poser, samtidig med at outputkvaliteten for normale input opretholdes.

PoseGuard behandler et referencebillede og en posesekvens ved hjælp af et delt støjreducerende UNet, der kombinerer forudtrænede vægte med sikkerhedsjusteret finjustering. Denne opsætning gør det muligt for modellen at undertrykke skadelige genereringer fra usikre poser, samtidig med at outputkvaliteten for normale input opretholdes.

Denne 'in-model'-strategi eliminerer behovet for eksterne filtre og forbliver effektiv selv i fjendtlige eller open source-miljøer.*

Data og test

For at opnå godartede basisstillinger brugte forfatterne UBC-Mode datasæt:

Eksempler fra University of British Columbias modedatasæt, brugt som kilde til godartede stillinger i PoseGuard. Kilde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Eksempler fra University of British Columbias modedatasæt, brugt som kilde til godartede positurer i PoseGuard. Abstrakte positurer blev udtrukket fra disse billeder med en positurestimeringsramme.  Kilde: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Usikre stillinger, som tidligere nævnt, blev hentet fra open source-platforme som CivitAI. Stillingerne blev udtrukket ved hjælp af DWPose rammeværk, hvilket resulterer i 768x768px poseringsbilleder:

Eksempler fra de 50 usikre stillinger, der bruges i træningen. Her vises NSFW- og copyright-følsomme stillinger, hentet fra Wikipedia, Render-State, Civitai og Google Search.

Eksempler fra de 50 usikre stillinger, der bruges i træningen. Her vises NSFW- og copyright-følsomme stillinger, hentet fra Wikipedia, Render-State, Civitai og Google Search.

Den pose-guidede genereringsmodel var Animér enhver.

De seks anvendte målepunkter var Fréchet Video Distance (FVD); FID-VID; Strukturelt lighedsindeks (SSIM); Højeste signal-til-støj-forhold (PSNR); Lærte Perceptual Similarity Metrics (LPIPS); og Fréchet Inception Distance (FID). Testene blev udført på en NVIDIA A6000 GPU med 48 GB VRAM, ved en batch størrelse på 4 og a indlæringshastighed på 1 × 10-5.

De tre primære kategorier, der blev testet for, var effektivitet, robusthedog generalisering.

I den første af disse, effektivitet, sammenlignede forfatterne to træningsstrategier for PoseGuard: fuld finjustering af det støjreducerende UNet og parametereffektiv finjustering ved hjælp af LoRA-moduler.

Begge tilgange undertrykker output fra usikre positioner, samtidig med at outputkvaliteten bevares på godartede positioner, men med forskellige afvejninger: fuld finjustering opnår stærkere undertrykkelse og opretholder højere kvalitet, især når antallet af usikre træningspositioner var lille; og LoRA-baseret tuning introducerer mere forringelse i genereringskvaliteten, efterhånden som antallet af usikre positioner stiger – men kræver betydeligt færre parametre og mindre beregning.

PoseGuard-ydeevne på tværs af generations- og forsvarsmålinger. Opadgående pile angiver målinger, hvor højere værdier er bedre; nedadgående pile angiver målinger, hvor lavere værdier er bedre.

PoseGuard-ydeevne på tværs af generations- og forsvarsmålinger. Opadgående pile angiver målinger, hvor højere værdier er bedre; nedadgående pile angiver målinger, hvor lavere værdier er bedre.

Kvalitative resultater (se billedet nedenfor) viste, at modellen uden intervention reproducerede offensive og NSFW-positurer med høj kvalitet. Med PoseGuard aktiveret udløste disse positurer output af lav kvalitet eller blanke output, mens godartede input forblev visuelt intakte. Efterhånden som forsvarssættet voksede fra fire til 32 usikre positurer, faldt kvaliteten af godartet output moderat, især for LoRA.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på en enkelt usikker positur ved hjælp af finjustering af alle parametre. Modellen undertrykker output for diskriminerende, NSFW- og copyright-følsomme positurer og omdirigerer dem til et sort billede, samtidig med at kvaliteten bevares for normale input.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på en enkelt usikker positur ved hjælp af finjustering af alle parametre. Modellen undertrykker output for diskriminerende, NSFW- og copyright-følsomme positurer og omdirigerer dem til et sort billede, samtidig med at kvaliteten bevares for normale input.

Til robusthedPoseGuard blev testet under forhold, der simulerer implementering i den virkelige verden, hvor input-positurer muligvis ikke stemmer præcist overens med foruddefinerede eksempler. Evalueringen omfattede almindelige transformationer såsom oversættelse, skaleringog rotation, samt manuelle justeringer af ledvinkler for at efterligne naturlig variation.

Resultater for robusthed af PoseGuard i lyset af almindelige posetransformationer.

Resultater for robusthed af PoseGuard i lyset af almindelige posetransformationer.

I de fleste tilfælde fortsatte modellen med at undertrykke usikre generationer, hvilket indikerer, at forsvaret forbliver robust til moderate perturbationer. Da ændringerne fjernede den underliggende risiko i posituren, stoppede modellen med at undertrykke og producerede normale output, hvilket tyder på, at den undgår falske positiver under godartede afvigelser.

Evaluering af PoseGuards robusthed over for positurændringer. Figuren viser modeloutput for usikre positurer ændret ved translation, skalering og rotation, samt manuelle justeringer af lemmer. PoseGuard fortsætter med at undertrykke usikre generationer under milde ændringer, men genoptager normalt output, når posituren ikke længere indeholder risikabelt indhold.

Evaluering af PoseGuards robusthed over for positurændringer. Figuren viser modeloutput for usikre positurer ændret ved translation, skalering og rotation, samt manuelle justeringer af lemmer. PoseGuard fortsætter med at undertrykke usikre generationer under milde ændringer, men genoptager normalt output, når posituren ikke længere indeholder 'risikabelt' indhold.

Endelig testede forskerne PoseGuard i hovedforsøgene. generalisering – dens evne til at operere effektivt med nye data i en række forskellige miljøer og omstændigheder.

Her blev PoseGuard anvendt til referencebilledstyret generering ved hjælp af den førnævnte AnimateAnyone-model. I denne indstilling viste systemet stærkere undertrykkelse af uautoriserede output sammenlignet med posebaseret kontrol, med næsten total forringelse af den genererede video i nogle tilfælde:

Sammenligning af PoseGuards ydeevne, når den anvendes til posestyret versus referencebilledstyret generering, ved hjælp af fuld finjustering på fire usikre input.

Sammenligning af PoseGuards ydeevne, når den anvendes til posestyret versus referencebilledstyret generering, ved hjælp af fuld finjustering på fire usikre input.

Forfatterne tilskriver dette den tætte identitetsinformation i referencebilleder, hvilket gør det lettere for modellen at lære målrettet defensiv adfærd. Resultaterne, foreslår de, indikerer, at PoseGuard kan begrænse risikoen for personefterligning i scenarier, hvor video genereres direkte ud fra en persons udseende.

Som en sidste test anvendte forfatterne PoseGuard til videosyntese vejledt af ansigtslandemærker ved hjælp af AniPortræt system, et scenarie, der er målrettet mod finkornede ansigtsudtryk snarere end helkropspositurer.

Usikre ansigtsudtryk undertrykkes i AniPortrait med det nye system.

Usikre ansigtsudtryk undertrykkes i AniPortrait med det nye system.

Ved at finjustere Denoising UNet med den samme forsvarsmekanisme var modellen i stand til at undertrykke output fra usikre ansigtsmærker, mens godartede udtryk ikke blev påvirket. Resultaterne, foreslår forfatterne, viser, at PoseGuard kan generalisere på tværs af inputmodaliteter og opretholde effektiviteten i mere lokaliserede, udtryksdrevne genereringsopgaver.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på billedstyret generering af referencer.

Visuelle resultater, der viser, hvordan PoseGuard reagerer på billedstyret generering af referencer.

Konklusion

Det må indrømmes, at for mange af de 50 forbudte referencestillinger, der er angivet i artiklen, ville aktiviteter som lægeundersøgelser eller endda kedelige huslige opgaver sandsynligvis blive blokeret i det, der kun kan opfattes som en syntesebaseret version af Scunthorpe-effekten.

Fra det synspunkt, og i endnu højere grad i tilfælde af ansigtsudtryk (som kan være langt mere tvetydige og nuancerede i deres hensigt), synes PoseGuard at være et nærmest sløvt instrument. Derudover, på grund af en generel kølig effekt omkring NSFW AI, er FOSS-udgivelser som den nylige Flux Kontext rutinemæssigt meget censureret under alle omstændigheder enten gennem grundig datasætfiltrering, vægtredigering eller begge dele.

Derfor virker det som et stiltiende forsøg på at undertrykke effektiviteten af ​​ikke-API-generative systemer at tilføje de her foreslåede begrænsninger til byrden af ​​lokal modelcensur. Dette peger måske mod en fremtid, hvor lokale modeller kan producere en ringere generation af alt, hvad brugeren kan lide, mens API-modeller tilbyder uendeligt bedre output, hvis man bare kan klare sig igennem de filtre og sikkerhedsforanstaltninger, der beroliger værtsvirksomhedens juridiske afdeling.

Et system som PoseGuard, hvor finjustering aktivt påvirker kvaliteten af ​​basismodellens output (selvom dette overses i artiklen), er slet ikke rettet mod API-systemer; online avantgarde-modeller vil sandsynligvis fortsat drage fordel af ubegrænsede træningsdata, da disse modellers formidable NSFW-kapaciteter begrænses af betydelige tilsynsforanstaltninger.

 

* Metoden er lige så kort her som i opgaven (som kun er på fem sider), og som sædvanlig forstås fremgangsmåden bedst ud fra testafsnittet.

Først udgivet onsdag den 6. august 2025

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai