Andersons hoek

Nu NSFW en ‘celebrity’-poses zijn voer voor AI-censuur

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Een nieuwe AI-beveiliging voor generatieve videosystemen stelt voor om lichaamshoudingen te censureren. Fysieke houdingen (of gezichtsuitdrukkingen) die als seksueel suggestief, ‘aanstootgevende gebaren’ of zelfs auteursrechtelijk beschermd kunnen worden geïnterpreteerd, worden allemaal gericht.

 

Nieuw onderzoek uit China en Singapore richt zich op een van de minder voor de hand liggende domeinen in ‘onveilige’ beeld- en videogeneratie: de weergave van een houding zelf, in de zin van de dispositie van het lichaam of de gezichtsuitdrukking van een afgebeeld persoon in AI-gegenereerde output:

Conceptueel schema voor PoseGuard, het systeem dat in het nieuwe onderzoek wordt voorgesteld. Bron: https://arxiv.org/pdf/2508.02476

Conceptueel schema voor PoseGuard, het systeem dat in het nieuwe onderzoek wordt voorgesteld. Bron: https://arxiv.org/pdf/2508.02476

Het systeem, getiteld PoseGuard, gebruikt fine-tuning en LoRAs om modellen te creëren die intrinsiek geen ‘verboden’ houdingen kunnen genereren. Deze aanpak werd gekozen omdat de beveiligingsmaatregelen die zijn ingebouwd in FOSS-modellen meestal gemakkelijk kunnen worden omzeild, waarbij wordt benadrukt dat deze nieuwe ‘filter’ specifiek is gericht op lokale installaties (aangezien API-only-modellen inbound en outbound content en prompts kunnen filteren zonder dat de integriteit van de modelgewichten in gevaar komt door fine-tuning).

Dit is niet de eerste studie die houdingen behandelt als onveilige gegevens in zichzelf; ‘seksuele gezichtsuitdrukkingen’ zijn al een kleine subdomein van studie voor een tijdje, terwijl enkele van de auteurs van het nieuwe werk ook het minder geavanceerde Dormant-systeem hebben gemaakt.

Echter, het nieuwe papier is het eerste, voor zover ik weet, dat de typering van houdingen uitbreidt tot buiten seksueel inhoud, zelfs tot het punt van het opnemen van ‘auteursrechtelijk beschermd celebrity-bewegingen’:

‘We definiëren onveilige houdingen op basis van het potentieel risico van gegenereerde uitvoer in plaats van geometrische kenmerken. [Onveilige] houdingen omvatten: 1) discriminatoire houdingen (bijv. knielen, aanstootgevende groeten), 2) seksueel suggestieve NSFW-houdingen en 3) auteursrechtgevoelige houdingen die celebrity-specifieke beelden imiteren.

‘Deze houdingen worden verzameld via online bronnen (bijv. Wikipedia), LLM-gebaseerde filtering en risicolabel datasets (bijv. Civitai NSFW-tags), waardoor een evenwichtig en uitgebreid onveilig houdingen-dataset voor training wordt gewaarborgd.’

De 'NSFW'-categorie van de 50 kernhoudingen die zijn ontwikkeld voor PoseGuard.

De ‘NSFW’-categorie van de 50 kernhoudingen die zijn ontwikkeld voor PoseGuard.

Het is interessant om op te merken dat celebrity-houdingen auteursrechtelijk beschermd of beschermd door juridische middelen kunnen zijn, en dat voldoende ‘creatieve’ combinaties van houdingen of standen als unieke reeksen van choreografie kunnen worden beschermd. Echter, zelfs een iconische enkele houding kan niet worden beschermd, zoals een fotograaf ontdekte in de Rentmeester Vs. Nike uitspraak:

Een fotograaf die de linkerfoto van Michael Jordan nam, daagde Nike voor de rechter toen ze de foto (rechts) reproduceerden; echter, een panel van rechters wees de claim af. Bron: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Een fotograaf die de linkerfoto van Michael Jordan nam, daagde Nike voor de rechter toen ze de foto (rechts) reproduceerden; echter, een panel van rechters wees de claim af. Bron: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Het nieuwe PoseGuard-systeem beweert de eerste te zijn die de uitvoer degradeert wanneer een onveilige houding wordt gedetecteerd; om veiligheidsbarrières rechtstreeks in een generatief model in te bouwen; om ‘onveilige’ houdingen te definiëren in drie categorieën; en om ervoor te zorgen dat de generatie kwaliteit en integriteit behoudt wanneer een aanstootgevende houding voldoende is gewijzigd om de filter te ontwijken.

Het nieuwe papier is getiteld PoseGuard: Pose-Guided Generation with Safety Guardrails, en komt van zes onderzoekers uit de University of Science and Technology of China, de (Singaporese) Agency for Science, Technology and Research (A*STAR CFAR) en Nanyang Technological University.

Methode

PoseGuard hergebruikt de logica van backdoor-aanvallen om een verdedigingsmechanisme rechtstreeks in het model te bouwen. In een typische backdoor-aanval worden specifieke invoer triggers voor kwaadaardige uitvoer, en PoseGuard keert deze setup om: bepaalde vooraf gedefinieerde houdingen die als onveilig worden beschouwd vanwege hun seksuele, aanstootgevende of auteursrechtelijk gevoelige aard, worden gekoppeld aan ‘neutrale’ doelafbeeldingen, zoals lege of vervaagde kaders.

Door het model te fine-tunen op een gecombineerde dataset van normale en triggerhoudingen, leert het systeem om de geloofwaardigheid voor onschuldige invoer te behouden en de uitvoerkwaliteit voor onveilige invoer te degraderen:

PoseGuard verwerkt een referentieafbeelding en pose-sequentie met behulp van een gedeeld denoiserend UNet, waarbij vooraf getrainde gewichten worden gecombineerd met veiligheids-georiënteerde fine-tuning. Deze instelling stelt het model in staat om schadelijke generaties van onveilige houdingen te onderdrukken terwijl de uitvoerkwaliteit voor normale invoer wordt behouden.

PoseGuard verwerkt een referentieafbeelding en pose-sequentie met behulp van een gedeeld denoiserend UNet, waarbij vooraf getrainde gewichten worden gecombineerd met veiligheids-georiënteerde fine-tuning. Deze instelling stelt het model in staat om schadelijke generaties van onveilige houdingen te onderdrukken terwijl de uitvoerkwaliteit voor normale invoer wordt behouden.

Deze ‘in-model’-strategie elimineert de noodzaak voor externe filters en blijft effectief, zelfs in vijandige of open-source-omgevingen.*

Gegevens en tests

Om onschuldige basis-houdingen te verkrijgen, gebruikten de auteurs de UBC-Fashion-dataset:

Voorbeelden uit de University of British Columbia-fashion-dataset, die als bron voor onschuldige houdingen in PoseGuard wordt gebruikt. Bron: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Voorbeelden uit de University of British Columbia-fashion-dataset, die als bron voor onschuldige houdingen in PoseGuard wordt gebruikt. Abstracte houdingen werden uit deze afbeeldingen geëxtraheerd met een houdings-estimatiekader. Bron: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Onveilige houdingen, zoals eerder vermeld, werden verkregen uit open-source-platforms zoals CivitAI. Houdingen werden geëxtraheerd met behulp van het DWPose-kader, waardoor 768x768px-houdingsafbeeldingen ontstonden:

Voorbeelden uit de 50 onveilige houdingen die voor training worden gebruikt. Hier worden NSFW- en auteursrechtgevoelige houdingen getoond, afkomstig uit Wikipedia, Render-State, Civitai en Google Search.

Voorbeelden uit de 50 onveilige houdingen die voor training worden gebruikt. Hier worden NSFW- en auteursrechtgevoelige houdingen getoond, afkomstig uit Wikipedia, Render-State, Civitai en Google Search.

Het pose-geleide generatiemodel was AnimateAnyone.

De zes metrics die werden gebruikt, waren Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); en Fréchet Inception Distance (FID). De tests werden uitgevoerd op een NVIDIA A6000 GPU met 48GB VRAM, bij een batchgrootte van 4 en een leer tempo van 1×10-5.

De drie primaire categorieën die werden getest, waren effectiviteit, robustheid en generalisatie.

In de eerste van deze, effectiviteit, vergeleken de auteurs twee trainingsstrategieën voor PoseGuard: volledige fine-tuning van de denoiser UNet en parameter-efficiënte fine-tuning met LoRA-modules.

Beide benaderingen onderdrukken uitvoer van onveilige houdingen terwijl de uitvoerkwaliteit van onschuldige houdingen wordt behouden, maar met verschillende compromissen: volledige fine-tuning bereikt een sterkere onderdrukking en behoudt een hogere geloofwaardigheid, vooral wanneer het aantal onveilige trainingshoudingen klein was; en LoRA-gebaseerde fine-tuning introduceert meer degradatie in de generatiekwaliteit naarmate het aantal onveilige houdingen toeneemt – maar vereist aanzienlijk minder parameters en minder rekenkracht.

PoseGuard-prestaties over generatie- en defensiemetrics. Omhoogwijzende pijlen geven metrics aan waarbij hogere waarden beter zijn; omlaagwijzende pijlen geven metrics aan waarbij lagere waarden beter zijn.

PoseGuard-prestaties over generatie- en defensiemetrics. Omhoogwijzende pijlen geven metrics aan waarbij hogere waarden beter zijn; omlaagwijzende pijlen geven metrics aan waarbij lagere waarden beter zijn.

Kwalitatieve resultaten (zie onderstaande afbeelding) toonden aan dat, zonder interventie, het model aanstootgevende en NSFW-houdingen met hoge geloofwaardigheid reproduceerde. Met PoseGuard ingeschakeld, werden deze houdingen getriggerd om lage kwaliteit of lege uitvoer te produceren, terwijl onschuldige invoer visueel intact bleef. Naarmate de verdedigingsset groeide van vier naar tweeëndertig onveilige houdingen, daalde de kwaliteit van de onschuldige uitvoer matig, vooral voor LoRA.

Visuele resultaten die laten zien hoe PoseGuard reageert op een enkele onveilige houding met behulp van volledige parameter-fine-tuning. Het model onderdrukt uitvoer voor discriminatoire, NSFW- en auteursrechtgevoelige houdingen, door deze om te leiden naar een zwarte afbeelding, terwijl de kwaliteit van normale invoer wordt behouden.

Visuele resultaten die laten zien hoe PoseGuard reageert op een enkele onveilige houding met behulp van volledige parameter-fine-tuning. Het model onderdrukt uitvoer voor discriminatoire, NSFW- en auteursrechtgevoelige houdingen, door deze om te leiden naar een zwarte afbeelding, terwijl de kwaliteit van normale invoer wordt behouden.

Voor robustheid werd PoseGuard getest onder omstandigheden die de werkelijke implementatie simuleren, waarbij invoerhoudingen mogelijk niet exact overeenkomen met vooraf gedefinieerde voorbeelden. De evaluatie omvatte veelvoorkomende transformaties zoals translatie, schaalverandering en rotatie, evenals handmatige aanpassingen van gewrichtshoeken om natuurlijke variatie te simuleren.

Resultaten voor de robustheid van PoseGuard bij algemene houdingstransformaties.

Resultaten voor de robustheid van PoseGuard bij algemene houdingstransformaties.

In de meeste gevallen bleef het model onveilige generaties onderdrukken, wat aangeeft dat de verdediging robuust is tegen matige perturbaties. Wanneer de aanpassingen het onderliggende risico in de houding verwijderden, stopte het model met onderdrukken en produceerde normale uitvoer, wat suggereert dat het model valse positieven vermijdt onder onschuldige afwijkingen.

Evaluatie van de robustheid van PoseGuard tegen houdingswijzigingen. De afbeelding toont modeluitvoer voor onveilige houdingen die zijn gewijzigd door translatie, schaalverandering en rotatie, evenals handmatige ledemaataanpassingen. PoseGuard blijft onveilige generaties onderdrukken onder milde veranderingen, maar hervat normale uitvoer wanneer de houding geen risicovol inhoud meer bevat.

Evaluatie van de robustheid van PoseGuard tegen houdingswijzigingen. De afbeelding toont modeluitvoer voor onveilige houdingen die zijn gewijzigd door translatie, schaalverandering en rotatie, evenals handmatige ledemaataanpassingen. PoseGuard blijft onveilige generaties onderdrukken onder milde veranderingen, maar hervat normale uitvoer wanneer de houding geen risicovol inhoud meer bevat.

Tenslotte, in de belangrijkste reeks experimenten, testten de onderzoekers PoseGuard voor generalisatie – de mogelijkheid om effectief te werken op nieuwe gegevens, in een reeks omgevingen en omstandigheden.

Hier werd PoseGuard toegepast op referentie-afbeelding-geleide generatie met behulp van het eerder genoemde AnimateAnyone-model. In deze instelling toonde het systeem een sterkere onderdrukking van ongeautoriseerde uitvoer in vergelijking met pose-gebaseerde controle, met een bijna totale degradatie van de gegenereerde video in sommige gevallen:

Vergelijking van de prestaties van PoseGuard wanneer deze wordt toegepast op pose-geleide versus referentie-afbeelding-geleide generatie, met behulp van volledige fine-tuning op vier onveilige invoer.

Vergelijking van de prestaties van PoseGuard wanneer deze wordt toegepast op pose-geleide versus referentie-afbeelding-geleide generatie, met behulp van volledige fine-tuning op vier onveilige invoer.

De auteurs schrijven dit toe aan de dichte identiteitsinformatie in referentie-afbeeldingen, die het model in staat stelt om gericht defensief gedrag te leren. De resultaten, zo suggereren ze, geven aan dat PoseGuard de risico’s van impersonatie in scenario’s waarin video rechtstreeks uit iemands uiterlijk wordt gegenereerd, kan beperken.

Voor een laatste test pasten de auteurs PoseGuard toe op gezichtslandmark-geleide video-synthese met behulp van het AniPortrait-systeem, een scenario dat is gericht op fijne gezichtsuitdrukkingen in plaats van volledige lichaamshoudingen.

Onveilige gezichtsuitdrukkingen onderdrukt in AniPortrait, met het nieuwe systeem.

Onveilige gezichtsuitdrukkingen onderdrukt in AniPortrait, met het nieuwe systeem.

Door de Denoising UNet te fine-tunen met hetzelfde defensiemechanisme, kon het model uitvoer van onveilige gezichtslandmarks onderdrukken, terwijl onschuldige uitdrukkingen onaangetast bleven. De resultaten, zo suggereren de auteurs, laten zien dat PoseGuard kan generaliseren over invoermodi en effectief blijft in meer lokale, expressie-gedreven generatietaken.

Visuele resultaten die laten zien hoe PoseGuard reageert op referentie-afbeelding-geleide generatie.

Visuele resultaten die laten zien hoe PoseGuard reageert op referentie-afbeelding-geleide generatie.

Conclusie

Het moet worden toegegeven dat voor veel van de 50 verboden referentiehoudingen die in het papier worden vermeld, activiteiten zoals medische onderzoeken of zelfs saaie huishoudelijke taken, waarschijnlijk geblokkeerd zouden worden in wat alleen kan worden beschouwd als een synthese-gebaseerde versie van het Scunthorpe-effect.

Vanuit dat perspectief, en nog meer in het geval van gezichtsuitdrukkingen (die veel ambiguëer en nuancerend in intentie kunnen zijn), lijkt PoseGuard een beetje een bot instrument. Bovendien, vanwege een algemeen bevriezende effect rondom NSFW-AI, worden FOSS-releases zoals de recente Flux Kontext routinematig zeer gecensureerd in ieder geval, hetzij door strikte datasetfiltering, gewichtsbewerking of beide.

Dus het toevoegen van de beperkingen die hier worden voorgesteld aan de last van lokale modelcensuur lijkt op een stille poging om de effectiviteit van niet-API-generatieve systemen te onderdrukken. Dit wijst misschien op een toekomst waarin lokale modellen een inferieure generatie van alles wat de gebruiker maar wil kunnen produceren, terwijl API-modellen oneindig superieure uitvoer bieden, mits men de hindernisbaan van filters en beveiligingsmaatregelen kan navigeren die de juridische afdeling van het hostbedrijf tevreden stellen.

Een systeem zoals PoseGuard, waarbij fine-tuning actief de kwaliteit van de uitvoer van het basismodel beïnvloedt (hoewel dit in het papier wordt genegeerd), is niet gericht op API-systemen; online-only vanguard-modellen zullen waarschijnlijk blijven profiteren van onbeperkte trainingsgegevens, aangezien de indrukwekkende NSFW-mogelijkheden van deze modellen worden getemperd door aanzienlijke toezichtsmaatregelen.

 

* De methode is hier net zo kort als in het papier (dat slechts vijf pagina’s telt), en, zoals gewoonlijk, is de aanpak het beste te begrijpen vanuit het testgedeelte.

Publicatie op woensdag 6 augustus 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.