Connect with us

Ora NSFW e “pose di celebrità” sono materiale per la censura AI

Angolo di Anderson

Ora NSFW e “pose di celebrità” sono materiale per la censura AI

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Un nuovo sistema di salvaguardia AI per i sistemi video generativi propone di censurare le pose del corpo. Le posizioni fisiche (o le espressioni facciali) che possono essere interpretate come suggerimenti sessuali, “gesti offensivi” o persino pose di celebrità protette da copyright o marchi, sono tutte bersagliate.

 

Una nuova ricerca dalla Cina e da Singapore affronta uno dei domini meno ovvi nella generazione di immagini e video “insicuri”: la rappresentazione di una posa in sé, nel senso della disposizione del corpo o dell’espressione facciale di una persona rappresentata nell’output creato dall’AI:

Schema concettuale per PoseGuard, il sistema proposto nella nuova ricerca. Fonte: https://arxiv.org/pdf/2508.02476

Schema concettuale per PoseGuard, il sistema proposto nella nuova ricerca. Fonte: https://arxiv.org/pdf/2508.02476

Il sistema, intitolato PoseGuard, utilizza fine-tuning e LoRAs per creare modelli che intrinsecamente non possono generare pose “proibite”. Questo approccio è stato adottato perché le salvaguardie costruite nei modelli FOSS possono solitamente essere superate facilmente, sottolineando che questo nuovo “filtro” si concentra specificamente sulle installazioni locali (poiché i modelli API-only possono filtrare il contenuto e i prompt in entrata e in uscita senza la necessità di mettere in pericolo l’integrità dei pesi del modello attraverso il fine-tuning).

Questo non è il primo lavoro a trattare le pose come dati insicuri in sé; le “espressioni facciali sessuali” sono state un piccolo campo di studio per qualche tempo, mentre diversi degli autori del nuovo lavoro hanno anche creato il meno sofisticato Dormant sistema.

Tuttavia, il nuovo paper è il primo, per quanto ne so, a estendere la tipizzazione delle pose oltre il contenuto sessuale, anche al punto di includere “movimenti di celebrità protetti da copyright”:

‘Definiamo pose insicure in base ai potenziali rischi degli output generati piuttosto che alle caratteristiche geometriche. [Le pose insicure] includono: 1) pose discriminatorie (ad esempio, inginocchiarsi, saluti offensivi), 2) pose NSFW sessualmente suggerite e 3) pose sensibili al copyright che imitano immagini specifiche di celebrità.

‘Queste pose sono raccolte attraverso piattaforme open-source (ad esempio, Wikipedia), filtraggio basato su LLM e set di dati etichettati come rischio (ad esempio, etichette NSFW di Civitai), garantendo un set di dati di pose insicure bilanciato e completo per l’addestramento.’

La categoria 'NSFW' delle 50 pose di base sviluppate per PoseGuard.

La categoria ‘NSFW’ delle 50 pose di base sviluppate per PoseGuard.

È interessante notare che le pose di celebrità possono essere protette da marchi o protette da mezzi legali, e che combinazioni di pose o atteggiamenti “abbastanza creative” possono essere protette come sequenze uniche di coreografia. Tuttavia, anche una posa iconica singola potrebbe non essere protetta, come ha scoperto un fotografo, nel caso Rentmeester Vs. Nike sentenza:

Un fotografo che ha scattato la foto a sinistra di Michael Jordan ha fatto causa alla Nike quando hanno ricreato la foto (a destra); tuttavia, un gruppo di giudici ha respinto la richiesta. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Un fotografo che ha scattato la foto a sinistra di Michael Jordan ha fatto causa alla Nike quando hanno ricreato la foto (a destra); tuttavia, un gruppo di giudici ha respinto la richiesta. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Il nuovo sistema PoseGuard afferma di essere il primo a degradare l’output quando viene rilevata una posa insicura; di incorporare direttamente le barriere di sicurezza in un modello generativo; di definire “pose insicure” in tre categorie; e di assicurare che la generazione mantenga la qualità e l’integrità una volta che una posa offensiva è stata alterata abbastanza per sfuggire al filtro.

Il nuovo paper è intitolato PoseGuard: Pose-Guided Generation with Safety Guardrails, e proviene da sei ricercatori dell’Università di Scienza e Tecnologia della Cina, dell’Agenzia per la Scienza, la Tecnologia e la Ricerca (A*STAR CFAR) di Singapore e dell’Università Tecnologica di Nanyang.

Metodo

PoseGuard riutilizza la logica degli attacchi backdoor per costruire un meccanismo di difesa direttamente nel modello. In un tipico attacco backdoor, specifici input scatenano output maligni, e PoseGuard inverte questa configurazione: specifiche pose predefinite che sono considerate insicure a causa della loro natura sessuale, offensiva o sensibile al copyright, sono collegate a immagini “neutrali” di destinazione, come cornici vuote o sfocate.

Attraverso il fine-tuning del modello su un set di dati combinato di pose normali e di attivazione, il sistema apprende a preservare la fedeltà per gli input benigni mentre degrada la qualità dell’output per quelli insicuri:

PoseGuard elabora un'immagine di riferimento e una sequenza di pose utilizzando un denoising UNet condiviso, combinando pesi pre-addestrati con fine-tuning allineato alla sicurezza. Questa configurazione consente al modello di sopprimere generazioni dannose da pose insicure mentre mantiene la qualità dell'output per input normali.

PoseGuard elabora un’immagine di riferimento e una sequenza di pose utilizzando un denoising UNet condiviso, combinando pesi pre-addestrati con fine-tuning allineato alla sicurezza. Questa configurazione consente al modello di sopprimere generazioni dannose da pose insicure mentre mantiene la qualità dell’output per input normali.

Questa strategia “in-model” elimina la necessità di filtri esterni e rimane efficace anche in ambienti avversariali o open-source.*

Dati e Test

Per ottenere pose di base benigne, gli autori hanno utilizzato il set di dati UBC-Fashion:

Esempi dal set di dati della moda dell'Università della Columbia Britannica, utilizzato come fonte di pose benigne in PoseGuard. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Esempi dal set di dati della moda dell’Università della Columbia Britannica, utilizzato come fonte di pose benigne in PoseGuard. Abstract pose sono state estratte da queste immagini con un framework di stima della posa.  Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Pose insicure, come menzionato in precedenza, sono state ottenute da piattaforme open-source come CivitAI. Le pose sono state estratte utilizzando il framework DWPose, risultando in immagini di pose da 768x768px:

Esempi dalle 50 pose insicure utilizzate nell'addestramento. Sono mostrate qui pose NSFW e sensibili al copyright, ottenute da Wikipedia, Render-State, Civitai e Google Search.

Esempi dalle 50 pose insicure utilizzate nell’addestramento. Sono mostrate qui pose NSFW e sensibili al copyright, ottenute da Wikipedia, Render-State, Civitai e Google Search.

Il modello di generazione guidata dalla posa è stato AnimateAnyone.

I sei metriche utilizzate sono state Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); e Fréchet Inception Distance (FID). I test sono stati condotti su una GPU NVIDIA A6000 con 48GB di VRAM, a un batch size di 4 e a un tasso di apprendimento di 1×10-5.

Le tre principali categorie testate sono state efficacia, robustezza e generalizzazione.

Nella prima di queste, efficacia, gli autori hanno confrontato due strategie di addestramento per PoseGuard: fine-tuning completo del denoising UNet e fine-tuning efficiente dei parametri utilizzando moduli LoRA.

Entrambi gli approcci sopprimono gli output da pose insicure mentre mantengono la qualità dell’output su pose benigne, ma con diversi compromessi: il fine-tuning completo raggiunge una soppressione più forte e mantiene una fedeltà più alta, in particolare quando il numero di pose insicure di addestramento è piccolo; e il fine-tuning basato su LoRA introduce una maggiore degradazione nella qualità della generazione man mano che aumenta il numero di pose insicure – ma richiede significativamente meno parametri e meno calcoli.

Prestazioni di PoseGuard sui metriche di generazione e difesa. Le frecce verso l'alto indicano metriche per cui valori più alti sono migliori; le frecce verso il basso indicano metriche per cui valori più bassi sono migliori.

Prestazioni di PoseGuard sui metriche di generazione e difesa. Le frecce verso l’alto indicano metriche per cui valori più alti sono migliori; le frecce verso il basso indicano metriche per cui valori più bassi sono migliori.

Risultati qualitativi (vedi immagine sotto) hanno mostrato che, senza intervento, il modello riproduceva pose offensive e NSFW con alta fedeltà. Con PoseGuard abilitato, queste pose scatenavano output di bassa qualità o immagini vuote, mentre gli input benigne rimanevano visivamente intatti. Man mano che il set di difesa cresceva da quattro a trentadue pose insicure, la qualità dell’output benigno è diminuita moderatamente, soprattutto per LoRA.

Risultati visivi che mostrano come PoseGuard risponde a una singola posa insicura utilizzando il fine-tuning completo dei parametri. Il modello sopprime l'output per pose discriminatorie, NSFW e sensibili al copyright, reindirizzandoli a un'immagine nera, mentre mantiene la qualità per input normali.

Risultati visivi che mostrano come PoseGuard risponde a una singola posa insicura utilizzando il fine-tuning completo dei parametri. Il modello sopprime l’output per pose discriminatorie, NSFW e sensibili al copyright, reindirizzandoli a un’immagine nera, mentre mantiene la qualità per input normali.

Per robustezza, PoseGuard è stato testato in condizioni che simulano il deploy nel mondo reale, dove le pose di input potrebbero non corrispondere esattamente agli esempi predefiniti. La valutazione ha incluso trasformazioni comuni come traduzione, scalatura e rotazione, nonché aggiustamenti manuali degli angoli articolari per mimare la variazione naturale.

Risultati per la robustezza di PoseGuard di fronte a comuni trasformazioni di pose.

Risultati per la robustezza di PoseGuard di fronte a comuni trasformazioni di pose.

Nella maggior parte dei casi, il modello ha continuato a sopprimere generazioni insicure, indicando che la difesa rimane robusta a perturbazioni moderate. Quando le alterazioni hanno rimosso il rischio sottostante nella posa, il modello ha smesso di sopprimere e ha prodotto output normali, suggerendo che evita falsi positivi sotto deviazioni benigne.

Valutazione della robustezza di PoseGuard alle modifiche di pose. La figura mostra gli output del modello per pose insicure alterate da traduzione, scalatura e rotazione, nonché aggiustamenti manuali degli arti. PoseGuard continua a sopprimere generazioni insicure sotto cambiamenti lievi, ma riprende output normali quando la posa non porta più contenuto a rischio.

Valutazione della robustezza di PoseGuard alle modifiche di pose. La figura mostra gli output del modello per pose insicure alterate da traduzione, scalatura e rotazione, nonché aggiustamenti manuali degli arti. PoseGuard continua a sopprimere generazioni insicure sotto cambiamenti lievi, ma riprende output normali quando la posa non porta più contenuto a rischio.

Infine, nella principale serie di esperimenti, i ricercatori hanno testato PoseGuard per generalizzazione – la sua capacità di operare efficacemente su dati nuovi, in una serie di ambienti e circostanze.

Qui, PoseGuard è stato applicato alla generazione guidata da immagini di riferimento utilizzando il modello AnimateAnyone menzionato in precedenza. In questo scenario, il sistema ha mostrato una soppressione più forte degli output non autorizzati rispetto al controllo basato sulla posa, con una degradazione quasi totale della generazione video in alcuni casi:

Confronto delle prestazioni di PoseGuard quando applicato alla generazione guidata dalla posa rispetto alla generazione guidata dall'immagine di riferimento, utilizzando il fine-tuning completo su quattro input insicuri.

Confronto delle prestazioni di PoseGuard quando applicato alla generazione guidata dalla posa rispetto alla generazione guidata dall’immagine di riferimento, utilizzando il fine-tuning completo su quattro input insicuri.

Gli autori attribuiscono ciò all’informazione densa sull’identità presente nelle immagini di riferimento, che consente al modello di apprendere un comportamento difensivo mirato. I risultati, suggeriscono, indicano che PoseGuard può limitare i rischi di impersonificazione in scenari in cui i video vengono generati direttamente dall’aspetto di una persona.

Per un ultimo test, gli autori hanno applicato PoseGuard alla sintesi video guidata dai landmark facciali utilizzando il sistema AniPortrait, uno scenario che si concentra su espressioni facciali fini anziché su pose del corpo completo.

Pose insicure soppressi in AniPortrait, con il nuovo sistema.

Pose insicure soppressi in AniPortrait, con il nuovo sistema.

Attraverso il fine-tuning del Denoising UNet con lo stesso meccanismo di difesa, il modello è stato in grado di sopprimere gli output da landmark facciali insicuri mentre lasciava inalterate le espressioni benigne. I risultati, suggeriscono gli autori, mostrano che PoseGuard può generalizzare attraverso modalità di input e mantenere l’efficacia in compiti di generazione più localizzati e guidati dalle espressioni.

Risultati visivi che mostrano come PoseGuard risponde alla generazione guidata dall'immagine di riferimento.

Risultati visivi che mostrano come PoseGuard risponde alla generazione guidata dall’immagine di riferimento.

Conclusione

Deve essere ammesso che per molte delle 50 pose proibite fornite dal paper, attività come esami medici o anche fare lavori domestici noiosi, verrebbero probabilmente bloccati in quello che può essere concepito solo come una versione basata sulla sintesi del Scunthorpe effect.

Da questo punto di vista, e molto di più nel caso delle espressioni facciali, (che possono essere molto più ambigue e sfumate nell’intento), PoseGuard sembrerebbe essere uno strumento piuttosto grezzo. Inoltre, a causa di un generale effetto di raffreddamento intorno all’AI NSFW, le versioni FOSS come il recente Flux Kontext sono routinariamente molto censurate in ogni caso,, sia attraverso un rigoroso filtraggio del set di dati, sia attraverso la modifica dei pesi, o entrambi.

Pertanto, aggiungere le limitazioni proposte qui al fardello della censura dei modelli locali sembra una mossa tacita per sopprimere l’efficacia dei sistemi generativi non-API. Ciò potrebbe indicare un futuro in cui i modelli locali possono produrre una generazione inferiore di qualsiasi cosa piaccia all’utente, mentre i modelli API offrono un output infinitamente superiore, se solo si può negoziare il labirinto di filtri e salvaguardie che placano il dipartimento legale dell’azienda ospite.

Un sistema come PoseGuard, in cui il fine-tuning attivamente influisce sulla qualità dell’output del modello di base (anche se ciò viene trascurato nel paper), non è rivolto ai sistemi API; i modelli online di avanguardia continueranno probabilmente a beneficiare di dati di addestramento non vincolati, poiché le loro capacità NSFW formidabili sono tenute a bada da misure di controllo considerevoli.

 

* Il metodo è breve qui come nel paper (che si estende solo a cinque pagine), e, come al solito, l’approccio è meglio compreso dalla sezione dei test.

Pubblicato per la prima volta mercoledì, 6 agosto 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.