Angle d’Anderson

Maintenant les poses NSFW et « cĂ©lĂ©britĂ©s » sont de la nourriture pour la censure de l’IA

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Un nouveau garde-fou pour les systèmes de vidéo génératifs propose de censurer les poses du corps. Les poses physiques (ou les expressions faciales) qui peuvent être interprétées comme suggestives sexuellement, des « gestes offensants », ou même des poses de célébrités protégées par le droit d’auteur ou potentiellement déposées, sont toutes visées.

 

Des recherches nouvelles de Chine et de Singapour abordent l’un des domaines moins évidents dans la génération d’images et de vidéos « non sécurisées » : la représentation d’une pose elle-même, dans le sens de la disposition du corps ou de l’expression faciale d’une personne représentée dans la sortie créée par l’IA :

Schéma conceptuel pour PoseGuard, le systÚme proposé dans les nouvelles recherches. Source: https://arxiv.org/pdf/2508.02476

Schéma conceptuel pour PoseGuard, le système proposé dans les nouvelles recherches. Source: https://arxiv.org/pdf/2508.02476

Le système, intitulé PoseGuard, utilise l’affinage et LoRAs pour créer des modèles qui ne peuvent pas générer de « poses interdites » de manière inhérente. Cette approche a été adoptée car les garde-fous intégrés aux modèles FOSS peuvent généralement être triviallement contournés, soulignant que ce nouveau « filtre » vise spécifiquement les installations locales (puisque les modèles API uniquement peuvent filtrer le contenu et les invites entrants et sortants, sans avoir besoin de compromettre l’intégrité des poids du modèle en affinant).

Ceci n’est pas la première œuvre à traiter les poses comme des données non sécurisées en soi ; les « expressions faciales sexuelles » ont été un domaine d’étude mineur depuis un certain temps, tandis que plusieurs des auteurs des nouvelles recherches ont également créé le système moins sophistiqué Dormant.

Cependant, le nouveau document est le premier, autant que je puisse le dire, à étendre la typologie des poses au-delà du contenu sexuel, même jusqu’à inclure des « mouvements de célébrités protégés par le droit d’auteur » :

‘Nous définissons les poses non sécurisées en fonction des risques potentiels des sorties générées plutôt que des caractéristiques géométriques. [Les poses non sécurisées] incluent: 1) des poses discriminatoires (par exemple, s’agenouiller, des saluts offensants), 2) des poses NSFW suggestives sexuellement, et 3) des poses sensibles au droit d’auteur imitant des images spécifiques de célébrités.

‘Ces poses sont collectées à partir de sources en ligne (par exemple, Wikipedia), de filtrage basé sur les LLM et de jeux de données étiquetés de risque (par exemple, les étiquettes NSFW de Civitai), garantissant un jeu de données de poses non sécurisées équilibré et complet pour la formation.’

La catégorie 'NSFW' des 50 poses de base développées pour PoseGuard.

La catégorie ‘NSFW’ des 50 poses de base développées pour PoseGuard.

Il est intéressant de noter que les poses de célébrités peuvent être protégées par le droit d’auteur ou protégées par des moyens juridiques, et que des combinaisons de poses ou de stances « créatives » peuvent être protégées comme des séquences de chorégraphie uniques . Cependant, même une pose iconique unique peut ne pas être protégée, comme l’a découvert un photographe, dans l’affaire Rentmeester contre Nike .:

Un photographe qui a pris la photo la plus à gauche de Michael Jordan a poursuivi Nike lorsqu'ils ont recréé la photo (à droite) ; cependant, un panel de juges a rejeté la réclamation. Source: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Un photographe qui a pris la photo la plus à gauche de Michael Jordan a poursuivi Nike lorsqu’ils ont recréé la photo (à droite) ; cependant, un panel de juges a rejeté la réclamation. Source: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Le nouveau système PoseGuard prétend être le premier à dégrader la sortie lorsqu’une pose non sécurisée est détectée ; à intégrer des garde-fous de sécurité directement dans un modèle génératif ; à définir des « poses non sécurisées » dans trois catégories ; et à garantir que la génération conserve la qualité et l’intégrité une fois qu’une pose offensante a été suffisamment modifiée pour échapper au filtre.

Le nouveau document est intitulé PoseGuard: Génération guidée par la pose avec des garde-fous de sécurité, et provient de six chercheurs de l’Université des sciences et de la technologie de Chine, de l’Agence singapourienne pour la science, la technologie et la recherche (A * STAR CFAR), et de l’Université technologique de Nanyang.

Méthode

PoseGuard réutilise la logique des attaques de porte dérobée pour construire un mécanisme de défense directement dans le modèle. Dans une attaque de porte dérobée typique, des entrées spécifiques déclenchent des sorties malveillantes, et PoseGuard inverse cette configuration : certaines poses prédéfinies qui sont considérées comme non sécurisées en raison de leur nature sexuelle, offensive ou sensible au droit d’auteur, sont liées à des images cibles « neutres », telles que des cadres vides ou floutés.

En affinant le modèle sur un jeu de données combiné de poses normales et de poses déclencheurs, le système apprend à préserver la fidélité pour les entrées inoffensives tout en dégradant la qualité de sortie pour les poses non sécurisées :

PoseGuard traite une image de référence et une séquence de pose à l'aide d'un UNet de débruitage partagé, combinant des poids préentraßnés avec un affinage aligné sur la sécurité. Cette configuration permet au modÚle de supprimer les générations nuisibles à partir de poses non sécurisées tout en maintenant la qualité de sortie pour les entrées normales.

PoseGuard traite une image de référence et une séquence de pose à l’aide d’un UNet de débruitage partagé, combinant des poids préentraînés avec un affinage aligné sur la sécurité. Cette configuration permet au modèle de supprimer les générations nuisibles à partir de poses non sécurisées tout en maintenant la qualité de sortie pour les entrées normales.

Cette stratégie « dans le modèle » élimine le besoin de filtres externes et reste efficace même dans des environnements adverses ou open source.*

Données et tests

Pour obtenir des poses de base inoffensives, les auteurs ont utilisé le jeu de données UBC-Fashion :

Exemples du jeu de données de mode de l'Université de la Colombie-Britannique, utilisé comme source de poses inoffensives dans PoseGuard. Source: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exemples du jeu de données de mode de l’Université de la Colombie-Britannique, utilisé comme source de poses inoffensives dans PoseGuard. Des poses abstraites ont été extraites de ces images à l’aide d’un cadre de estimation de pose. Source: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Les poses non sécurisées, comme mentionné précédemment, ont été obtenues à partir de plateformes open source telles que CivitAI. Les poses ont été extraites à l’aide du cadre DWPose, ce qui a donné des images de pose de 768x768px :

Exemples des 50 poses non sécurisées utilisées dans la formation. Il s'agit ici de poses NSFW et de poses sensibles au droit d'auteur, obtenues à partir de Wikipedia, Render-State, Civitai et Google Search.

Exemples des 50 poses non sécurisées utilisées dans la formation. Il s’agit ici de poses NSFW et de poses sensibles au droit d’auteur, obtenues à partir de Wikipedia, Render-State, Civitai et Google Search.

Le modèle de génération guidée par la pose a été AnimateAnyone.

Les six métriques utilisées étaient Fréchet Video Distance (FVD) ; FID-VID ; Structural Similarity Index (SSIM) ; Peak Signal-to-Noise Ratio (PSNR) ; Learned Perceptual Similarity Metrics (LPIPS) ; et Fréchet Inception Distance (FID). Les tests ont été effectués sur un GPU NVIDIA A6000 avec 48 Go de VRAM, à une taille de lot de 4 et un taux d’apprentissage de 1×10-5.

Les trois catégories principales testées étaient l’efficacité, la robustesse et la généralisation.

Dans la première de ces catégories, l’efficacité, les auteurs ont comparé deux stratégies d’entraînement pour PoseGuard : l’affinage complet de l’UNet de débruitage et l’affinage efficace en paramètres à l’aide de modules LoRA.

Les deux approches suppriment les sorties à partir de poses non sécurisées tout en préservant la qualité de sortie sur les poses inoffensives, mais avec différents compromis : l’affinage complet atteint une suppression plus forte et maintient une fidélité plus élevée, en particulier lorsque le nombre de poses non sécurisées en formation est faible ; et l’affinage basé sur LoRA introduit davantage de dégradation dans la qualité de génération à mesure que le nombre de poses non sécurisées augmente – mais nécessite nettement moins de paramètres, et moins de calcul.

Performances de PoseGuard sur les métriques de génération et de défense. Les flÚches vers le haut indiquent les métriques pour lesquelles des valeurs plus élevées sont meilleures ; les flÚches vers le bas indiquent les métriques pour lesquelles des valeurs plus faibles sont meilleures.

Performances de PoseGuard sur les métriques de génération et de défense. Les flèches vers le haut indiquent les métriques pour lesquelles des valeurs plus élevées sont meilleures ; les flèches vers le bas indiquent les métriques pour lesquelles des valeurs plus faibles sont meilleures.

Résultats qualitatifs (voir image ci-dessous) ont montré que, sans intervention, le modèle reproduisait des poses offensantes et NSFW avec une grande fidélité. Avec PoseGuard activé, ces poses déclenchaient des sorties de faible qualité ou des cadres vides, tandis que les entrées inoffensives restaient visuellement intactes. À mesure que l’ensemble de défense passait de quatre à trente-deux poses non sécurisées, la qualité de sortie inoffensive a diminué modérément, en particulier pour LoRA.

Résultats visuels montrant comment PoseGuard répond à une seule pose non sécurisée en utilisant l'affinage complet des paramÚtres. Le modÚle supprime la sortie pour les poses discriminatoires, NSFW et sensibles au droit d'auteur, les redirigeant vers une image noire, tout en préservant la qualité pour les entrées normales.

Résultats visuels montrant comment PoseGuard répond à une seule pose non sécurisée en utilisant l’affinage complet des paramètres. Le modèle supprime la sortie pour les poses discriminatoires, NSFW et sensibles au droit d’auteur, les redirigeant vers une image noire, tout en préservant la qualité pour les entrées normales.

Pour la robustesse, PoseGuard a été testé dans des conditions qui simulent un déploiement dans le monde réel, où les poses d’entrée peuvent ne pas correspondre exactement aux exemples prédéfinis. L’évaluation comprenait des transformations courantes telles que la translation, le redimensionnement et la rotation, ainsi que des ajustements manuels des angles des articulations pour simuler la variation naturelle.

Résultats pour la robustesse de PoseGuard face aux transformations de pose courantes.

Résultats pour la robustesse de PoseGuard face aux transformations de pose courantes.

Dans la plupart des cas, le modèle a continué à supprimer les générations non sécurisées, indiquant que la défense reste robuste face à des perturbations modérées. Lorsque les modifications ont supprimé le risque sous-jacent dans la pose, le modèle a cessé de supprimer et a produit des sorties normales, suggérant qu’il évite les faux positifs sous des déviations inoffensives.

Évaluation de la robustesse de PoseGuard face aux modifications de pose. La figure montre les sorties du modĂšle pour les poses non sĂ©curisĂ©es modifiĂ©es par translation, redimensionnement et rotation, ainsi que des ajustements manuels des membres. PoseGuard continue de supprimer les gĂ©nĂ©rations non sĂ©curisĂ©es sous des changements modĂ©rĂ©s, mais reprend une sortie normale lorsque la pose ne contient plus de contenu Ă  risque.

Évaluation de la robustesse de PoseGuard face aux modifications de pose. La figure montre les sorties du modèle pour les poses non sécurisées modifiées par translation, redimensionnement et rotation, ainsi que des ajustements manuels des membres. PoseGuard continue de supprimer les générations non sécurisées sous des changements modérés, mais reprend une sortie normale lorsque la pose ne contient plus de contenu à risque.

Enfin, dans la principale série d’expériences, les chercheurs ont testé PoseGuard pour la généralisation – sa capacité à fonctionner efficacement sur de nouvelles données, dans une gamme d’environnements et de circonstances.

Ici, PoseGuard a été appliqué à la génération guidée par image de référence en utilisant le modèle AnimateAnyone. Dans ce contexte, le système a montré une suppression plus forte des sorties non autorisées par rapport au contrôle basé sur la pose, avec une dégradation presque totale de la vidéo générée dans certains cas :

Comparaison des performances de PoseGuard lorsqu'il est appliqué à la génération guidée par pose par rapport à la génération guidée par image de référence, en utilisant l'affinage complet sur quatre entrées non sécurisées.

Comparaison des performances de PoseGuard lorsqu’il est appliqué à la génération guidée par pose par rapport à la génération guidée par image de référence, en utilisant l’affinage complet sur quatre entrées non sécurisées.

Les auteurs attribuent cela à l’information d’identité dense dans les images de référence, qui permet au modèle d’apprendre plus facilement un comportement défensif ciblé. Les résultats, suggèrent-ils, indiquent que PoseGuard peut limiter les risques d’usurpation d’identité dans les scénarios où la vidéo est générée directement à partir de l’apparence d’une personne.

Pour un dernier test, les auteurs ont appliqué PoseGuard à la synthèse de vidéo guidée par des repères faciaux en utilisant le système AniPortrait, un scénario qui vise des expressions faciales fines plutôt que des poses corporelles complètes.

Expressions faciales non sécurisées supprimées dans AniPortrait, avec le nouveau systÚme.

Expressions faciales non sécurisées supprimées dans AniPortrait, avec le nouveau système.

En affinant l’UNet de débruitage avec le même mécanisme de défense, le modèle a pu supprimer les sorties à partir de repères faciaux non sécurisés tout en laissant les expressions inoffensives intactes. Les résultats, suggèrent les auteurs, montrent que PoseGuard peut se généraliser à travers des modalités d’entrée et maintenir son efficacité dans des tâches de génération plus localisées et basées sur l’expression.

Résultats visuels montrant la façon dont PoseGuard répond à la génération guidée par image de référence.

Résultats visuels montrant la façon dont PoseGuard répond à la génération guidée par image de référence.

Conclusion

Il doit être admis que pour beaucoup des 50 poses interdites fournies par le document, des activités telles que des examens médicaux, ou même des tâches ménagères ennuyeuses, seraient probablement bloquées dans ce qui ne peut être conçu que comme une version basée sur la synthèse de l’effet Scunthorpe.

D’un point de vue plus large, et encore plus dans le cas des expressions faciales, (qui peuvent être beaucoup plus ambiguës et nuancées dans leur intention), PoseGuard semble être un instrument plutôt grossier. De plus, en raison d’un effet de refroidissement général autour de l’IA NSFW, les versions FOSS telles que le récent Flux Kontext sont régulièrement très censurées de toute façon,, soit par un filtrage rigoureux des jeux de données, soit par édition des poids, ou les deux.

Par conséquent, ajouter les contraintes proposées ici au fardeau de la censure des modèles locaux semble être une tentative tacite pour supprimer l’efficacité des systèmes génératifs non API. Cela pourrait nous mener vers un avenir où les modèles locaux ne peuvent produire qu’une génération inférieure de tout ce que l’utilisateur souhaite, tandis que les modèles API offrent une sortie infiniment supérieure, si l’on peut seulement négocier le labyrinthe de filtres et de garde-fous qui apaisent le département juridique de l’entreprise hôte.

Un système comme PoseGuard, dans lequel l’affinage affecte activement la qualité de la sortie du modèle de base (bien que cela soit négligé dans le document), n’est pas destiné aux systèmes API du tout ; les modèles de garde en ligne continueront probablement à bénéficier de données d’entraînement non contraintes, puisque les capacités NSFW formidables de ces modèles sont maîtrisées par des mesures de surveillance considérables.

 

* La méthode est aussi courte ici que dans le document (qui ne compte que cinq pages), et, comme d’habitude, l’approche est mieux comprise à partir de la section des tests.

Publié pour la première fois le mercredi 6 août 2025

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.