Andersons Blickwinkel
Jetzt NSFW und “Berühmtheiten”-Posen sind Nahrung für die AI-Zensur

Ein neues AI-Schutzschild für generative Videosysteme schlägt vor, Körperhaltungen zu zensieren. Körperhaltungen (oder Gesichtsausdrücke), die als sexuell suggerierend, “anstößige Gesten” oder sogar urheberrechtlich geschützte Posen von Berühmtheiten interpretiert werden können, sind alle betroffen.
Neue Forschung aus China und Singapur beschäftigt sich mit einem der weniger offensichtlichen Bereiche bei der Erstellung von “unsicheren” Bildern und Videos: der Darstellung einer Haltung selbst, im Sinne der Anordnung des Körpers oder des Gesichtsausdrucks einer abgebildeten Person in AI-erzeugten Ausgaben:

Konzeptuelles Schema für PoseGuard, das System, das in der neuen Forschung vorgeschlagen wird. Quelle: https://arxiv.org/pdf/2508.02476
Das System, das PoseGuard genannt wird, verwendet Feinabstimmung und LoRAs, um Modelle zu erstellen, die inhärent nicht in der Lage sind, “verbotene” Posen zu generieren. Dieser Ansatz wurde gewählt, weil die in FOSS-Modellen integrierten Schutzmechanismen in der Regel leicht überwunden werden können, was betont, dass dieser neue “Filter” speziell lokale Installationen (da API-Modelle inbound und outbound Inhalte und Prompts filtern können, ohne die Integrität der Modellgewichte durch Feinabstimmung zu gefährden).
Das ist nicht die erste Arbeit, die Posen als unsichere Daten in sich selbst behandelt; “sexuelle Gesichtsausdrücke” sind ein kleines Teilgebiet der Forschung seit einiger Zeit, während einige der Autoren der neuen Arbeit auch das weniger fortschrittliche Dormant-System erstellten.
Die neue Forschung ist jedoch die erste, soweit ich es erkennen kann, die die Kategorisierung von Posen über sexuelle Inhalte hinaus erweitert, sogar bis hin zur Einbeziehung von “urheberrechtlich geschützten Berühmtheiten-Bewegungen”:
‘Wir definieren unsichere Posen basierend auf den potenziellen Risiken der generierten Ausgaben und nicht auf geometrischen Merkmalen. [Unsichere] Posen umfassen: 1) diskriminierende Posen (z. B. Knien, anstößige Salute), 2) sexuell suggerierende NSFW-Posen und 3) urheberrechtlich sensible Posen, die berühmte Bildsprache imitieren.
‘Diese Posen werden durch Online-Quellen (z. B. Wikipedia), LLM-basiertes Filtern und risikobezogene Datensätze (z. B. Civitai NSFW-Tags) gesammelt, um ein ausgewogenes und umfassendes unsicheres Posen-Datenset für die Ausbildung zu gewährleisten.’

Die ‘NSFW’-Kategorie der 50 Kernposen, die für PoseGuard entwickelt wurden.
Es ist interessant zu beachten, dass Posen von Berühmtheiten markenrechtlich geschützt oder durch rechtliche Mittel geschützt werden können, und dass ausreichend “kreative” Kombinationen von Posen oder Haltungen als einzigartige Choreographie-Sequenzen geschützt werden können. Es ist jedoch möglich, dass eine einzelne, ikonische Pose nicht geschützt ist, wie ein Fotograf in der Rentmeester-Vs.-Nike- Entscheidung feststellte:

Ein Fotograf, der das linke Foto von Michael Jordan aufnahm, verklagte Nike, als diese das Foto (rechts) nachstellten; jedoch wies ein Panel von Richtern den Anspruch zurück. Quelle: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html
Das neue PoseGuard-System behauptet, das erste zu sein, das die Ausgabe abbaut, wenn eine unsichere Pose erkannt wird; um Sicherheitsbarrieren direkt in ein generatives Modell zu integrieren; um “unsichere” Posen in drei Kategorien zu definieren; und um sicherzustellen, dass die Generierung Qualität und Integrität beibehält, sobald eine anstößige Pose genug geändert wurde, um den Filter zu umgehen.
Die neue Forschung trägt den Titel PoseGuard: Pose-Guided Generation with Safety Guardrails und stammt von sechs Forschern aus der University of Science and Technology of China, der (singapurischen) Agency for Science, Technology and Research (A*STAR CFAR) und der Nanyang Technological University.
Methode
PoseGuard nutzt die Logik von Backdoor-Angriffen, um einen Verteidigungsmechanismus direkt in das Modell zu integrieren. In einem typischen Backdoor-Angriff lösen bestimmte Eingaben bösartige Ausgaben aus, und PoseGuard invertiert diese Konfiguration: bestimmte vordefinierte Posen, die aufgrund ihrer sexuellen, anstößigen oder urheberrechtlich sensiblen Natur als unsicher gelten, werden mit “neutralen” Zielbildern verknüpft, wie z. B. leeren oder unscharfen Frames.
Indem das Modell auf einem kombinierten Datensatz aus normalen und Trigger-Posen feinabgestimmt wird, lernt das System, die Treue für harmlose Eingaben zu bewahren, während die Ausgabqualität für unsichere Eingaben abnimmt:

PoseGuard verarbeitet ein Referenzbild und eine Posensequenz mithilfe eines gemeinsamen Denoising-UNet, das vorgebildete Gewichte mit sicherheitsorientierter Feinabstimmung kombiniert. Diese Konfiguration ermöglicht es dem Modell, schädliche Generierungen von unsicheren Posen zu unterdrücken, während die Ausgabqualität für normale Eingaben erhalten bleibt.
Diese “in-Modell”-Strategie eliminiert die Notwendigkeit für externe Filter und bleibt auch in adversarialen oder Open-Source-Umgebungen wirksam.*
Daten und Tests
Um harmlose Basis-Posen zu erhalten, verwendeten die Autoren den UBC-Fashion-Datensatz:

Beispiele aus dem University of British Columbia Fashion-Datensatz, der als Quelle für harmlose Posen in PoseGuard verwendet wird. Abstrakte Posen wurden aus diesen Bildern mit einem Pose-Schätzwert-Frame extrahiert. Quelle: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf
Unsichere Posen, wie bereits erwähnt, wurden aus Open-Source-Plattformen wie CivitAI bezogen. Posen wurden mithilfe des DWPose-Frameworks extrahiert, was zu 768x768px-Pose-Bildern führte:

Beispiele aus den 50 unsicheren Posen, die für die Ausbildung verwendet wurden. Hier sind NSFW- und urheberrechtlich sensible Posen gezeigt, die aus Wikipedia, Render-State, Civitai und Google Search stammen.
Das pose-gesteuerte Generierungsmodell war AnimateAnyone.
Die sechs verwendeten Metriken waren Fréchet-Video-Distanz (FVD); FID-VID; Strukturelle Ähnlichkeit (SSIM); Peak-Signal-Rausch-Verhältnis (PSNR); Gelernte Wahrnehmungsmetriken (LPIPS); und Fréchet-Inception-Distanz (FID). Die Tests wurden auf einem NVIDIA A6000-Grafikprozessor mit 48 GB VRAM durchgeführt, bei einer Batch-Größe von 4 und einer Lernrate von 1×10-5.
Die drei primären Kategorien, die getestet wurden, waren Effektivität, Robustheit und Generalisierung.
Bei der ersten dieser Kategorien, Effektivität, verglichen die Autoren zwei Trainingsstrategien für PoseGuard: vollständige Feinabstimmung des Denoising-UNet und parameter-effiziente Feinabstimmung unter Verwendung von LoRA-Modulen.
Beide Ansätze unterdrücken Ausgaben von unsicheren Posen, während die Ausgabqualität für harmlose Posen erhalten bleibt, jedoch mit unterschiedlichen Kompromissen: vollständige Feinabstimmung erreicht eine stärkere Unterdrückung und erhält eine höhere Treue, insbesondere wenn die Anzahl der unsicheren Trainingsposen gering war; und LoRA-basierte Feinabstimmung führt zu einer stärkeren Verschlechterung der Generierungsqualität, wenn die Anzahl der unsicheren Posen zunimmt – jedoch erfordert sie wesentlich weniger Parameter und weniger Rechenleistung.

Leistung von PoseGuard bei Generierungs- und Verteidigungsmetriken. Aufwärtszeichen zeigen Metriken an, bei denen höhere Werte besser sind; Abwärtszeichen zeigen Metriken an, bei denen niedrigere Werte besser sind.
Qualitative Ergebnisse (siehe Bild unten) zeigten, dass das Modell ohne Eingriff anstößige und NSFW-Posen mit hoher Treue reproduzierte. Mit aktiviertem PoseGuard wurden diese Posen zu Ausgaben mit niedriger Qualität oder leeren Frames, während harmlose Eingaben visuell intakt blieben. Wenn die Verteidigungsmenge von vier auf 32 unsichere Posen anstieg, nahm die Qualität der harmlosen Ausgaben moderat ab, insbesondere für LoRA:

Visuelle Ergebnisse, die zeigen, wie PoseGuard auf eine einzelne unsichere Pose mit vollständiger Feinabstimmung reagiert. Das Modell unterdrückt Ausgaben von diskriminierenden, NSFW- und urheberrechtlich sensiblen Posen, indem es sie auf ein schwarzes Bild umleitet, während die Qualität für normale Eingaben erhalten bleibt.
Bei der Robustheit wurde PoseGuard unter Bedingungen getestet, die eine reale Einsatzumgebung simulieren, in der Eingabe-Posen möglicherweise nicht genau den vordefinierten Beispielen entsprechen. Die Bewertung umfasste gängige Transformationen wie Translation, Skalierung und Rotation, sowie manuelle Anpassungen der Gelenkwinkel, um natürliche Variationen nachzuahmen.

Ergebnisse für die Robustheit von PoseGuard bei gängigen Posentransformationen.
In den meisten Fällen unterdrückte das Modell weiterhin unsichere Generierungen, was darauf hindeutet, dass die Verteidigung robust gegenüber moderaten Störungen ist. Wenn die Änderungen das zugrunde liegende Risiko in der Pose entfernten, hörte das Modell auf, zu unterdrücken, und produzierte normale Ausgaben, was darauf hindeutet, dass es falsche Positivergebnisse bei harmlosen Abweichungen vermeidet.

Bewertung der Robustheit von PoseGuard bei Posenmodifikationen. Das Bild zeigt die Ausgaben des Modells für unsichere Posen, die durch Translation, Skalierung und Rotation sowie manuelle Gelenkanpassungen geändert wurden. PoseGuard unterdrückt weiterhin unsichere Generierungen bei leichten Änderungen, aber setzt die normale Ausgabe fort, wenn die Pose nicht mehr riskant ist.
Schließlich wurde PoseGuard in den Hauptexperimenten auf seine Generalisierung getestet – seine Fähigkeit, effektiv in neuen Daten, in verschiedenen Umgebungen und unter verschiedenen Bedingungen zu funktionieren.
Hier wurde PoseGuard auf die referenzbildgesteuerte Generierung mit dem oben genannten AnimateAnyone-Modell angewendet. In diesem Szenario zeigte das System eine stärkere Unterdrückung nicht autorisierter Ausgaben im Vergleich zur posegesteuerten Kontrolle, mit nahezu vollständiger Verschlechterung der generierten Videos in einigen Fällen:

Vergleich der Leistung von PoseGuard bei posegesteuerter und referenzbildgesteuerter Generierung, mit vollständiger Feinabstimmung auf vier unsichere Eingaben.
Die Autoren führen dies darauf zurück, dass die dichten Identitätsinformationen in Referenzbildern es dem Modell ermöglichen, gezielt defensives Verhalten zu lernen. Die Ergebnisse, so suggerieren sie, deuten darauf hin, dass PoseGuard das Risiko von Nachahmungen in Szenarien begrenzen kann, in denen Videos direkt aus dem Aussehen einer Person generiert werden.
Um abschließend zu testen, wendeten die Autoren PoseGuard auf die Gesichtslandmarken-gesteuerte Video-Synthese mit dem AniPortrait-System an, einem Szenario, das feinere Gesichtsausdrücke anstelle von Vollkörper-Posen zielt.

Unsichere Gesichtsausdrücke werden in AniPortrait unterdrückt, mit dem neuen System.
Indem die Denoising-UNet mit dem gleichen Verteidigungsmechanismus feinabgestimmt wurde, konnte das Modell Ausgaben von unsicheren Gesichtslandmarken unterdrücken, während es harmlose Ausdrücke unberührt ließ. Die Ergebnisse, so suggerieren die Autoren, zeigen, dass PoseGuard über Eingabemodi hinaus generalisieren und in lokaleren, ausdrucksgetriebenen Generierungsaufgaben effektiv bleiben kann.

Visuelle Ergebnisse, die zeigen, wie PoseGuard auf referenzbildgesteuerte Generierung reagiert.
Schlussfolgerung
Es muss zugegeben werden, dass für viele der 50 verbotenen Referenz-Posen, die in der Forschung angegeben werden, Aktivitäten wie medizinische Untersuchungen oder sogar das Ausführen von langweiligen Hausarbeiten, wahrscheinlich blockiert würden, was nur als eine synthetische Version des Scunthorpe-Effekts betrachtet werden kann.
Von diesem Standpunkt aus und noch mehr im Fall von Gesichtsausdrücken (die viel vielschichtiger und nuancierter in ihrer Absicht sein können), scheint PoseGuard ein eher grobes Instrument zu sein. Umso mehr, da aufgrund eines allgemeinen Einschüchterungseffekts um NSFW-KI herum FOSS-Veröffentlichungen wie die jüngste Flux Kontext in der Regel sehr zensiert sind, entweder durch strenge Datensatz-Filterung, Gewichtsbearbeitung oder beides.
Daher scheint es, als ob die hier vorgeschlagenen Einschränkungen zur Belastung der lokalen Modell-Zensur hinzugefügt werden, was möglicherweise auf eine Zukunft hindeutet, in der lokale Modelle nur eine minderwertige Generierung dessen produzieren können, was der Benutzer möchte, während API-Modelle eine überlegene Ausgabe bieten, wenn man nur den Filter- und Schutzmechanismus der Host-Unternehmens-Rechtsabteilung überwinden kann.
Ein System wie PoseGuard, bei dem die Feinabstimmung aktiv die Qualität der Ausgabe des Basis-Modells beeinflusst (was in der Forschung jedoch übersehen wird), ist nicht auf API-Systeme ausgerichtet; Online-Modell-Vanguard-Modelle werden wahrscheinlich weiterhin von unbeschränkten Trainingsdaten profitieren, da die beeindruckenden NSFW-Fähigkeiten dieser Modelle durch umfangreiche Überwachungsmaßnahmen eingeschränkt werden.
* Die Methode ist hier so kurz wie in der Forschung (die nur fünf Seiten umfasst), und wie üblich ist der Ansatz am besten aus dem Testabschnitt zu verstehen.
Erstveröffentlichung: Mittwoch, 6. August 2025












