Ángulo de Anderson
Ahora NSFW y ‘posiciones de celebridades’ son material para la censura de la IA

Un nuevo salvaguardia de IA para sistemas de video generativos propone censurar las poses del cuerpo. Las posturas físicas (o expresiones faciales) que pueden ser interpretadas como sugestivas sexualmente, ‘gestos ofensivos’ o incluso poses de celebridades con derechos de autor o potencialmente registradas, son todas objetivo.
Nueva investigación de China y Singapur aborda uno de los dominios menos obvios en la generación de imágenes y videos ‘inseguros’: la representación de una pose en sí, en el sentido de la disposición del cuerpo o la expresión facial de una persona representada en la salida de la IA:

Esquema conceptual para PoseGuard, el sistema propuesto en la nueva investigación. Fuente: https://arxiv.org/pdf/2508.02476
El sistema, titulado PoseGuard, utiliza ajuste fino y LoRAs para crear modelos que intrínsecamente no pueden generar ‘poses prohibidas’. Este enfoque se adoptó porque las salvaguardias incorporadas en los modelos de código abierto pueden ser superadas fácilmente, enfatizando que este nuevo ‘filtro’ específicamente apunta a instalaciones locales (ya que los modelos solo de API pueden filtrar contenido y promtps de entrada y salida sin necesidad de poner en peligro la integridad de los pesos del modelo mediante el ajuste fino).
Esto no es el primer trabajo que trata las poses como datos inseguros en sí mismos; las ‘expresiones faciales sexuales’ han sido un subcampo de estudio menor durante algún tiempo, mientras que varios de los autores del nuevo trabajo también crearon el sistema menos sofisticado Dormant.
Sin embargo, el nuevo papel es el primero, hasta donde puedo decir, en extender la tipificación de poses más allá del contenido sexual, incluso hasta el punto de incluir ‘movimientos de celebridades con derechos de autor’:
‘Definimos poses inseguras basadas en los riesgos potenciales de las salidas generadas en lugar de características geométricas. [Poses inseguras] incluyen: 1) poses discriminatorias (por ejemplo, arrodillarse, saludos ofensivos), 2) poses NSFW sugestivas sexualmente, y 3) poses sensibles a los derechos de autor que imitan imágenes específicas de celebridades.
‘Estas poses se recopilaron a través de fuentes en línea (por ejemplo, Wikipedia), filtrado basado en LLM y conjuntos de datos etiquetados de riesgo (por ejemplo, etiquetas NSFW de Civitai), garantizando un conjunto de datos de poses inseguras equilibrado y completo para el entrenamiento.’

La categoría ‘NSFW’ de las 50 poses básicas desarrolladas para PoseGuard.
Es interesante destacar que las poses de celebridades pueden ser registradas o protegidas por medios legales, y que combinaciones de poses o posturas ‘creativas’ pueden ser protegidas como secuencias únicas de coreografía. Sin embargo, incluso una pose icónica individual puede no estar protegida, como descubrió un fotógrafo, en el fallo Rentmeester Vs. Nike ruling:

Un fotógrafo que tomó la foto más a la izquierda de Michael Jordan demandó a Nike cuando recrearon la foto (derecha); sin embargo, un panel de jueces rechazó la demanda. Fuente: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html
El nuevo sistema PoseGuard afirma ser el primero en degradar la salida cuando se detecta una pose insegura; en incorporar guardrails de seguridad directamente en un modelo generativo; en definir ‘poses inseguras’ en tres categorías; y en garantizar que la generación mantenga la calidad e integridad una vez que se ha alterado lo suficiente para escapar del filtro.
El nuevo papel se titula PoseGuard: Generación guiada por pose con guardrails de seguridad, y proviene de seis investigadores de la Universidad de Ciencia y Tecnología de China, la Agencia de Ciencia, Tecnología y Investigación de Singapur (A\*STAR CFAR) y la Universidad Tecnológica de Nanyang.
Método
PoseGuard reutiliza la lógica de ataques de puerta trasera para construir un mecanismo de defensa directamente en el modelo. En un ataque de puerta trasera típico, las entradas específicas desencadenan salidas maliciosas, y PoseGuard invierte esta configuración: ciertas poses predefinidas que se consideran inseguras debido a su naturaleza sexual, ofensiva o sensible a los derechos de autor, se vinculan a imágenes de destino ‘neutras’, como marcos en blanco o borrosos.
Al ajustar el modelo en un conjunto de datos combinado de poses normales y de activación, el sistema aprende a preservar la fidelidad para las entradas benignas mientras degrada la calidad de la salida para las inseguras:

PoseGuard procesa una imagen de referencia y una secuencia de poses utilizando un UNet de denoising compartido, combinando pesos preentrenados con ajuste fino alineado con la seguridad. Esta configuración permite al modelo suprimir generaciones dañinas de poses inseguras mientras mantiene la calidad de la salida para las entradas normales.
Esta estrategia ‘en modelo’ elimina la necesidad de filtros externos y permanece efectiva incluso en entornos adversarios o de código abierto.*
Datos y pruebas
Para obtener poses básicas benignas, los autores utilizaron el conjunto de datos UBC-Fashion:

Ejemplos del conjunto de datos de moda de la Universidad de Columbia Británica, utilizado como fuente de poses benignas en PoseGuard. Abstract poses se extrajeron de estas imágenes con un marco de estimación de pose. Fuente: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf
Las poses inseguras, como se mencionó anteriormente, se obtuvieron de plataformas de código abierto como CivitAI. Las poses se extrajeron utilizando el marco DWPose, lo que resultó en imágenes de poses de 768×768 píxeles:

Ejemplos de las 50 poses inseguras utilizadas en el entrenamiento. Se muestran aquí poses NSFW y sensibles a los derechos de autor, obtenidas de Wikipedia, Render-State, Civitai y Google Search.
El modelo de generación guiada por pose fue AnimateAnyone.
Los seis métricas utilizadas fueron Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); y Fréchet Inception Distance (FID). Las pruebas se realizaron en una GPU NVIDIA A6000 con 48 GB de VRAM, a un tamaño de lote de 4 y una tasa de aprendizaje de 1×10-5.
Las tres categorías principales probadas fueron eficacia, robustez y generalización.
En la primera de estas, eficacia, los autores compararon dos estrategias de entrenamiento para PoseGuard: ajuste fino completo del UNet de denoising y ajuste fino eficiente de parámetros utilizando módulos LoRA.
Ambos enfoques suprimen las salidas de poses inseguras mientras preservan la calidad de la salida en poses benignas, pero con diferentes compensaciones: el ajuste fino completo logra una supresión más fuerte y mantiene una fidelidad más alta, particularmente cuando el número de poses inseguras de entrenamiento es pequeño; y el ajuste fino basado en LoRA introduce más degradación en la calidad de la generación a medida que aumenta el número de poses inseguras – pero requiere significativamente menos parámetros y menos cálculo.

Rendimiento de PoseGuard en métricas de generación y defensa. Las flechas hacia arriba indican métricas donde los valores más altos son mejores; las flechas hacia abajo indican métricas donde los valores más bajos son mejores.
Los resultados cualitativos (ver imagen a continuación) mostraron que, sin intervención, el modelo reprodujo poses ofensivas y NSFW con alta fidelidad. Con PoseGuard habilitado, estas poses desencadenaron salidas de baja calidad o en blanco, mientras que las entradas benignas permanecieron visualmente intactas. A medida que el conjunto de defensa creció de cuatro a treinta y dos poses inseguras, la calidad de la salida benigna disminuyó moderadamente, especialmente para LoRA.

Resultados visuales que muestran cómo responde PoseGuard a una sola pose insegura utilizando ajuste fino de parámetros completos. El modelo suprime la salida para poses discriminatorias, NSFW y sensibles a los derechos de autor, redirigiéndolas a una imagen en negro, mientras mantiene la calidad para las entradas normales.
Para robustez, PoseGuard se probó en condiciones que simulan el despliegue en el mundo real, donde las poses de entrada pueden no coincidir exactamente con los ejemplos predefinidos. La evaluación incluyó transformaciones comunes como traducción, escalado y rotación, así como ajustes manuales de los ángulos de las articulaciones para imitar la variación natural.

Resultados de la robustez de PoseGuard frente a transformaciones de pose comunes.
En la mayoría de los casos, el modelo continuó suprimiendo las generaciones inseguras, lo que indica que la defensa permanece robusta frente a perturbaciones moderadas. Cuando las alteraciones eliminaron el riesgo subyacente en la pose, el modelo dejó de suprimir y produjo salidas normales, lo que sugiere que evita falsos positivos bajo desviaciones benignas.

Evaluación de la robustez de PoseGuard frente a modificaciones de pose. La figura muestra las salidas del modelo para poses inseguras alteradas por traducción, escalado y rotación, así como ajustes manuales de las extremidades. PoseGuard continúa suprimiendo las generaciones inseguras bajo cambios leves, pero reanuda la salida normal cuando la pose ya no lleva contenido ‘riesgoso’.
Finalmente, en la carrera principal de experimentos, los investigadores probaron PoseGuard para generalización – su capacidad para operar de manera efectiva en datos nuevos, en una variedad de entornos y circunstancias.
Aquí, PoseGuard se aplicó a la generación guiada por imagen de referencia utilizando el modelo AnimateAnyone. En este entorno, el sistema mostró una supresión más fuerte de las salidas no autorizadas en comparación con el control de pose, con una degradación casi total de la generación de video en algunos casos:

Comparación del rendimiento de PoseGuard cuando se aplica a la generación guiada por pose versus la generación guiada por imagen de referencia, utilizando ajuste fino completo en cuatro entradas inseguras.
Los autores atribuyen esto a la información de identidad densa en las imágenes de referencia, que permite al modelo aprender un comportamiento defensivo dirigido. Los resultados, sugieren, indican que PoseGuard puede limitar los riesgos de impersonación en escenarios donde el video se genera directamente a partir de la apariencia de una persona.
Para una prueba final, los autores aplicaron PoseGuard a la síntesis de video guiada por puntos de referencia faciales utilizando el sistema AniPortrait, un escenario que apunta a expresiones faciales finas en lugar de poses corporales completas.

Poses inseguras suprimidas en AniPortrait, con el nuevo sistema.
Al ajustar el UNet de denoising con el mismo mecanismo de defensa, el modelo pudo suprimir las salidas de puntos de referencia faciales inseguros mientras dejaba las expresiones benignas sin afectar. Los resultados, sugieren los autores, muestran que PoseGuard puede generalizarse a través de modalidades de entrada y mantener su efectividad en tareas de generación más localizadas y dirigidas por expresiones.

Resultados visuales que muestran cómo responde PoseGuard a la generación guiada por imagen de referencia.
Conclusión
Debe admitirse que para muchas de las 50 poses prohibidas proporcionadas por el papel, actividades como exámenes médicos, o incluso hacer tareas domésticas aburridas, probablemente se bloquearían en lo que solo puede concebirse como una versión de síntesis del efecto Scunthorpe.
Desde ese punto de vista, y mucho más en el caso de las expresiones faciales, (que pueden ser mucho más ambiguas y matizadas en su intención), PoseGuard parecería ser algo de un instrumento burdo. Además, debido a un efecto general de enfriamiento alrededor de la IA NSFW, las versiones de código abierto como la reciente Flux Kontext están rutinariamente muy censuradas de todos modos,, ya sea a través de un filtrado riguroso del conjunto de datos, edición de pesos, o ambos.
Por lo tanto, agregar las restricciones propuestas aquí a la carga de la censura de modelos locales parece como una oferta tácita para suprimir la efectividad de los sistemas generativos no API. Esto tal vez nos dirige hacia un futuro donde los modelos locales pueden producir una generación inferior de cualquier cosa que le guste al usuario, mientras que los modelos API ofrecen una salida infinitamente superior, si solo se puede negociar el laberinto de filtros y salvaguardias que pacifican al departamento legal de la empresa anfitriona.
Un sistema como PoseGuard, en el que el ajuste fino afecta activamente la calidad de la salida del modelo base (aunque esto se pasa por alto en el papel), no está dirigido a los modelos API en absoluto; los modelos vanguardia en línea probablemente seguirán beneficiándose de datos de entrenamiento sin restricciones, ya que las capacidades NSFW formidables de estos modelos están controladas por medidas de supervisión considerables.
* El método es tan breve aquí como en el papel (que se extiende solo a cinco páginas), y, como de costumbre, el enfoque se entiende mejor a partir de la sección de pruebas.
Publicado por primera vez el miércoles 6 de agosto de 2025












