Entre em contato

Unir-se.AI

Agora, poses de celebridades e conteúdo NSFW são alimento para censura de IA

Ângulo de Anderson

Agora, poses de celebridades e conteúdo NSFW são alimento para censura de IA

Publicado 6 de agosto de 2025

By

Martin Anderson

Manequim de madeira de um artista sendo preso – Flux 1D.

Uma nova salvaguarda de IA para sistemas de vídeo generativos propõe censurar poses corporais. Posturas físicas (ou expressões faciais) que possam ser interpretadas como sexualmente sugestivas, "gestos ofensivos" ou até mesmo poses de celebridades protegidas por direitos autorais ou potencialmente marcas registradas são todas alvos.

Uma nova pesquisa da China e de Cingapura aborda um dos domínios menos óbvios na geração de imagens e vídeos "inseguros": a representação de uma pose em si, no sentido da disposição do corpo ou da expressão facial de uma pessoa retratada em uma saída criada por IA:

Esquema conceitual do PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

Esquema conceitual para o PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

O sistema, intitulado PoseGuard, Usa afinação e LoRAs para criar modelos que intrinsecamente não podem gerar poses "banidas". Essa abordagem foi adotada porque as salvaguardas incorporadas aos modelos FOSS geralmente podem ser superado trivialmente, enfatizando que este novo 'filtro' tem como alvo específico instalações locais (já que os modelos somente API pode filtrar conteúdo e prompts de entrada e saída, sem a necessidade de pôr em perigo a integridade dos pesos do modelo por meio de ajuste fino).

Este não é o primeiro trabalho a tratar poses como dados inseguros em si mesmos; 'expressões faciais sexuais' têm sido uma subárea secundária de estudo por algum tempo, enquanto vários dos autores da nova obra também criaram o menos sofisticado Dormente sistema.

No entanto, o novo artigo é o primeiro, até onde sei, a estender a tipificação de poses para além do conteúdo sexual, chegando até o ponto de incluir "movimentos de celebridades protegidos por direitos autorais":

Definimos poses inseguras com base nos riscos potenciais dos resultados gerados, e não em características geométricas. Poses [inseguras] incluem: 1) poses discriminatórias (por exemplo, ajoelhar-se, saudações ofensivas), 2) poses sexualmente sugestivas e inapropriadas para o trabalho (NSFW) e 3) poses sensíveis a direitos autorais que imitam imagens específicas de celebridades.

'Essas poses são coletadas por meio de fontes on-line (por exemplo, Wikipedia), filtragem baseada em LLM e conjuntos de dados rotulados por risco (por exemplo, tags NSFW do Civitai), garantindo um conjunto de dados de poses inseguras equilibrado e abrangente para treinamento.'

A categoria 'NSFW' das 50 poses principais desenvolvidas para o PoseGuard.

A categoria 'NSFW' das 50 poses principais desenvolvidas para o PoseGuard.

É interessante notar que as poses das celebridades pode ser registrada como marca registrada or protegidos por meios legais, e que combinações adequadamente 'criativas' de poses ou posturas podem ser protegidas como únicas sequências de coreografia. No entanto, mesmo uma única pose icônica pode não ser protegida, como um fotógrafo descobriu, no caso Rentmeester Vs. Nike decisão:

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando esta recriou a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando eles recriou a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

O novo sistema PoseGuard afirma ser o primeiro a degradar a saída quando uma pose insegura é detectada; a incorporar proteções de segurança diretamente em um modelo generativo; a definir poses "inseguras" em três categorias; e a garantir que a geração retenha qualidade e integridade quando uma pose ofensiva for alterada o suficiente para escapar do filtro.

A novo papel é intitulado PoseGuard: Geração guiada por postura com guarda-corpos de segurança, e vem de seis pesquisadores da Universidade de Ciência e Tecnologia da China, da Agência (de Cingapura) para Ciência, Tecnologia e Pesquisa (A*STAR CFAR) e da Universidade Tecnológica de Nanyang.

Forma

O PoseGuard reaproveita a lógica de ataques de backdoor para construir um mecanismo de defesa diretamente no modelo. Em um ataque de backdoor típico, entradas específicas acionam saídas maliciosas, e o PoseGuard inverte essa configuração: certas poses predefinidas, consideradas inseguras devido à sua natureza sexual, ofensiva ou sensível a direitos autorais, são vinculadas a imagens-alvo "neutras", como quadros em branco ou desfocados.

Ao ajustar o modelo em um conjunto de dados combinados de poses normais e de gatilho, o sistema aprende a preservar a fidelidade para entradas benignas enquanto degrada a qualidade da saída para as inseguras:

O PoseGuard processa uma imagem de referência e uma sequência de poses usando uma UNet de redução de ruído compartilhada, combinando pesos pré-treinados com ajustes finos alinhados à segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras, mantendo a qualidade de saída para entradas normais.

O PoseGuard processa uma imagem de referência e uma sequência de poses usando uma UNet de redução de ruído compartilhada, combinando pesos pré-treinados com ajustes finos alinhados à segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras, mantendo a qualidade de saída para entradas normais.

Essa estratégia 'dentro do modelo' elimina a necessidade de filtros externos e permanece eficaz mesmo em ambientes adversários ou de código aberto.*

Dados e testes

Para obter poses de linha de base benignas, os autores usaram o UBC-Moda conjunto de dados:

Exemplos do conjunto de dados de moda da Universidade da Colúmbia Britânica, usados como fonte de poses benignas no PoseGuard. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exemplos do conjunto de dados de moda da Universidade da Colúmbia Britânica, usados como fonte de poses benignas no PoseGuard. Poses abstratas foram extraídas dessas imagens com uma estrutura de estimativa de pose. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Poses inseguras, como mencionado anteriormente, foram obtidas de plataformas de código aberto, como a CivitAI. As poses foram extraídas usando o Pose DW estrutura, resultando em imagens de pose de 768x768px:

Exemplos das 50 poses perigosas usadas em treinamento. Aqui estão algumas poses NSFW e sensíveis a direitos autorais, obtidas da Wikipédia, Render-State, Civitai e Pesquisa Google.

Exemplos das 50 poses perigosas usadas em treinamento. Aqui estão algumas poses NSFW e sensíveis a direitos autorais, obtidas da Wikipédia, Render-State, Civitai e Pesquisa Google.

O modelo de geração guiada por pose foi Animar qualquer pessoa.

As seis métricas utilizadas foram Distância do vídeo Fréchet (FVD); FID-VID; Índice de similaridade estrutural (SSIM); Relação sinal-ruído de pico (PSNR); Métricas de similaridade perceptual aprendidas (LPIPS); e Distância inicial de Fréchet (FID). Os testes foram conduzidos em uma GPU NVIDIA A6000 com 48 GB de VRAM, em um tamanho do batch de 4 e um taxa de Aprendizagem de 1 × 10^-5.

As três categorias principais testadas foram eficácia, robustez e generalização.

Na primeira delas, eficácia, os autores compararam duas estratégias de treinamento para o PoseGuard: ajuste fino completo da UNet de redução de ruído e ajuste fino eficiente em termos de parâmetros usando módulos LoRA.

Ambas as abordagens suprimem saídas de poses inseguras enquanto preservam a qualidade da saída em poses benignas, mas com compensações diferentes: o ajuste fino completo atinge uma supressão mais forte e mantém maior fidelidade, particularmente quando o número de poses de treinamento inseguras é pequeno; e o ajuste baseado em LoRA introduz mais degradação na qualidade de geração à medida que o número de poses inseguras aumenta, mas requer significativamente menos parâmetros e menos computação.

Desempenho do PoseGuard em métricas de geração e defesa. As setas para cima indicam métricas em que valores mais altos são melhores; as setas para baixo indicam métricas em que valores mais baixos são melhores.

Desempenho do PoseGuard em métricas de geração e defesa. As setas para cima indicam métricas em que valores mais altos são melhores; as setas para baixo indicam métricas em que valores mais baixos são melhores.

Os resultados qualitativos (veja a imagem abaixo) mostraram que, sem intervenção, o modelo reproduziu poses ofensivas e NSFW com alta fidelidade. Com o PoseGuard ativado, essas poses acionaram saídas de baixa qualidade ou em branco, enquanto entradas benignas permaneceram visualmente intactas. À medida que o conjunto de defesa aumentou de quatro para trinta e duas poses inseguras, a qualidade da saída benigna diminuiu moderadamente, especialmente para LoRA.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, preservando a qualidade das entradas normais.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, preservando a qualidade das entradas normais.

Para a robustezO PoseGuard foi testado em condições que simulam a implantação no mundo real, onde as poses de entrada podem não corresponder exatamente aos exemplos predefinidos. A avaliação incluiu transformações comuns, como tradução, dimensionamento e rotação, bem como ajustes manuais nos ângulos das articulações para imitar a variação natural.

Resultados de robustez do PoseGuard diante de transformações de pose comuns.

Resultados de robustez do PoseGuard diante de transformações de pose comuns.

Na maioria dos casos, o modelo continuou a suprimir gerações inseguras, indicando que a defesa permanece robusta a perturbações moderadas. Quando as alterações removeram o risco subjacente na pose, o modelo parou de suprimir e produziu resultados normais, sugerindo que evita falsos positivos em desvios benignos.

Avaliação da robustez do PoseGuard a modificações de poses. A figura mostra saídas do modelo para poses inseguras alteradas por translação, escala e rotação, bem como ajustes manuais de membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo de risco.

Avaliação da robustez do PoseGuard a modificações de poses. A figura mostra saídas do modelo para poses inseguras alteradas por translação, escala e rotação, bem como ajustes manuais de membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo "arriscado".

Finalmente, na série principal de experimentos, os pesquisadores testaram o PoseGuard para generalização – sua capacidade de operar efetivamente em novos dados, em uma variedade de ambientes e circunstâncias.

Aqui, o PoseGuard foi aplicado para gerar imagens de referência guiadas usando o modelo AnimateAnyone mencionado anteriormente. Nesse cenário, o sistema demonstrou uma supressão mais forte de saídas não autorizadas em comparação com o controle baseado em pose, com degradação quase total do vídeo gerado em alguns casos:

Comparação do desempenho do PoseGuard quando aplicado à geração de imagem guiada por pose versus geração de imagem de referência, usando ajuste fino completo em quatro entradas não seguras.

Comparação do desempenho do PoseGuard quando aplicado à geração de imagem guiada por pose versus geração de imagem de referência, usando ajuste fino completo em quatro entradas não seguras.

Os autores atribuem isso à densa informação de identidade nas imagens de referência, que permite ao modelo aprender com mais facilidade o comportamento defensivo direcionado. Os resultados, sugerem, indicam que o PoseGuard pode limitar os riscos de personificação em cenários em que o vídeo é gerado diretamente a partir da aparência de uma pessoa.

Para um teste final, os autores aplicaram o PoseGuard à síntese de vídeo guiada por marcos faciais usando o AniRetrato sistema, um cenário que visa expressões faciais refinadas em vez de poses de corpo inteiro.

Expressões faciais perigosas foram suprimidas no AniPortrait com o novo sistema.

Expressões faciais perigosas foram suprimidas no AniPortrait com o novo sistema.

Ao ajustar a UNet Denoising com o mesmo mecanismo de defesa, o modelo foi capaz de suprimir saídas de pontos de referência faciais perigosos, sem afetar expressões benignas. Os resultados, sugerem os autores, mostram que o PoseGuard pode generalizar entre modalidades de entrada e manter a eficácia em tarefas de geração mais localizadas e orientadas por expressões.

Resultados visuais mostrando a maneira como o PoseGuard responde à geração guiada por imagem de referência.

Resultados visuais mostrando a maneira como o PoseGuard responde à geração guiada por imagem de referência.

Conclusão

É preciso admitir que, para muitas das 50 poses de referência proibidas fornecidas pelo artigo, atividades como exames médicos ou mesmo a realização de tarefas domésticas enfadonhas provavelmente ficariam bloqueadas no que só pode ser concebido como uma versão baseada em síntese do Efeito Scunthorpe.

Desse ponto de vista, e ainda mais no caso das expressões faciais (que podem ser muito mais ambíguas e com nuances de intenção), o PoseGuard parece ser um instrumento um tanto contundente. Além disso, devido a uma efeito arrepiante em torno de NSFW AI, lançamentos FOSS como o recente Flux Kontext são rotineiramente muito censurado em qualquer caso, seja por meio de filtragem rigorosa de conjuntos de dados, edição de peso ou ambos.

Portanto, adicionar as restrições aqui propostas ao ônus da censura do modelo local parece uma tentativa tácita de suprimir a eficácia de sistemas generativos sem API. Isso talvez nos aponte para um futuro em que modelos locais podem produzir uma geração inferior de qualquer coisa que o usuário goste, enquanto modelos de API oferecem resultados infinitamente superiores, bastando apenas contornar o desafio de filtros e salvaguardas que pacificam o departamento jurídico da empresa anfitriã.

Um sistema como o PoseGuard, em que o ajuste fino afeta ativamente a qualidade da saída do modelo base (embora isso seja ignorado no artigo), não é voltado para sistemas de API; modelos de vanguarda somente on-line provavelmente continuarão a se beneficiar de dados de treinamento irrestritos, já que as formidáveis capacidades NSFW desses modelos são controladas por medidas de supervisão consideráveis.

* O método aqui é tão curto quanto no artigo (que tem apenas cinco páginas) e, como de costume, a abordagem é melhor compreendida na seção de testes.

Primeira publicação na quarta-feira, 6 de agosto de 2025

Tópicos relacionados:Segurança de IA criação de vídeo AI gerador de arte

Quando pensar mais torna a IA mais burra: o paradoxo da escala inversa

Como o "satélite virtual" AlphaEarth do Google está redefinindo o mapeamento global da Terra

Martin Anderson

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai