Ângulo de Anderson

Agora NSFW e ‘Poses de Celebridade’ São Alvo da Censura de IA

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Um novo sistema de segurança para sistemas de vídeo gerativos propõe censurar poses corporais. Posições físicas (ou expressões faciais) que possam ser interpretadas como sugestivas sexualmente, ‘gestos ofensivos’ ou até mesmo poses de celebridades protegidas por direitos autorais ou marcas registradas, são todas alvos.

 

Pesquisas recentes da China e de Cingapura abordam um dos domínios menos óbvios em ‘imagens e vídeos inseguros’: a representação de uma pose em si, no sentido da disposição do corpo ou expressão facial de uma pessoa em saídas criadas por IA:

Esquema conceitual para PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

Esquema conceitual para PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

O sistema, intitulado PoseGuard, usa ajuste fino e LoRAs para criar modelos que intrinsecamente não possam gerar ‘poses proibidas’. Essa abordagem foi adotada porque os mecanismos de segurança integrados aos modelos de código aberto geralmente podem ser superados facilmente, enfatizando que esse novo ‘filtro’ específico visa instalações locais (já que modelos de API podem filtrar conteúdo de entrada e saída e prompts, sem a necessidade de comprometer a integridade dos pesos do modelo por meio do ajuste fino).

Isso não é o primeiro trabalho a tratar poses como dados inseguros em si mesmos; ‘expressões faciais sexuais’ têm sido um pequeno sub-campo de estudo por algum tempo, enquanto vários dos autores do novo trabalho também criaram o menos sofisticado Dormant sistema.

No entanto, o novo artigo é o primeiro, até onde sei, a estender a tipagem de poses além do conteúdo sexual, mesmo ao ponto de incluir ‘movimentos de celebridades protegidos por direitos autorais’:

‘Definimos poses inseguras com base nos riscos potenciais de saídas geradas, e não em características geométricas. [Poses inseguras] incluem: 1) poses discriminatórias (por exemplo, ajoelhadas, saudações ofensivas), 2) poses sugestivas NSFW e 3) poses sensíveis a direitos autorais que imitam imagens específicas de celebridades.

‘Essas poses são coletadas por meio de fontes online (por exemplo, Wikipedia), filtragem baseada em LLM e conjuntos de dados rotulados de risco (por exemplo, tags NSFW do Civitai), garantindo um conjunto de dados de poses inseguras equilibrado e abrangente para treinamento.’

A categoria 'NSFW' dos 50 poses principais desenvolvidos para o PoseGuard.

A categoria ‘NSFW’ dos 50 poses principais desenvolvidos para o PoseGuard.

É interessante notar que poses de celebridades podem ser protegidas por direitos autorais ou protegidas por meios legais, e que combinações ‘criativas’ adequadas de poses ou posições podem ser protegidas como sequências únicas de coreografia. No entanto, mesmo uma pose icônica única pode não ser protegida, como um fotógrafo descobriu, no julgamento Rentmeester Vs. Nike:

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando eles recriaram a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando eles recriaram a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

O novo sistema PoseGuard afirma ser o primeiro a degradar a saída quando uma pose insegura é detectada; a incorporar barreiras de segurança diretamente em um modelo gerativo; a definir ‘poses inseguras’ em três categorias; e a garantir que a geração mantenha qualidade e integridade uma vez que uma pose ofensiva tenha sido alterada o suficiente para escapar do filtro.

O novo artigo é intitulado PoseGuard: Geração Guiada por Pose com Barreiras de Segurança, e vem de seis pesquisadores da Universidade de Ciência e Tecnologia da China, da Agência de Ciência, Tecnologia e Pesquisa de Cingapura (A*STAR CFAR) e da Universidade Tecnológica de Nanyang.

Método

O PoseGuard reutiliza a lógica de ataques de backdoor para construir um mecanismo de defesa diretamente no modelo. Em um ataque de backdoor típico, entradas específicas desencadeiam saídas maliciosas, e o PoseGuard inverte essa configuração: certas poses pré-definidas que são consideradas inseguras devido à sua natureza sexual, ofensiva ou sensível a direitos autorais, são vinculadas a imagens ‘neutras’ de destino, como quadros em branco ou borrados.

Com o ajuste fino do modelo em um conjunto de dados combinado de poses normais e de gatilho, o sistema aprende a preservar a fidelidade para entradas benignas enquanto degrada a qualidade da saída para as inseguras:

O PoseGuard processa uma imagem de referência e uma sequência de poses usando um UNet de denoising compartilhado, combinando pesos pré-treinados com ajuste fino alinhado com a segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras enquanto mantém a qualidade da saída para entradas normais.

O PoseGuard processa uma imagem de referência e uma sequência de poses usando um UNet de denoising compartilhado, combinando pesos pré-treinados com ajuste fino alinhado com a segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras enquanto mantém a qualidade da saída para entradas normais.

Essa estratégia ‘in-model’ elimina a necessidade de filtros externos e permanece eficaz mesmo em ambientes adversários ou de código aberto.*

Dados e Testes

Para obter poses base benignas, os autores usaram o conjunto de dados UBC-Fashion:

Exemplos do conjunto de dados de moda da Universidade de British Columbia, usado como fonte de poses benignas no PoseGuard. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exemplos do conjunto de dados de moda da Universidade de British Columbia, usado como fonte de poses benignas no PoseGuard. Poses abstratas foram extraídas dessas imagens com um framework de estimação de pose. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Poses inseguras, como mencionado anteriormente, foram obtidas de plataformas de código aberto, como o CivitAI. Poses foram extraídas usando o framework DWPose, resultando em imagens de pose de 768x768px:

Exemplos das 50 poses inseguras usadas no treinamento. Aqui estão mostradas poses NSFW e sensíveis a direitos autorais, obtidas do Wikipedia, Render-State, Civitai e Google Search.

Exemplos das 50 poses inseguras usadas no treinamento. Aqui estão mostradas poses NSFW e sensíveis a direitos autorais, obtidas do Wikipedia, Render-State, Civitai e Google Search.

O modelo de geração guiada por pose foi o AnimateAnyone.

Os seis métricas usadas foram Fréchet Video Distance (FVD); FID-VID; Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); e Fréchet Inception Distance (FID). Os testes foram realizados em um GPU NVIDIA A6000 com 48GB de VRAM, em um tamanho de lote de 4 e uma taxa de aprendizado de 1×10-5.

As três categorias principais testadas foram eficácia, robustez e generalização.

Na primeira delas, eficácia, os autores compararam duas estratégias de treinamento para o PoseGuard: ajuste fino completo do UNet de denoising e ajuste fino eficiente de parâmetros usando módulos LoRA.

Ambas as abordagens suprimem saídas de poses inseguras enquanto preservam a qualidade da saída em poses benignas, mas com diferentes compensações: o ajuste fino completo alcança uma supressão mais forte e mantém uma fidelidade mais alta, particularmente quando o número de poses inseguras de treinamento era pequeno; e o ajuste fino baseado em LoRA introduz mais degradação na qualidade da geração à medida que o número de poses inseguras aumenta – mas requer significativamente menos parâmetros e menos computação.

Desempenho do PoseGuard em métricas de geração e defesa. Setas para cima indicam métricas em que valores mais altos são melhores; setas para baixo indicam métricas em que valores mais baixos são melhores.

Desempenho do PoseGuard em métricas de geração e defesa. Setas para cima indicam métricas em que valores mais altos são melhores; setas para baixo indicam métricas em que valores mais baixos são melhores.

Resultados qualitativos (veja a imagem abaixo) mostraram que, sem intervenção, o modelo reproduziu poses ofensivas e NSFW com alta fidelidade. Com o PoseGuard habilitado, essas poses desencadearam saídas de baixa qualidade ou em branco, enquanto entradas benignas permaneceram visualmente intactas. À medida que o conjunto de defesa cresceu de quatro para 32 poses inseguras, a qualidade da saída benigna declinou moderadamente, especialmente para o LoRA.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, enquanto preserva a qualidade para entradas normais.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, enquanto preserva a qualidade para entradas normais.

Para a robustez, o PoseGuard foi testado em condições que simulam o uso real, onde as poses de entrada podem não corresponder exatamente aos exemplos pré-definidos. A avaliação incluiu transformações comuns, como tradução, escala e rotação, bem como ajustes manuais nos ângulos dos membros para imitar variações naturais.

Resultados para a robustez do PoseGuard diante de transformações de pose comuns.

Resultados para a robustez do PoseGuard diante de transformações de pose comuns.

Na maioria dos casos, o modelo continuou a suprimir gerações inseguras, indicando que a defesa permanece robusta a perturbações moderadas. Quando as alterações removeram o risco subjacente na pose, o modelo parou de suprimir e produziu saídas normais, sugerindo que evita falsos positivos sob desvios benignos.

Avaliação da robustez do PoseGuard em relação a modificações de pose. A figura mostra as saídas do modelo para poses inseguras alteradas por tradução, escala e rotação, bem como ajustes manuais nos membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo de risco.

Avaliação da robustez do PoseGuard em relação a modificações de pose. A figura mostra as saídas do modelo para poses inseguras alteradas por tradução, escala e rotação, bem como ajustes manuais nos membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo de risco.

Finalmente, na principal série de experimentos, os pesquisadores testaram o PoseGuard para generalização – sua capacidade de operar efetivamente em novos dados, em uma variedade de ambientes e circunstâncias.

Aqui, o PoseGuard foi aplicado à geração guiada por imagem de referência usando o modelo AnimateAnyone. Nesse cenário, o sistema mostrou uma supressão mais forte de saídas não autorizadas em comparação com o controle baseado em pose, com uma degradação quase total da vídeo gerada em alguns casos:

Comparação do desempenho do PoseGuard quando aplicado à geração guiada por pose versus geração guiada por imagem de referência, usando ajuste fino completo em quatro entradas inseguras.

Comparação do desempenho do PoseGuard quando aplicado à geração guiada por pose versus geração guiada por imagem de referência, usando ajuste fino completo em quatro entradas inseguras.

Os autores atribuem isso à informação de identidade densa nas imagens de referência, que permite que o modelo aprenda comportamento defensivo direcionado. Os resultados, sugerem eles, indicam que o PoseGuard pode limitar riscos de impersonação em cenários onde vídeos são gerados diretamente a partir da aparência de uma pessoa.

Para um teste final, os autores aplicaram o PoseGuard à síntese de vídeo guiada por marcos faciais usando o sistema AniPortrait, um cenário que visa expressões faciais finas em vez de poses corporais completas.

Poses inseguras suprimidas no AniPortrait, com o novo sistema.

Poses inseguras suprimidas no AniPortrait, com o novo sistema.

Ao ajustar finamente o UNet de denoising com o mesmo mecanismo de defesa, o modelo foi capaz de suprimir saídas de marcos faciais inseguros, deixando expressões benignas inalteradas. Os resultados, sugerem os autores, mostram que o PoseGuard pode generalizar-se por diferentes modalidades de entrada e manter sua eficácia em tarefas de geração mais localizadas e baseadas em expressões.

Resultados visuais mostrando como o PoseGuard responde à geração guiada por imagem de referência.

Resultados visuais mostrando como o PoseGuard responde à geração guiada por imagem de referência.

Conclusão

Deve-se admitir que, para muitas das 50 poses proibidas fornecidas pelo artigo, atividades como exames médicos ou até mesmo tarefas domésticas rotineiras provavelmente seriam bloqueadas em uma versão baseada em síntese do efeito Scunthorpe.

Desse ponto de vista, e muito mais no caso de expressões faciais (que podem ser muito mais ambíguas e nuances em intenção), o PoseGuard parece ser um instrumento um tanto quanto bruto. Além disso, devido a um efeito geral de arrefecimento em torno de IA NSFW, lançamentos de código aberto, como o recente Flux Kontext, são rotineiramente muito censurados de qualquer forma,, seja por meio de filtragem rigorosa de conjuntos de dados, edição de pesos ou ambos.

Portanto, acrescentar as restrições propostas aqui ao fardo da censura de modelos locais parece ser uma tentativa tácita de suprimir a eficácia de sistemas gerativos não-API. Isso talvez nos aponte para um futuro onde modelos locais podem produzir uma geração inferior de qualquer coisa que o usuário queira, enquanto modelos de API oferecem saídas infinitamente superiores, se apenas se pode negociar o labirinto de filtros e salvaguardas que pacificam o departamento jurídico da empresa hospedeira.

Um sistema como o PoseGuard, no qual o ajuste fino afeta ativamente a qualidade da saída do modelo base (embora isso seja ignorado no artigo), não visa modelos de API; modelos de vanguarda online continuarão a se beneficiar de dados de treinamento ilimitados, já que as capacidades formidáveis de NSFW desses modelos são controladas por medidas de supervisão consideráveis.

 

* O método é tão curto aqui quanto no artigo (que tem apenas cinco páginas), e, como de costume, a abordagem é melhor compreendida a partir da seção de testes.

Publicado pela primeira vez na quarta-feira, 6 de agosto de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.