Connect with us

Agora NSFW e ‘Poses de Celebridade’ São Alvo da Censura de IA

Ângulo de Anderson

Agora NSFW e ‘Poses de Celebridade’ São Alvo da Censura de IA

mm
An artist's wooden mannequin getting arrested – Flux 1D.

Um novo sistema de segurança de IA para sistemas de vídeo gerativos propõe a censura de poses corporais. Posições físicas (ou expressões faciais) que possam ser interpretadas como sugestivas sexualmente, ‘gestos ofensivos’ ou até mesmo poses de celebridades protegidas por direitos autorais ou possivelmente marcadas, são todas alvo.

 

Nova pesquisa da China e Singapura aborda um dos domínios menos óbvios em ‘imagens e vídeos inseguros’ gerados: a representação de uma pose em si, no sentido da disposição do corpo ou expressão facial de uma pessoa representada na saída da IA:

Esquema conceitual para PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

Esquema conceitual para PoseGuard, o sistema proposto na nova pesquisa. Fonte: https://arxiv.org/pdf/2508.02476

O sistema, intitulado PoseGuard, usa ajuste fino e LoRAs para criar modelos que intrinsecamente não possam gerar ‘poses proibidas’. Essa abordagem foi adotada porque os mecanismos de segurança integrados aos modelos de código aberto geralmente podem ser superados trivialmente, enfatizando que esse novo ‘filtro’ específico visa instalações locais (já que modelos de API apenas podem filtrar conteúdo e prompts de entrada e saída, sem a necessidade de comprometer a integridade dos pesos do modelo por meio do ajuste fino).

Isso não é o primeiro trabalho a tratar poses como dados inseguros em si; ‘expressões faciais sexuais’ têm sido um subcampo de estudo menor por algum tempo, enquanto vários dos autores do novo trabalho também criaram o sistema Dormant menos sofisticado.

No entanto, o novo artigo é o primeiro, até onde sei, a estender a tipagem de poses além do conteúdo sexual, mesmo ao ponto de incluir ‘movimentos de celebridades protegidos por direitos autorais’:

‘Definimos poses inseguras com base nos riscos potenciais das saídas geradas, e não em características geométricas. [Poses inseguras] incluem: 1) poses discriminatórias (por exemplo, ajoelhadas, saudações ofensivas), 2) poses sugestivas sexualmente NSFW e 3) poses sensíveis a direitos autorais imitando imagens específicas de celebridades.

‘Essas poses são coletadas por meio de fontes online (por exemplo, Wikipedia), filtragem baseada em LLM e conjuntos de dados rotulados de risco (por exemplo, tags NSFW do Civitai), garantindo um conjunto de dados de poses inseguras equilibrado e abrangente para treinamento.’

A categoria 'NSFW' dos 50 poses principais desenvolvidos para PoseGuard.

A categoria ‘NSFW’ dos 50 poses principais desenvolvidos para PoseGuard.

É interessante notar que poses de celebridades podem ser protegidas por marcas ou protegidas por meios legais, e que combinações de poses ou posturas ‘criativas’ o suficiente podem ser protegidas como sequências únicas de coreografia. No entanto, mesmo uma pose icônica única pode não ser protegida, como um fotógrafo descobriu, no julgamento Rentmeester Vs. Nike:

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando eles recriaram a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

Um fotógrafo que tirou a foto mais à esquerda de Michael Jordan processou a Nike quando eles recriaram a foto (à direita); no entanto, um painel de juízes rejeitou a alegação. Fonte: https://writtendescription.blogspot.com/2018/02/can-you-copyright-pose.html

O novo sistema PoseGuard afirma ser o primeiro a degradar a saída quando uma pose insegura é detectada; a incorporar guardrails de segurança diretamente em um modelo gerativo; a definir ‘poses inseguras’ em três categorias; e a garantir que a geração mantenha a qualidade e a integridade uma vez que uma pose ofensiva tenha sido alterada o suficiente para escapar do filtro.

O novo artigo é intitulado PoseGuard: Geração Guiada por Pose com Guardrails de Segurança, e vem de seis pesquisadores da Universidade de Ciência e Tecnologia da China, da Agência de Ciência, Tecnologia e Pesquisa (A\*STAR CFAR) de Singapura, e da Universidade Tecnológica de Nanyang.

Método

PoseGuard reutiliza a lógica de ataques de backdoor para construir um mecanismo de defesa diretamente no modelo. Em um ataque de backdoor típico, entradas específicas desencadeiam saídas maliciosas, e PoseGuard inverte essa configuração: certas poses pré-definidas que são consideradas inseguras devido à sua natureza sexual, ofensiva ou sensível a direitos autorais, são vinculadas a imagens ‘neutras’ de destino, como quadros em branco ou borrados.

Ao ajustar finamente o modelo em um conjunto de dados combinado de poses normais e gatilhos, o sistema aprende a preservar a fidelidade para entradas benignas enquanto degrada a qualidade da saída para entradas inseguras:

PoseGuard processa uma imagem de referência e uma sequência de poses usando um UNet de desruído compartilhado, combinando pesos pré-treinados com ajuste fino alinhado com a segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras enquanto mantém a qualidade da saída para entradas normais.

PoseGuard processa uma imagem de referência e uma sequência de poses usando um UNet de desruído compartilhado, combinando pesos pré-treinados com ajuste fino alinhado com a segurança. Essa configuração permite que o modelo suprima gerações prejudiciais de poses inseguras enquanto mantém a qualidade da saída para entradas normais.

Essa estratégia ‘in-model’ elimina a necessidade de filtros externos e permanece eficaz mesmo em ambientes adversariais ou de código aberto.*

Dados e Testes

Para obter poses base benéficas, os autores usaram o conjunto de dados UBC-Fashion:

Exemplos do conjunto de dados de moda da Universidade da Colúmbia Britânica, usado como fonte de poses benéficas em PoseGuard. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Exemplos do conjunto de dados de moda da Universidade da Colúmbia Britânica, usado como fonte de poses benéficas em PoseGuard. Poses abstratas foram extraídas dessas imagens com um framework de estimação de pose. Fonte: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

Poses inseguras, como mencionado anteriormente, foram obtidas de plataformas de código aberto como CivitAI. Poses foram extraídas usando o framework DWPose, resultando em imagens de pose de 768x768px:

Exemplos das 50 poses inseguras usadas no treinamento. Aqui estão mostradas poses NSFW e sensíveis a direitos autorais, obtidas do Wikipedia, Render-State, Civitai e Google Search.

Exemplos das 50 poses inseguras usadas no treinamento. Aqui estão mostradas poses NSFW e sensíveis a direitos autorais, obtidas do Wikipedia, Render-State, Civitai e Google Search.

O modelo de geração guiada por pose foi AnimateAnyone.

Os seis métricas usadas foram Fréchet Video Distance (FVD); FID-VID; Índice de Semelhança Estrutural (SSIM); Taxa de Sinal-Ruído de Pico (PSNR); Métricas de Semelhança Perceptiva Aprendidas (LPIPS); e Fréchet Inception Distance (FID). Os testes foram realizados em um GPU NVIDIA A6000 com 48GB de VRAM, em um tamanho de lote de 4 e uma taxa de aprendizado de 1×10-5.

Os três principais testes realizados foram eficácia, robustez e generalização.

Na primeira delas, eficácia, os autores compararam duas estratégias de treinamento para PoseGuard: ajuste fino completo do UNet de desruído e ajuste fino eficiente de parâmetros usando módulos LoRA.

Ambas as abordagens suprimem as saídas de poses inseguras enquanto preservam a qualidade da saída em poses benéficas, mas com diferentes compensações: o ajuste fino completo alcança uma supressão mais forte e mantém uma fidelidade mais alta, particularmente quando o número de poses inseguras de treinamento era pequeno; e o ajuste fino baseado em LoRA introduz mais degradação na qualidade da geração à medida que o número de poses inseguras aumenta – mas requer significativamente menos parâmetros e menos computação.

Desempenho do PoseGuard em métricas de geração e defesa. Setas para cima indicam métricas onde valores mais altos são melhores; setas para baixo indicam métricas onde valores mais baixos são melhores.

Desempenho do PoseGuard em métricas de geração e defesa. Setas para cima indicam métricas onde valores mais altos são melhores; setas para baixo indicam métricas onde valores mais baixos são melhores.

Resultados qualitativos (veja a imagem abaixo) mostraram que, sem intervenção, o modelo reproduziu poses ofensivas e NSFW com alta fidelidade. Com o PoseGuard habilitado, essas poses desencadearam saídas de baixa qualidade ou em branco, enquanto as entradas benéficas permaneceram visualmente intactas. À medida que o conjunto de defesa cresceu de quatro para trinta e duas poses inseguras, a qualidade da saída benéfica declinou moderadamente, especialmente para LoRA.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, enquanto preserva a qualidade para entradas normais.

Resultados visuais mostrando como o PoseGuard responde a uma única pose insegura usando ajuste fino de parâmetros completos. O modelo suprime a saída para poses discriminatórias, NSFW e sensíveis a direitos autorais, redirecionando-as para uma imagem preta, enquanto preserva a qualidade para entradas normais.

Para robustez, o PoseGuard foi testado em condições que simulam o uso no mundo real, onde as poses de entrada podem não corresponder exatamente aos exemplos pré-definidos. A avaliação incluiu transformações comuns como tradução, escala e rotação, bem como ajustes manuais nos ângulos das articulações para imitar a variação natural.

Resultados para a robustez do PoseGuard diante de transformações comuns de pose.

Resultados para a robustez do PoseGuard diante de transformações comuns de pose.

Na maioria dos casos, o modelo continuou a suprimir gerações inseguras, indicando que a defesa permanece robusta a perturbações moderadas. Quando as alterações removiam o risco subjacente na pose, o modelo parou de suprimir e produziu saídas normais, sugerindo que evita falsos positivos sob desvios benéficos.

Avaliação da robustez do PoseGuard em relação a modificações de pose. A figura mostra as saídas do modelo para poses inseguras alteradas por tradução, escala e rotação, bem como ajustes manuais de membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo 'arriscado'.

Avaliação da robustez do PoseGuard em relação a modificações de pose. A figura mostra as saídas do modelo para poses inseguras alteradas por tradução, escala e rotação, bem como ajustes manuais de membros. O PoseGuard continua a suprimir gerações inseguras sob mudanças leves, mas retoma a saída normal quando a pose não contém mais conteúdo ‘arriscado’.

Finalmente, na principal série de experimentos, os pesquisadores testaram o PoseGuard para generalização – sua capacidade de operar efetivamente em novos dados, em uma variedade de ambientes e circunstâncias.

Aqui, o PoseGuard foi aplicado à geração guiada por imagem de referência usando o modelo AnimateAnyone mencionado anteriormente. Nesse cenário, o sistema mostrou uma supressão mais forte de saídas não autorizadas em comparação com o controle baseado em pose, com uma degradação quase total da vídeo gerada em alguns casos:

Comparação do desempenho do PoseGuard quando aplicado à geração guiada por pose versus geração guiada por imagem de referência, usando ajuste fino completo em quatro entradas inseguras.

Comparação do desempenho do PoseGuard quando aplicado à geração guiada por pose versus geração guiada por imagem de referência, usando ajuste fino completo em quatro entradas inseguras.

Os autores atribuem isso à informação de identidade densa em imagens de referência, que permite que o modelo aprenda comportamento defensivo direcionado. Os resultados, sugerem eles, indicam que o PoseGuard pode limitar riscos de impersonação em cenários onde o vídeo é gerado diretamente a partir da aparência de uma pessoa.

Para um teste final, os autores aplicaram o PoseGuard à síntese de vídeo guiada por marcos faciais usando o sistema AniPortrait, um cenário que visa expressões faciais em vez de poses corporais completas.

Poses inseguras suprimidas no AniPortrait, com o novo sistema.

Poses inseguras suprimidas no AniPortrait, com o novo sistema.

Ajustando finamente o UNet de desruído com o mesmo mecanismo de defesa, o modelo foi capaz de suprimir saídas de marcos faciais inseguros enquanto deixava expressões benéficas inalteradas. Os resultados, sugerem os autores, mostram que o PoseGuard pode generalizar em diferentes modalidades de entrada e manter a eficácia em tarefas de geração mais localizadas e baseadas em expressões.

Resultados visuais mostrando como o PoseGuard responde à geração guiada por imagem de referência.

Resultados visuais mostrando como o PoseGuard responde à geração guiada por imagem de referência.

Conclusão

Deve ser admitido que, para muitas das 50 poses proibidas fornecidas pelo artigo, atividades como exames médicos ou até mesmo tarefas domésticas rotineiras provavelmente seriam bloqueadas no que pode ser concebido como uma versão baseada em síntese do efeito Scunthorpe.

Desse ponto de vista, e muito mais no caso de expressões faciais (que podem ser muito mais ambíguas e nuances em intenção), o PoseGuard parece ser um instrumento um tanto quanto bruto. Além disso, devido a um efeito geral gelador em torno de NSFW de IA, lançamentos de código aberto como o recente Flux Kontext são rotineiramente censurados de qualquer forma, seja por meio de filtragem rigorosa de conjuntos de dados, edição de pesos ou ambos.

Portanto, acrescentar as restrições propostas aqui ao fardo da censura de modelos locais parece ser uma tentativa tácita de suprimir a eficácia dos sistemas gerativos não-API. Isso talvez nos aponte para um futuro onde os modelos locais podem produzir uma geração inferior de qualquer coisa que o usuário goste, enquanto os modelos de API oferecem saídas infinitamente superiores, se apenas se puder negociar o labirinto de filtros e salvaguardas que pacificam o departamento jurídico da empresa hospedeira.

Um sistema como o PoseGuard, no qual o ajuste fino ativamente afeta a qualidade da saída do modelo base (embora isso seja ignorado no artigo), não visa os modelos de API em absoluto; modelos de vanguarda online provavelmente continuarão a se beneficiar de dados de treinamento não restritos, já que as capacidades formidáveis de NSFW desses modelos são contidas por medidas de supervisão consideráveis.

 

* O método é tão curto aqui quanto no artigo (que tem apenas cinco páginas), e, como de costume, a abordagem é melhor compreendida a partir da seção de testes.

Publicado pela primeira vez na quarta-feira, 6 de agosto de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.