Ângulo de Anderson

Um Método de Dados Forenses para uma Nova Geração de Deepfakes

Published February 21, 2025

Updated April 26, 2026

Martin Anderson

Variation on ' a 1792x1024 image of a lab technician examining a Guy Fawkes mask with forensic equipment.' - Adobe Firefly

Embora a criação de deepfakes de indivíduos privados tenha se tornado uma preocupação pública crescente e está sendo cada vez mais proibida em várias regiões, provar que um modelo criado por um usuário – como um que permita a vingança pornográfica – foi treinado especificamente em imagens de uma pessoa em particular ainda é extremamente desafiador.

Para colocar o problema em contexto: um elemento-chave de um ataque de deepfake é falsamente afirmar que uma imagem ou vídeo retrata uma pessoa específica. Apenas afirmar que alguém em um vídeo é a identidade #A, em vez de apenas um semblante, é suficiente para criar danos, e nenhuma IA é necessária nesse cenário.

No entanto, se um atacante gera imagens ou vídeos de IA usando modelos treinados em dados de pessoas reais, os sistemas de reconhecimento facial de mídia social e mecanismos de busca vincularão automaticamente o conteúdo falso à vítima – sem exigir nomes em posts ou metadados. As visualizações geradas pela IA garantem a associação.

Quanto mais distintiva for a aparência da pessoa, mais inevitável isso se torna, até que o conteúdo fabricado apareça em pesquisas de imagens e, eventualmente, alcance a vítima.

Frente a Frente

O meio mais comum de disseminar modelos focados em identidade é atualmente através da Adaptação de Baixa Classificação (LoRA), na qual o usuário treina um pequeno número de imagens por algumas horas contra os pesos de um modelo de base muito maior, como Stable Diffusion (para imagens estáticas, principalmente) ou Hunyuan Video, para deepfakes de vídeo.

Os principais alvos das LoRAs, incluindo a nova geração de LoRAs baseadas em vídeo, são celebridades femininas, cuja fama as expõe a esse tipo de tratamento com menos críticas públicas do que no caso de vítimas “desconhecidas”, devido à suposição de que tais obras derivadas estão cobertas pela “uso justo” (pelo menos nos EUA e na Europa).

Celebridades femininas dominam as listas de LoRA e Dreambooth no portal civit.ai. A LoRA mais popular atualmente tem mais de 66.000 downloads, o que é considerável, dado que esse uso de IA ainda é visto como uma atividade ‘marginal’.

Não há um fórum público para as vítimas não celebridades de deepfaking, que apenas surgem na mídia quando os casos de processos surgem, ou as vítimas falam em veículos populares.

No entanto, em ambos os cenários, os modelos usados para falsificar as identidades dos alvos têm “destilado” seus dados de treinamento tão completamente no espaço latente do modelo que é difícil identificar as imagens de origem que foram usadas.

Se fosse possível fazer isso dentro de uma margem de erro aceitável, isso permitiria a persecução daqueles que compartilham LoRAs, pois não apenas prova a intenção de falsificar uma identidade particular (i.e., a de uma pessoa “desconhecida” específica, mesmo que o malfeitor nunca a nomeie durante o processo de difamação), mas também expõe o carregador a acusações de violação de direitos autorais, quando aplicável.

Isso seria útil em jurisdições onde a regulação legal de tecnologias de deepfaking é deficiente ou está atrasada.

Exposto

O objetivo do treinamento de um modelo de base, como o modelo de multi-gigabyte que um usuário pode baixar do Hugging Face, é que o modelo se torne bem geralizado e maleável. Isso envolve treinar em um número adequado de imagens diversificadas e com configurações apropriadas, e terminar o treinamento antes que o modelo “sobreajuste” aos dados.

Um modelo sobreajustado viu os dados tantas vezes (excessivas) durante o processo de treinamento que tenderá a reproduzir imagens muito semelhantes, expondo a fonte dos dados de treinamento.

A identidade ‘Ann Graham Lotz’ pode ser quase perfeitamente reproduzida no modelo Stable Diffusion V1.5. A reconstrução é quase idêntica aos dados de treinamento (à esquerda na imagem acima). Fonte: https://arxiv.org/pdf/2301.13188

No entanto, os modelos sobreajustados são geralmente descartados por seus criadores, em vez de distribuídos, pois são, de qualquer forma, inadequados para o propósito. Portanto, isso é um “achado forense” improvável. De qualquer forma, o princípio se aplica mais ao treinamento caro e de alto volume de modelos de base, onde múltiplas versões da mesma imagem que entraram em um grande conjunto de dados de origem podem tornar certas imagens de treinamento fáceis de invocar (veja imagem e exemplo acima).

As coisas são um pouco diferentes no caso de modelos LoRA e Dreambooth (embora Dreambooth tenha saído de moda devido aos seus grandes tamanhos de arquivo). Aqui, o usuário seleciona um número muito limitado de imagens diversificadas de um assunto e as usa para treinar uma LoRA.

À esquerda, saída de um LoRA de vídeo Hunyuan. À direita, os dados que tornaram a semelhança possível (imagens usadas com permissão da pessoa retratada).

Frequentemente, a LoRA terá uma palavra-chave treinada, como [nome da celebridade]. No entanto, muito frequentemente, o assunto treinado específico aparecerá na saída gerada mesmo sem tais prompts, porque mesmo uma LoRA bem equilibrada (i.e., não sobreajustada) está um pouco “fixada” no material em que foi treinada e tenderá a incluí-lo em qualquer saída.

Essa predisposição, combinada com o número limitado de imagens que são ótimas para um conjunto de dados LoRA, expõe o modelo à análise forense, como veremos.

Desmascarando os Dados

Essas questões são abordadas em um novo artigo da Dinamarca, que oferece uma metodologia para identificar imagens de origem (ou grupos de imagens de origem) em um ataque de inferência de associação em caixa preta (MIA). A técnica envolve, ao menos em parte, o uso de modelos personalizados treinados para ajudar a expor os dados de origem, gerando seus próprios “deepfakes”:

Exemplos de imagens ‘falsas’ geradas pela nova abordagem, em níveis crescentes de Orientação Livre de Classificador (CFG), até o ponto de destruição. Fonte: https://arxiv.org/pdf/2502.11619

Embora o trabalho, intitulado Ataques de Inferência de Associação para Imagens de Rosto Contra Modelos de Difusão Latente Ajustados, seja uma contribuição interessante para a literatura sobre esse tópico particular, também é um artigo inacessível e tersamente escrito que precisa de considerável decodificação. Portanto, cobriremos pelo menos os princípios básicos por trás do projeto aqui e uma seleção dos resultados obtidos.

Em essência, se alguém ajusta um modelo de IA em seu rosto, o método dos autores pode ajudar a provar isso, procurando sinais de memorização no modelo gerado de imagens.

Em primeiro lugar, um modelo de IA alvo é ajustado em um conjunto de dados de imagens de rosto, tornando-o mais provável que reproduza detalhes dessas imagens em suas saídas. Subsequentemente, um modo de ataque de classificador é treinado usando imagens de IA geradas pelo modelo alvo como “positivos” (membros suspeitos do conjunto de treinamento) e outras imagens de um conjunto de dados diferente como “negativos” (não membros).

Aprendendo as diferenças sutis entre esses grupos, o modelo de ataque pode prever se uma imagem dada fazia parte do conjunto de dados original de ajuste.

O ataque é mais eficaz em casos em que o modelo de IA foi ajustado extensivamente, significando que quanto mais um modelo é especializado, mais fácil é detectar se certas imagens foram usadas. Isso geralmente se aplica a LoRAs projetadas para recriar celebridades ou indivíduos privados.

Os autores também descobriram que adicionar marcas d’água visíveis às imagens de treinamento torna a detecção ainda mais fácil – embora marcas d’água ocultas não ajudem muito.

Impressionantemente, a abordagem é testada em um ambiente de caixa preta, significando que funciona sem acesso aos detalhes internos do modelo, apenas suas saídas.

O método desenvolvido é computacionalmente intenso, como os autores admitem; no entanto, o valor desse trabalho está em indicar a direção para pesquisas adicionais e provar que os dados podem ser realisticamente extraídos dentro de uma tolerância aceitável; portanto, dado seu caráter seminal, não precisa ser executado em um smartphone nessa fase.

Método/Dados

Vários conjuntos de dados da Universidade Técnica da Dinamarca (DTU, a instituição anfitriã do artigo dos três pesquisadores) foram usados no estudo, para ajustar o modelo alvo e para treinar e testar o modo de ataque.

Os conjuntos de dados usados foram derivados de DTU Orbit:

DseenDTU O conjunto de imagens base.

DDTU Imagens coletadas do DTU Orbit.

DseenDTU Uma partição do DDTU usada para ajustar o modelo alvo.

DunseenDTU Uma partição do DDTU que não foi usada para ajustar nenhum modelo de geração de imagens e foi usada para testar ou treinar o modelo de ataque.

wmDseenDTU Uma partição do DDTU com marcas d’água visíveis usada para ajustar o modelo alvo.

hwmDseenDTU Uma partição do DDTU com marcas d’água ocultas usada para ajustar o modelo alvo.

DgenDTU Imagens geradas por um Modelo de Difusão Latente (LDM) que foi ajustado no conjunto de imagens DseenDTU.

Os conjuntos de dados usados para ajustar o modelo alvo consistem em pares de imagem-texto legendados pelo modelo de legendagem BLIP (talvez não por coincidência um dos modelos mais populares não censurados na comunidade de IA casual).

BLIP foi configurado para pré-pender a frase ‘a dtu headshot of a’ a cada descrição.

Além disso, vários conjuntos de dados da Universidade de Aalborg (AAU) foram empregados nos testes, todos derivados do corpus AU VBN:

DAAU Imagens coletadas do vbn da AAU.

DseenAAU Uma partição do DAAU usada para ajustar o modelo alvo.

DunseenAAU Uma partição do DAAU que não foi usada para ajustar nenhum modelo de geração de imagens, mas foi usada para testar ou treinar o modelo de ataque.

DgenAAU Imagens geradas por um LDM ajustado no conjunto de imagens DseenAAU.

Equivalentes aos conjuntos anteriores, a frase ‘a aau headshot of a’ foi usada. Isso garantia que todas as legendas no conjunto de dados do DTU seguissem o formato ‘a dtu headshot of a (…)’, reforçando as características centrais do conjunto de dados durante o ajuste.

Testes

Múltiplos experimentos foram conduzidos para avaliar como os ataques de inferência de associação se saíram contra o modelo alvo. Cada teste visava determinar se era possível realizar um ataque bem-sucedido dentro do esquema mostrado abaixo, onde o modelo alvo é ajustado em um conjunto de dados de imagens obtido sem autorização.

Esquema para a abordagem.

Com o modelo ajustado consultado para gerar imagens de saída, essas imagens são então usadas como exemplos positivos para treinar o modelo de ataque, enquanto imagens adicionais não relacionadas são incluídas como exemplos negativos.

O modelo de ataque é treinado usando aprendizado supervisionado e é então testado em novas imagens para determinar se elas foram originalmente parte do conjunto de dados usado para ajustar o modelo alvo. Para avaliar a precisão do ataque, 15% dos dados de teste são reservados para validação.

Como o modelo alvo é ajustado em um conjunto de dados conhecido, o status de associação real de cada imagem já está estabelecido quando se cria os dados de treinamento para o modelo de ataque. Esse cenário controlado permite uma avaliação clara de quão eficazmente o modelo de ataque pode distinguir entre imagens que faziam parte do conjunto de dados de ajuste e aquelas que não.

Para esses testes, o Stable Diffusion V1.5 foi usado. Embora esse modelo um pouco antigo apareça muito em pesquisas devido à necessidade de testes consistentes e ao extenso corpus de trabalhos anteriores que o usam, esse é um caso de uso apropriado; o V1.5 permaneceu popular para a criação de LoRAs na comunidade de hobbyistas de Stable Diffusion por um longo tempo, apesar de múltiplas versões subsequentes, e mesmo com o advento de Flux – porque o modelo é completamente não censurado.

O modelo de ataque dos pesquisadores foi baseado no Resnet-18, com os pesos pré-treinados do modelo retidos. A camada de saída de 1000 neurônios do ResNet-18 foi substituída por uma camada fully-connected com dois neurônios. A perda de treinamento foi entropia cruzada categórica, e o otimizador Adam foi usado.

Para cada teste, o modelo de ataque foi treinado cinco vezes usando diferentes sementes aleatórias para computar intervalos de confiança de 95% para as principais métricas. A classificação zero-shot com o modelo CLIP foi usada como baseline.

(Observe que a tabela de resultados principais original no artigo é concisa e incomum de entender. Portanto, reformulei-a abaixo de uma forma mais amigável ao usuário. Clique na imagem para vê-la em melhor resolução)

Resumo dos resultados de todos os testes. Clique na imagem para vê-la em melhor resolução

O método de ataque dos pesquisadores provou ser mais eficaz quando visava modelos ajustados, particularmente aqueles treinados em um conjunto específico de imagens, como o rosto de uma pessoa. No entanto, embora o ataque possa determinar se um conjunto de dados foi usado, ele tem dificuldade em identificar imagens individuais dentro daquele conjunto.

Em termos práticos, o último não é necessariamente um obstáculo para usar uma abordagem como essa forensicamente; enquanto há relativamente pouco valor em estabelecer que um conjunto de dados famoso como o ImageNet foi usado em um modelo, um atacante em uma pessoa privada (não uma celebridade) tende a ter pouca escolha de dados de origem e precisa explorar completamente os grupos de dados disponíveis, como álbuns de mídia social e outras coleções online. Esses efetivamente criam um ‘hash’ que pode ser descoberto pelos métodos descritos.

O artigo observa que outra forma de melhorar a precisão é usar imagens de IA geradas como “não membros”, em vez de confiar apenas em imagens reais. Isso evita taxas de sucesso artificialmente altas que poderiam enganar os resultados.

Um fator adicional que influencia significativamente a detecção, os autores observam, é a marca d’água. Quando as imagens de treinamento contêm marcas d’água visíveis, o ataque se torna altamente eficaz, enquanto marcas d’água ocultas oferecem pouca ou nenhuma vantagem.

A figura da direita mostra a marca d’água ‘oculta’ real usada nos testes.

Finalmente, o nível de orientação na geração de imagem de texto também desempenha um papel, com o equilíbrio ideal encontrado em uma escala de orientação de cerca de 8. Mesmo quando nenhum prompt direto é usado, um modelo ajustado ainda tende a produzir saídas que se assemelham aos seus dados de treinamento, reforçando a eficácia do ataque.

Conclusão

É uma pena que esse artigo interessante tenha sido escrito de uma forma tão inacessível, pois deveria ser de algum interesse para defensores da privacidade e pesquisadores de IA casuais.

Embora os ataques de inferência de associação possam se tornar uma ferramenta forense interessante e frutífera, é mais importante, talvez, para essa linha de pesquisa desenvolver princípios amplos aplicáveis, para evitar que acabe no mesmo jogo de “acertar o mole” que ocorreu para a detecção de deepfakes em geral, quando o lançamento de um novo modelo afeta adversamente a detecção e sistemas forenses semelhantes.

Como há alguma evidência de um princípio orientador de nível superior nessa nova pesquisa, podemos esperar ver mais trabalhos nessa direção.

Publicado pela primeira vez na sexta-feira, 21 de fevereiro de 2025