Inteligência artificial

Identificando Fontes de Dados de Deepfake com Marcação Baseada em IA

Published July 30, 2021

Updated April 5, 2026

Martin Anderson

Uma colaboração entre pesquisadores da China, Singapura e dos EUA produziu um sistema resiliente para “marcar” fotos de rostos de forma tão robusta que os marcadores de identificação não são destruídos durante um deepfake treinamento, abrindo caminho para reivindicações de propriedade intelectual que poderiam afetar a capacidade dos sistemas de geração de imagens sintéticas de “anonimizar” dados de fonte ilegitimamente coletados.

O sistema, intitulado FakeTagger, usa um processo de codificador/decodificador para incorporar informações de ID visualmente indiscerníveis em imagens em um nível baixo o suficiente para que as informações injetadas sejam interpretadas como dados de características faciais essenciais e, portanto, passem intactas pelos processos de abstração, da mesma forma, por exemplo, como dados de olhos ou boca.

Visão geral da arquitetura do FakeTagger. Dados de fonte são usados para gerar uma característica facial ‘redundante’, ignorando elementos de fundo que serão mascarados por meio de um fluxo de trabalho de deepfake típico. A mensagem é recuperável no final do processo e identificável por meio de um algoritmo de reconhecimento apropriado. Fonte: http://xujuefei.com/felix_acmmm21_faketagger.pdf

A pesquisa vem da Escola de Ciência e Engenharia Cibernética de Wuhan, do Laboratório-Chave de Segurança e Computação Confiável da Informação Aeroespacial do Ministério da Educação da China, do Grupo Alibaba nos EUA, da Universidade Northeastern em Boston e da Universidade Tecnológica de Nanyang em Singapura.

Os resultados experimentais com o FakeTagger indicam uma taxa de reidentificação de até quase 95% em quatro tipos comuns de metodologias de deepfake: troca de identidade (ou seja, DeepFaceLab, FaceSwap); reencenação facial; edição de atributos; e síntese total.

Limitações da Detecção de Deepfake

Embora os últimos três anos tenham trazido uma colheita de novas abordagens para metodologias de identificação de deepfake, todas essas abordagens se baseiam em limitações remediáveis de fluxos de trabalho de deepfake, como brilho nos olhos em modelos subtreinados, e falta de piscar em deepfakes anteriores com conjuntos de faces inadequadamente diversificados. À medida que novas chaves são identificadas, os repositórios de software de código aberto e gratuito têm eliminado essas limitações, seja intencionalmente ou como subproduto de melhorias nas técnicas de deepfake.

O novo artigo observa que o método de detecção pós-fato mais eficaz produzido a partir da competição de detecção de deepfake mais recente do Facebook (DFDC) é limitado a 70% de precisão, em termos de identificação de deepfakes no mundo real. Os pesquisadores atribuem esse fracasso representativo à má generalização contra novos e inovadores sistemas de deepfake baseados em GAN e codificador/decodificador, e à qualidade frequentemente degradada de substituições de deepfake.

Nesse último caso, isso pode ser causado por trabalho de baixa qualidade por parte dos criadores de deepfakes, ou artefatos de compressão quando os vídeos são carregados em plataformas de compartilhamento que buscam limitar os custos de largura de banda e reencodam os vídeos em taxas de bits drasticamente mais baixas do que as submissões. Ironia, não apenas essa degradação de imagem não interfere com a autenticidade aparente de um deepfake, mas também pode realmente aprimorar a ilusão, desde que o vídeo de deepfake seja subsumido em um idioma visual comum de baixa qualidade que é percebido como autêntico.

Marcação Sobrevivente como Auxílio à Inversão de Modelo

Identificar dados de fonte a partir da saída de aprendizado de máquina é um campo relativamente novo e em crescimento, e que torna possível uma nova era de litígios baseados em propriedade intelectual, à medida que as atuais regulamentações de permissivas de raspagem de tela (projetadas para não sufocar a preeminência nacional em pesquisa diante de uma corrida armamentista global de IA) evoluem para legislação mais estrita à medida que o setor se comercializa.

Inversão de Modelo lida com o mapeamento e identificação de dados de fonte a partir da saída gerada por sistemas de síntese em vários domínios, incluindo Geração de Linguagem Natural (NLG) e síntese de imagens. A inversão de modelo é particularmente eficaz na reidentificação de faces que foram borradas, pixeladas ou que passaram pelo processo de abstração de uma Rede Adversária Generativa ou sistema de transformação baseado em codificador/decodificador, como o DeepFaceLab.

Adicionar marcação direcionada a novas ou existentes imagens faciais é um potencial novo auxílio às técnicas de inversão de modelo, com marca d’água sendo um campo emergente.

Marcação Pós-Fato

O FakeTagger é destinado a ser uma abordagem de pós-processamento. Por exemplo, quando um usuário carrega uma foto em uma rede social (o que geralmente envolve algum tipo de processo de otimização e raramente uma transferência direta e inalterada da imagem original), o algoritmo processaria a imagem para aplicar características supostamente indeléveis ao rosto.

Alternativamente, o algoritmo poderia ser aplicado em coleções históricas de imagens, como aconteceu várias vezes nos últimos vinte anos, à medida que grandes sites de fotos de estoque e coleções de imagens comerciais buscaram métodos para identificar conteúdo que foi reutilizado sem permissão.

O FakeTagger busca incorporar características de ID recuperáveis de vários processos de deepfake.

Desenvolvimento e Testes

Os pesquisadores testaram o FakeTagger contra várias aplicações de software de deepfake em quatro abordagens, incluindo o repositório mais amplamente utilizado, o DeepFaceLab; o Face2Face da Stanford, que pode transferir expressões faciais entre imagens e identidades; e o STGAN, que pode editar atributos faciais.

Os testes foram realizados com CelebA-HQ, um repositório público popular contendo 30.000 imagens de faces de celebridades em várias resoluções de até 1024 x 1024 pixels.

Como linha de base, os pesquisadores inicialmente testaram técnicas convencionais de marca d’água de imagem para ver se as marcas impostas sobreviveriam aos processos de treinamento de fluxos de trabalho de deepfake, mas os métodos falharam em todas as quatro abordagens.

Os dados incorporados do FakeTagger foram injetados na etapa de codificador em imagens de conjunto de faces usando uma arquitetura baseada na rede convolucional U-Net para segmentação de imagens biomédicas, lançada em 2015. Posteriormente, a seção decodificadora do framework é treinada para encontrar as informações incorporadas.

O processo foi testado em um simulador de GAN que utilizou as aplicações/algoritmos de software de código aberto e gratuito mencionados anteriormente, em um ambiente de caixa preta sem acesso discreto ou especial aos fluxos de trabalho de cada sistema. Sinais aleatórios foram anexados às imagens de celebridades e registrados como dados relacionados a cada imagem.

Em um ambiente de caixa preta, o FakeTagger foi capaz de alcançar uma precisão superior a 88,95% nas quatro abordagens das aplicações. Em um cenário de caixa branca paralelo, a precisão aumentou para quase 100%. No entanto, como isso sugere futuras iterações de software de deepfake que incorporam o FakeTagger diretamente, é um cenário improvável no futuro próximo.

Contando o Custo

Os pesquisadores observam que o cenário mais desafiador para o FakeTagger é a síntese de imagem completa, como a geração abstrata baseada em CLIP, desde que os dados de treinamento de entrada estão sujeitos aos níveis mais profundos de abstração nesse caso. No entanto, isso não se aplica aos fluxos de trabalho de deepfake que dominaram os noticiários nos últimos anos, pois esses dependem da reprodução fiel de características faciais que definem a identidade.

O artigo também observa que os atacantes adversários poderiam concebivelmente tentar adicionar perturbações, como ruído artificial e granulação, para frustrar tal sistema de marcação, embora isso provavelmente teria um efeito prejudicial na autenticidade da saída de deepfake.

Além disso, eles observam que o FakeTagger precisa adicionar dados redundantes às imagens para garantir a sobrevivência das marcas que incorpora, e que isso poderia ter um custo computacional notável em escala.

Os autores concluem observando que o FakeTagger pode ter potencial para rastreamento de proveniência em outros domínios, como ataques de chuva adversária e outros tipos de ataques baseados em imagens, como exposição adversária, nevoeiro, desfoque, vigneting e color-jittering.