Entre em contato

Detecção de deepfake baseada em traços biométricos humanos originais

Inteligência artificial

Detecção de deepfake baseada em traços biométricos humanos originais

mm
Imagens produzidas por deepfakers no DeepFaceLab Discord Channel
Imagens produzidas por deepfakers no DeepFaceLab Discord Channel

Um novo artigo de pesquisadores da Itália e da Alemanha propõe um método para detectar vídeos deepfake com base no comportamento biométrico de face e voz, em vez de artefatos criados por sistemas de síntese facial, soluções caras de marca d'água ou outras abordagens mais difíceis de manejar.

A estrutura requer uma entrada de 10 ou mais vídeos variados e não falsos do assunto. No entanto, não requer treinamento específico, retreinamento ou aumento em vídeos por caso, pois seu modelo incorporado já abstraiu as prováveis ​​distâncias vetoriais entre vídeos reais e falsos de maneira amplamente aplicável.

O aprendizado contrastivo sustenta a abordagem do POI-Forense. Os vetores derivados do material de origem caso a caso são comparados aos mesmos vetores em um possível vídeo falso, com facetas e características extraídas dos componentes de vídeo e áudio da filmagem potencialmente falsificada. Fonte: https://arxiv.org/pdf/2204.03083.pdf

O aprendizado contrastivo sustenta a abordagem do POI-Forense. Os vetores derivados do material de origem caso a caso são comparados aos mesmos vetores em um possível vídeo falso, com facetas e características extraídas dos componentes de vídeo e áudio da filmagem potencialmente falsificada. Fonte: https://arxiv.org/pdf/2204.03083.pdf

Intitulado POI-Forense, a abordagem se baseia em pistas de movimento e áudio exclusivas do indivíduo real que está sendo deepfaked.

Embora tal sistema pudesse permitir estruturas de autenticação completamente automatizadas e "pré-renderizadas" para celebridades, políticos, influenciadores do YouTube e outras pessoas para as quais uma grande quantidade de material de vídeo está prontamente disponível, ele também poderia ser adaptado para uma estrutura onde vítimas comuns de tecnologias deepfake poderiam potencialmente ter uma plataforma para provar a inautenticidade dos ataques contra elas.

Visualizações de recursos extraídos de vídeos genuínos e falsos em quatro assuntos no POI-Forensics, por meio da estrutura t-SNE.

Visualizações de recursos extraídos de vídeos genuínos e falsos em quatro assuntos no POI-Forensics, por meio do estrutura t-SNE.

Os autores afirmam que o POI-Forensics alcança um novo estado da arte na detecção de deepfakes. Em uma variedade de conjuntos de dados comuns neste campo, a estrutura alcança uma melhoria nas pontuações de AUC de 3%, 10% e 7% para vídeos de alta qualidade, baixa qualidade e "atacados", respectivamente. Os pesquisadores prometem lançar o código Em breve.

Desempenho do POI-Forensics contra frameworks SOTA rivais pDFDC, DeepFakeTIMIT, FakeAVCelebV2 e KoDF. O treinamento em cada caso foi realizado no FaceForensics++, ID-Reveal e o método dos autores no VoxCeleb2. Os resultados incluem vídeos de alta e baixa qualidade.

Desempenho do POI-Forensics em comparação com frameworks SOTA rivais PDFDC, DeepFakeTIMIT, FakeAVCelebV2 e KoDFGenericName. O treinamento em cada caso foi realizado em FaceForensics ++ e os próprios autores Revelação de ID no VoxCeleb2. Os resultados incluem vídeos de alta e baixa qualidade.

Os autores declaram:

O treinamento é realizado exclusivamente em vídeos reais de rostos falantes, portanto, o detector não depende de nenhum método de manipulação específico e oferece a mais alta capacidade de generalização. Além disso, nosso método pode detectar ataques de modalidade única (somente áudio, somente vídeo) e multimodal (áudio e vídeo), e é robusto contra vídeos de baixa qualidade ou corrompidos, baseando-se apenas em recursos semânticos de alto nível.

O novo papel, que incorpora elementos de algumas das visões baseadas nos autores Revelação de ID projeto de 2021, intitula-se Detecção Audiovisual de DeepFake de Pessoa de Interesse, e é um esforço conjunto entre a Universidade de Federico II em Nápoles e a Universidade Técnica de Munique.

A corrida armamentista deepfake

Para derrotar um sistema de detecção dessa natureza, os sistemas deepfake e de síntese humana exigiriam a capacidade de pelo menos simular pistas biométricas visuais e de áudio do alvo pretendido da síntese - tecnologia que está a muitos anos de distância e provavelmente permanecerá sob o alcance de sistemas fechados caros e proprietários desenvolvidos por empresas de efeitos visuais, que terão como vantagem a cooperação e participação dos alvos pretendidos (ou seus espólios, no caso de simulação de pessoas falecidas).

A abordagem anterior dos autores, ID-Reveal, concentrava-se inteiramente em informações visuais. Fonte: https://arxiv.org/pdf/2012.02512.pdf

A abordagem anterior dos autores, ID-Reveal, concentrava-se inteiramente em informações visuais. Fonte: https://arxiv.org/pdf/2012.02512.pdf

Métodos deepfake bem-sucedidos e populares, como Troca de rosto e DeepFace Lab/Ao Vivo atualmente têm capacidade zero para criar tais aproximações biométricas granulares, confiando na melhor das hipóteses em talentosos personificadores a quem a identidade falsa é imposta, e muito mais comumente em imagens apropriadas de pessoas "semelhantes". A estrutura do código principal de 2017, que tem pouca modularidade e continua sendo o código-fonte original para DFL e FaceSwap, também não torna viável a adição desse tipo de funcionalidade.

Esses dois pacotes deepfake dominantes são baseados em codificadores automáticos. Métodos alternativos de síntese humana podem usar uma Rede Adversária Generativa (GAN) ou Campo de Radiância Neural (NeRF) abordagem de recriação da identidade humana; mas ambas as linhas de pesquisa têm anos de trabalho pela frente até mesmo para produzir vídeo humano totalmente fotorrealista.

Com exceção do áudio (vozes falsas), a simulação biométrica está muito abaixo na lista de desafios enfrentados pela síntese de imagens humanas. De qualquer forma, reproduzir o timbre e outras qualidades da voz humana não reproduz suas excentricidades e "sinais", nem a maneira como o sujeito real utiliza a construção semântica. Portanto, mesmo a perfeição da simulação de voz gerada por IA não resolve o potencial firewall da autenticidade biométrica.

Somente no Arxiv, várias estratégias e inovações de detecção de deepfake são lançado a cada semana. Abordagens recentes têm se baseado em Homogeneidade Voz-Face, Histograma de padrão binário local (FF-LBPH), percepção humana de deepfakes de áudio, analisando bordas faciais, contabilizando a degradação do vídeo e 'Balística Forense' – entre muitos outros.

A análise de istogramas está entre as técnicas mais recentes oferecidas para melhorar a detecção de deepfake. Fonte: https://arxiv.org/pdf/2203.09928.pdf

A análise de histograma segmentado está entre as técnicas mais recentes oferecidas para melhorar a detecção de deepfake. Fonte: https://arxiv.org/pdf/2203.09928.pdf

Abordagem, Dados e Arquitetura

O POI-Forensics adota uma abordagem multimodal para verificação de identidade, aproveitando a biometria suave com base em pistas visuais e de áudio. A estrutura apresenta redes de áudio e vídeo separadas, que, em última análise, derivam dados vetoriais característicos que podem ser comparados aos mesmos recursos extraídos em um possível vídeo deepfake em estudo.

A arquitetura do POI-Forensics.

A arquitetura conceitual do POI-Forensics.

Análises separadas (áudio ou vídeo) e de fusão podem ser efetuadas em clipes de destino, chegando finalmente a um índice de similaridade de POI. A função de perda contrastiva empregada é baseada em um 2021 colaboração acadêmica entre Google Research, Boston University, Snap Inc. e MIT.

O conjunto de dados base foi dividido por identidade. 4608 identidades foram usadas para treinamento, com 512 restantes para validação. As 500 identidades usadas no FakeAVCelebV2 (um candidato de teste, veja abaixo) foram excluídas para obter resultados não polarizados.

As duas redes foram treinadas por 12 épocas em um tamanho de lote incomumente grande de 2304 lotes por época, com cada lote composto por 8 × 8 segmentos de vídeo – 8 segmentos para 8 identidades diferentes. O otimizador Adam foi usado com decaimento de peso desacoplado a uma taxa de aprendizagem de 10-4, e uma queda de peso de 0.01.

Testes e Resultados

Os conjuntos de dados deepfake testados para o projeto foram os visualizar o conjunto de dados do Desafio de Detecção DeepFake, que apresenta face-swaps em 68 sujeitos, dos quais foram selecionadas 44 identidades que possuem mais de nove vídeos relacionados, totalizando 920 vídeos reais e 2925 vídeos falsos; DeepFake-TIMIT, um conjunto de dados baseado em GAN com 320 vídeos de 32 indivíduos, totalizando 290 vídeos reais e 580 vídeos falsos com duração de pelo menos quatro segundos; FakeAVCelebV2, composto por 500 vídeos reais de Voxceleb2, e aproximadamente 20,000 vídeos falsos de vários conjuntos de dados, aos quais foi adicionado áudio clonado falso com SV2TTS para compatibilidade; e KoDF, um conjunto de dados deepfake coreano com 403 identidades falsificadas através do FaceSwap, DeepFaceLab e FSGAN, bem como três modelos de movimento de primeira ordem (FOMM).

Este último também possui síntese de rosto acionada por áudio ATFHP, e saída de Wav2Lip, com os autores usando um conjunto de dados derivado com 276 vídeos reais e 544 vídeos falsos.

As métricas usadas incluíam a área sob a curva característica de operação do receptor (AUC) e uma taxa de 'alarme falso' aproximada de 10%, o que seria problemático em estruturas que incorporam e treinam com dados falsos, mas cuja preocupação é evitada pelo fato de que o POI-Forensics usa apenas filmagens de vídeo genuínas como entrada.

Os métodos foram testados contra Seferbekov detector deepfake, que alcançou o primeiro lugar no Kaggle Deepfake Detection Desafio; FTCN (Fully Temporal Convolution Network), uma colaboração entre a Universidade Xiamen da China e a Microsoft Research Asia; LipForensics, um trabalho conjunto de 2021 entre o Imperial College London e o Facebook; e Revelação de ID, um projeto anterior de vários pesquisadores do novo artigo, que omite um aspecto de áudio e que usa modelos 3D morfáveis ​​em combinação com um cenário de jogo adversário para detectar saída falsa.

Nos resultados (veja a tabela anterior acima), o POI-Forensics superou o líder de referência Seferbekov em 2.5% em AUC e 1.5% em termos de precisão. O desempenho foi mais competitivo em relação a outros conjuntos de dados na sede.

No entanto, a nova abordagem demonstrou uma vantagem notável sobre todos os métodos de referência concorrentes para vídeos de baixa qualidade, que continuam sendo o cenário mais provável em que os deepfakes tendem a enganar espectadores casuais, com base em contextos do "mundo real".

Os autores afirmam:

'De fato, neste cenário desafiador, apenas abordagens baseadas em identidade continuam fornecendo um bom desempenho, pois dependem de recursos semânticos de alto nível, bastante robustos a deficiências de imagem.'

Considerando que a PIO-Forensics usa apenas vídeos reais como material de origem, a conquista é sem dúvida ampliada e sugere que usar as características biométricas nativas de potenciais vítimas de deepfake é um caminho válido para escapar da "guerra fria de artefatos" entre softwares de deepfake e soluções de detecção de deepfake.

Em um teste final, os pesquisadores adicionaram ruído adversário à entrada, um método que pode enganar os classificadores de maneira confiável. O agora venerável método de sinal de gradiente rápido ainda se mostra particularmente eficaz, a este respeito.

Como era de se esperar, as estratégias de ataque adversarial reduziram a taxa de sucesso em todos os métodos e conjuntos de dados, com a AUC diminuindo em incrementos entre 10% e 38%. No entanto, apenas o POI-Forensics e o método anterior dos autores, ID-Reveal, conseguiram manter um desempenho razoável nesse cenário de ataque, sugerindo que os recursos de alto nível associados à biometria suave são extraordinariamente resistentes à evasão da detecção de deepfakes.

Os autores concluem:

No geral, acreditamos que nosso método é um primeiro passo; em particular, o uso de recursos semânticos de nível superior é um caminho promissor para pesquisas futuras. Além disso, a análise multimodal pode ser ainda mais enriquecida pela inclusão de mais informações de outros domínios, como dados textuais.

 

Publicado pela primeira vez em 8 de abril de 2022.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai