Inteligência artificial
Detecção de Vídeos de Vídeo Conferência Deepfake Através da Iluminação do Monitor

Uma nova colaboração entre um pesquisador da Agência de Segurança Nacional (NSA) dos Estados Unidos e a Universidade da Califórnia em Berkeley oferece um método novato para detectar conteúdo deepfake em um contexto de vídeo ao vivo – observando o efeito da iluminação do monitor na aparência da pessoa no outro lado da ligação de vídeo.

O usuário popular do DeepFaceLive, Druuzil Tech & Games, testa seu próprio modelo Christian Bale DeepFaceLab em uma sessão ao vivo com seus seguidores, enquanto as fontes de luz mudam. Fonte: https://www.youtube.com/watch?v=XPQLDnogLKA
O sistema funciona colocando um elemento gráfico na tela do usuário que muda uma faixa estreita de sua cor mais rápido do que um sistema deepfake típico pode responder – mesmo se, como a implementação de transmissão de deepfake em tempo real DeepFaceLive (ilustrado acima), ele tiver alguma capacidade de manter a transferência de cor ao vivo e contabilizar a iluminação ambiente.
A imagem de cor uniforme exibida no monitor da pessoa no outro lado (ou seja, o possível fraudador deepfake) passa por uma variação limitada de mudanças de tom que são projetadas para não ativar o equilíbrio automático de branco da webcam e outros sistemas de compensação de iluminação ad hoc, que comprometeriam o método.

Do artigo, uma ilustração da mudança nas condições de iluminação do monitor em frente a um usuário, que opera efetivamente como uma ‘luz de área’ difusa. Fonte: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
A teoria por trás da abordagem é que os sistemas de deepfake ao vivo não podem responder a tempo para as mudanças representadas no gráfico na tela, aumentando o ‘atraso’ do efeito deepfake em certas partes do espectro de cor, revelando sua presença.
Para poder medir a luz do monitor refletida com precisão, o sistema precisa levar em conta e, em seguida, descontar o efeito da iluminação ambiental geral que não está relacionada à luz do monitor. Em seguida, é capaz de distinguir falhas na medição do tom de iluminação ativa e do tom facial dos usuários, representando um deslocamento temporal de 1-4 quadros de diferença entre cada:

Limitando as variações de tom no gráfico ‘detector’ na tela e garantindo que a webcam do usuário não seja promovida a ajustar automaticamente suas configurações de captura por mudanças excessivas nos níveis de iluminação do monitor, os pesquisadores foram capazes de discernir um atraso característico no ajuste do sistema deepfake às mudanças de iluminação.
O artigo conclui:
‘Devido à confiança razoável que depositamos em ligações de vídeo ao vivo e à crescente ubiquidade de ligações de vídeo em nossas vidas pessoais e profissionais, propomos que as técnicas para autenticar vídeo (e áudio) ligações só crescerão em importância.’
O estudo é intitulado Detectando Vídeos Deep-Fake em Tempo Real Usando Iluminação Ativa e vem de Candice R. Gerstner, uma matemática de pesquisa aplicada do Departamento de Defesa dos EUA, e do Professor Hany Farid de Berkeley.
Erosão da Confiança
A cena de pesquisa anti-deepfake mudou notavelmente nos últimos seis meses, afastando-se da detecção geral de deepfake (ou seja, visando vídeos pré-gravados e conteúdo pornográfico) e se aproximando da detecção de ‘vivacidade’, em resposta a uma onda crescente de incidentes de uso de deepfake em ligações de vídeo e ao recente aviso do FBI sobre o uso crescente dessas tecnologias em aplicações para trabalho remoto.
Mesmo onde uma ligação de vídeo não tenha sido deepfaked, as oportunidades aumentadas para impostores de vídeo impulsionados por IA estão começando a gerar paranoia.
O novo artigo afirma:
‘A criação de deep fakes em tempo real [apresenta] ameaças únicas devido ao senso geral de confiança que cerca uma ligação de vídeo ou telefone ao vivo e ao desafio de detectar deep fakes em tempo real, à medida que a ligação está se desenrolando.’
A comunidade de pesquisa há muito tempo se estabeleceu o objetivo de encontrar sinais infalíveis de conteúdo deepfake que não possam ser facilmente compensados. Embora a mídia tenha caracterizado isso em termos de uma guerra tecnológica entre pesquisadores de segurança e desenvolvedores de deepfake, a maioria das negações de abordagens iniciais (como análise de piscar de olhos, discernimento de pose de cabeça e análise de comportamento) ocorreu simplesmente porque os desenvolvedores e usuários estavam tentando fazer deepfakes mais realistas em geral, em vez de abordar especificamente o último ‘sinal’ identificado pela comunidade de segurança.
Lançando Luz sobre Vídeo Deepfake ao Vivo
Detectar deepfakes em ambientes de vídeo ao vivo carrega o fardo de levar em conta conexões de vídeo ruins, que são muito comuns em cenários de videoconferência. Mesmo sem uma camada de deepfake interveniente, o conteúdo de vídeo pode estar sujeito a lag do estilo da NASA, artefatos de renderização e outros tipos de degradação em áudio e vídeo. Esses podem servir para esconder as arestas ásperas em uma arquitetura de deepfaking ao vivo, tanto em termos de vídeo quanto de áudio deepfakes.
O sistema dos autores melhora os resultados e métodos que figuram em uma publicação de 2020 do Center for Networked Computing da Temple University, em Filadélfia.

Do artigo de 2020, podemos observar a mudança na iluminação facial ‘preenchida’ à medida que o conteúdo da tela do usuário muda. Fonte: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
A diferença no novo trabalho é que ele leva em conta a forma como as webcams respondem a mudanças de iluminação. Os autores explicam:
‘Porque todas as webcams modernas realizam exposição automática, o tipo de iluminação ativa de alta intensidade [usada no trabalho anterior] provavelmente acionará a exposição automática da câmera, que por sua vez confundirá a aparência facial registrada. Para evitar isso, empregamos uma iluminação ativa consistindo em uma mudança isoluminante de tom.
‘Embora isso evite a exposição automática, pode acionar o equilíbrio de branco da câmera, que novamente confundirá a aparência facial registrada. Para evitar isso, operamos em uma faixa de tom que empiricamente determinamos que não aciona o equilíbrio de branco.’
Para essa iniciativa, os autores também consideraram empreendimentos anteriores semelhantes, como LiveScreen, que força um padrão de iluminação imperceptível na tela do usuário final para revelar conteúdo deepfake.
Embora esse sistema tenha alcançado uma taxa de precisão de 94,8%, os pesquisadores concluem que a sutileza dos padrões de luz tornaria difícil implementar uma abordagem sigilosa em ambientes iluminados, e em vez disso propõem que seu próprio sistema, ou um semelhante, possa ser incorporado publicamente e por padrão em software de videoconferência popular:
‘Nossa intervenção proposta poderia ser realizada por um participante da ligação que simplesmente compartilha sua tela e exibe o padrão variável no tempo, ou, idealmente, poderia ser integrada diretamente ao cliente de ligação de vídeo.’
Testes
Os autores usaram uma mistura de sujeitos sintéticos e do mundo real para testar seu detector de deepfake impulsionado por Dlib. Para o cenário sintético, usaram Mitsuba, um renderizador direto e inverso do Instituto Federal de Tecnologia da Suíça em Lausanne.

Amostras do conjunto de dados simulados, apresentando tons de pele variados, tamanho da fonte de luz, intensidade de luz ambiente e proximidade com a câmera.
A cena representada inclui uma cabeça CGI paramétrica capturada por uma câmera virtual com um campo de visão de 90°. As cabeças apresentam reflexão lambertiana e tons de pele neutros e estão localizadas a 2 pés à frente da câmera virtual.
Para testar a estrutura em uma variedade de configurações de imagem possíveis, os pesquisadores executaram uma série de testes, variando aspectos diversos sequencialmente. Os aspectos alterados incluíam tom de pele, proximidade e tamanho da luz de iluminação.
Os autores comentam:
‘Em simulação, com nossas várias suposições satisfeitas, nossa técnica proposta é altamente robusta a uma ampla gama de configurações de imagem.’
Para o cenário do mundo real, os pesquisadores usaram 15 voluntários com uma variedade de tons de pele, em ambientes diversos. Cada um foi submetido a dois ciclos da variação de tom restrita, sob condições em que uma taxa de atualização de exibição de 30Hz foi sincronizada com a webcam, significando que a iluminação ativa duraria apenas um segundo de cada vez. Os resultados foram amplamente comparáveis aos testes sintéticos, embora as correlações aumentassem notavelmente com valores de iluminação maiores.
Direções Futuras
O sistema, os pesquisadores admitem, não leva em conta oclusões faciais típicas, como franjas, óculos ou barba. No entanto, eles observam que a ocultação desse tipo pode ser adicionada a sistemas posteriores (por meio de marcação e segmentação semântica subsequente), que poderiam ser treinados para tomar valores exclusivamente de áreas de pele percebidas no sujeito alvo.
Os autores também sugerem que um paradigma semelhante poderia ser empregado para detectar ligações de áudio deepfaked e que o som necessário para detectar poderia ser tocado em uma frequência fora do alcance auditivo normal humano.
Talvez o mais interessante, os pesquisadores também sugerem que estender a área de avaliação além do rosto em uma estrutura de captura mais rica poderia melhorar notavelmente a possibilidade de detecção de deepfake*:
‘Uma estimativa 3-D mais sofisticada da iluminação provavelmente forneceria um modelo de aparência mais rico, que seria ainda mais difícil para um falsificador contornar. Embora nos concentremos apenas no rosto, a exibição do computador também ilumina o pescoço, o torso superior e o plano de fundo circundante, a partir do qual medições semelhantes poderiam ser feitas.
‘Essas medições adicionais forçariam o falsificador a considerar a cena 3-D inteira, não apenas o rosto.’
* Minha conversão das citações em linha dos autores para links.
Publicado pela primeira vez em 6 de julho de 2022.












