Ângulo de Anderson

Detecção de Vídeos de Conferência Deepfake com a Função de Vibração do Smartphone

mm
An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, 24 de setembro de 2024 13:27:31

Pesquisas recentes de Cingapura propuseram um método inovador para detectar se alguém no outro lado de uma ferramenta de videoconferência de smartphone está usando métodos como DeepFaceLive para se passar por outra pessoa.

Intitulado SFake, a nova abordagem abandona os métodos passivos empregados pela maioria dos sistemas e faz com que o telefone do usuário vibre (usando os mesmos mecanismos de vibração comuns em smartphones), e subtilmente desfoca o rosto.

Embora os sistemas de deepfaking em tempo real sejam capazes de replicar o desfoque de movimento, desde que o footage desfocado tenha sido incluído nos dados de treinamento, ou pelo menos nos dados de pré-treinamento, eles não podem responder rapidamente o suficiente ao desfoque inesperado deste tipo e continuam a produzir seções não desfocadas de rostos, revelando a existência de uma chamada de conferência deepfake.

DeepFaceLive não consegue responder rapidamente o suficiente para simular o desfoque causado pelas vibrações da câmera. Fonte: https://arxiv.org/pdf/2409.10889v1

DeepFaceLive não consegue responder rapidamente o suficiente para simular o desfoque causado pelas vibrações da câmera. Fonte: https://arxiv.org/pdf/2409.10889v1

Os resultados dos testes nos dados auto-curados dos pesquisadores (já que não existem conjuntos de dados com câmera ativa) encontraram que SFake superou os métodos de detecção de deepfake baseados em vídeo concorrentes, mesmo quando enfrentou circunstâncias desafiadoras, como o movimento natural da mão que ocorre quando a outra pessoa em uma videoconferência segura a câmera com a mão, em vez de usar um suporte de telefone estático.

A Crescente Necessidade de Detecção de Deepfake Baseada em Vídeo

A pesquisa sobre detecção de deepfake baseada em vídeo aumentou recentemente. Após vários anos de golpes de deepfake de voz bem-sucedidos, no início deste ano, um trabalhador de finanças foi enganado para transferir $25 milhões de dólares para um golpista que estava se passando por um CFO em uma chamada de vídeo deepfake.

Embora um sistema desse tipo exija um alto nível de acesso ao hardware, muitos usuários de smartphones já estão acostumados a serviços de verificação financeira e outros tipos de serviços que nos pedem para gravar nossas características faciais para autenticação baseada em rosto (de fato, isso faz parte do processo de verificação do LinkedIn).

Portanto, parece provável que tais métodos se tornarão cada vez mais comuns para sistemas de videoconferência, à medida que esse tipo de crime continua a fazer manchetes.

A maioria das soluções que abordam o deepfaking em tempo real em videoconferências assume um cenário estático, onde o comunicante está usando uma webcam estacionária, e não há movimento ou mudanças ambientais ou de iluminação excessivas. Uma chamada de smartphone não oferece tal situação “fixa”.

Em vez disso, SFake usa vários métodos de detecção para compensar o grande número de variantes visuais em uma videoconferência baseada em smartphone portátil, e parece ser o primeiro projeto de pesquisa a abordar a questão usando equipamentos de vibração padrão integrados aos smartphones.

O artigo é intitulado Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, e vem de dois pesquisadores da Universidade Tecnológica de Nanyang, em Cingapura.

Método

SFake é projetado como um serviço baseado em nuvem, onde um aplicativo local enviaria dados para um serviço de API remoto para ser processado, e os resultados seriam enviados de volta.

No entanto, sua pegada de apenas 450mb e metodologia otimizada permitem que ele processe a detecção de deepfake inteiramente no dispositivo em si, nos casos em que a conexão de rede possa causar que as imagens enviadas sejam excessivamente comprimidas, afetando o processo de diagnóstico.

Executar “all local” desta forma significa que o sistema teria acesso direto ao feed de câmera do usuário, sem a interferência do codec frequentemente associada à videoconferência.

O tempo de análise médio requer uma amostra de vídeo de quatro segundos, durante a qual o usuário é solicitado a permanecer parado, e durante a qual SFake envia “sondas” para causar vibrações da câmera em intervalos seletivamente aleatórios que sistemas como DeepFaceLive não podem responder a tempo.

(Deve ser relembrado que qualquer atacante que não incluiu conteúdo desfocado no conjunto de dados de treinamento é improvável que seja capaz de produzir um modelo que possa gerar desfoque, mesmo em circunstâncias mais favoráveis, e que DeepFaceLive não pode simplesmente “adicionar” essa funcionalidade a um modelo treinado em um conjunto de dados sub-curados)

O sistema escolhe áreas seletivas do rosto como áreas de conteúdo de deepfake potencial, excluindo os olhos e sobrancelhas (já que o piscar e outros movimentos faciais nessa área estão fora do escopo da detecção de desfoque, e não são um indicador ideal).

Esquema conceitual para SFake.

Esquema conceitual para SFake.

Como podemos ver no esquema conceitual acima, após escolher padrões de vibração apropriados e imprevisíveis, decidir sobre a melhor distância focal e realizar detecção facial (incluindo detecção de marcos faciais via um componente Dlib que estima 68 marcos faciais padrão), SFake deriva gradientes do rosto de entrada e se concentra em áreas seletivas desses gradientes.

A sequência de variância é obtida analisando sequencialmente cada quadro no clipe curto em estudo, até que a sequência média ou “ideal” seja alcançada, e o resto descartado.

Isso fornece recursos extraídos recursos que podem ser usados como um quantificador para a probabilidade de conteúdo deepfake, com base no banco de dados treinado (do qual, mais adiante).

O sistema requer uma resolução de imagem de 1920×1080 pixels, bem como uma exigência de zoom de pelo menos 2x para a lente. O artigo observa que tais resoluções (e até mesmo resoluções mais altas) são suportadas no Microsoft Teams, Skype, Zoom e Tencent Meeting.

A maioria dos smartphones tem uma câmera frontal e uma câmera traseira, e frequentemente apenas uma delas tem as capacidades de zoom exigidas por SFake; o aplicativo, portanto, exigiria que o comunicante usasse qualquer uma das duas câmeras que atendesse a esses requisitos.

O objetivo aqui é obter uma proporção correta do rosto do usuário no fluxo de vídeo que o sistema analisará. O artigo observa que a distância média que as mulheres usam dispositivos móveis é de 34,7 cm, e para os homens, 38,2 cm (conforme relatado no Journal of Optometry), e que SFake opera muito bem nessas distâncias.

Já que a estabilização é um problema com vídeo portátil, e já que o desfoque que ocorre do movimento da mão é um impedimento para o funcionamento de SFake, os pesquisadores tentaram vários métodos para compensar. O mais bem-sucedido deles foi calcular o ponto central dos marcos estimados e usá-lo como um “âncora” – efetivamente uma técnica de estabilização algorítmica. Por esse método, uma precisão de 92% foi obtida.

Dados e Testes

Como não existiam conjuntos de dados apropriados para o propósito, os pesquisadores desenvolveram o seu próprio:

‘[Nós] usamos 8 marcas diferentes de smartphones para gravar 15 participantes de gêneros e idades variados para construir nosso próprio conjunto de dados. Colocamos o smartphone no suporte de telefone a 20 cm de distância do participante e ampliamos duas vezes, mirando no rosto do participante para abranger todas as suas características faciais enquanto vibrávamos o smartphone em padrões diferentes.

‘Para telefones cujas câmeras frontais não podem ampliar, usamos as câmeras traseiras como substitutas. Gravamos 150 vídeos longos, cada um com 20 segundos de duração. Por padrão, assumimos que o período de detecção dura 4 segundos. Cortamos 10 clipes de 4 segundos de um longo vídeo, randomizando o tempo de início. Portanto, obtemos um total de 1500 clipes reais, cada um com 4 segundos de duração.’

Embora DeepFaceLive (link do GitHub) tenha sido o alvo central do estudo, já que é quase certamente o foco do interesse criminoso em relação ao fraude de videoconferência.

1500 vídeos falsos foram usados para treinamento, juntamente com o mesmo número de vídeos reais e inalterados.

SFake foi testado contra vários classificadores diferentes, incluindo SBI; FaceAF; CnnDetect; LRNet; DefakeHop variantes; e o serviço de detecção de deepfake online gratuito Deepaware. Para cada um desses métodos de deepfake, 1500 vídeos falsos e 1500 vídeos reais foram treinados.

Para o classificador de teste base, uma rede neural simples de duas camadas com uma função de ativação ReLU foi usada. 1000 vídeos reais e 1000 vídeos falsos foram escolhidos aleatoriamente (embora os vídeos falsos fossem exclusivamente exemplos de DeepFaceLive).

Área sob a Curva de Característica de Operação do Receptor (AUC/AUROC) e Precisão (ACC) foram usados como métricas.

Para treinamento e inferência, um NVIDIA RTX 3060 foi usado, e os testes foram executados no Ubuntu. Os vídeos de teste foram gravados com um Xiaomi Redmi 10x, um Xiaomi Redmi K50, um OPPO Find x6, um Huawei Nova9, um Xiaomi 14 Ultra, um Honor 20, um Google Pixel 6a e um Huawei P60.

Para estar de acordo com os métodos de detecção existentes, os testes foram implementados em PyTorch. Os resultados principais dos testes são ilustrados na tabela abaixo:

Resultados para SFake contra métodos concorrentes.

Resultados para SFake contra métodos concorrentes.

Aqui os autores comentam:

‘Em todos os casos, a precisão de detecção de SFake excedeu 95%. Entre os cinco algoritmos de deepfake, exceto Hififace, SFake se sai melhor contra outros algoritmos de deepfake do que os outros seis métodos de detecção. Como nosso classificador foi treinado usando imagens falsas geradas por DeepFaceLive, ele atinge a taxa de precisão mais alta de 98,8% ao detectar DeepFaceLive.

‘Quando enfrenta faces falsas geradas por RemakerAI, outros métodos de detecção se saem mal. Speculamos que isso pode ser devido à compressão automática de vídeos ao baixá-los da internet, resultando na perda de detalhes de imagem e reduzindo a precisão de detecção. No entanto, isso não afeta a detecção por SFake, que alcança uma precisão de 96,8% na detecção contra RemakerAI.’

Os autores observam ainda que SFake é o sistema mais performático no cenário de um zoom 2x aplicado à lente de captura, já que isso exagera o movimento, e é uma perspectiva incrivelmente desafiadora. Mesmo nessa situação, SFake foi capaz de alcançar uma precisão de reconhecimento de 84% e 83%, respectivamente, para fatores de magnificação de 2,5 e 3.

Conclusão

Um projeto que usa as fraquezas de um sistema de deepfake ao vivo contra si mesmo é uma oferta refrescante em um ano em que a detecção de deepfake foi dominada por artigos que simplesmente reorganizaram abordagens veneráveis em torno da análise de frequência (que está longe de ser imune a inovações no espaço de deepfake).

No final de 2022, outro sistema usou variação de brilho do monitor como um detector; e no mesmo ano, minha própria demonstração da incapacidade de DeepFaceLive de lidar com vistas de perfil de 90 graus ganhou algum interesse da comunidade.

DeepFaceLive é o alvo correto para tal projeto, pois é quase certamente o foco do interesse criminoso em relação à fraude de videoconferência.

No entanto, eu recentemente vi algumas evidências anedóticas de que o sistema LivePortrait, atualmente muito popular na comunidade de efeitos visuais, lida com vistas de perfil muito melhor do que DeepFaceLive; teria sido interessante se ele pudesse ter sido incluído nesse estudo.

 

Publicado pela primeira vez na terça-feira, 24 de setembro de 2024

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.