Cibersegurança
Detecção de Deepfakes em Vídeo-Conferência com a Função ‘Vibrar’ de um Smartphone

Nova pesquisa de Cingapura propôs um método inovador para detectar se alguém no outro lado de uma ferramenta de vídeo-conferência de smartphone está usando métodos como DeepFaceLive para se passar por outra pessoa.
Intitulado SFake, a nova abordagem abandona os métodos passivos empregados pela maioria dos sistemas e faz com que o telefone do usuário vibre (usando os mesmos mecanismos de ‘vibrar’ comuns em smartphones), e subtilmente desfoca o rosto.
Embora os sistemas de deepfaking em tempo real sejam capazes de replicar o desfoque de movimento, desde que o footage desfocado tenha sido incluído nos dados de treinamento, ou pelo menos nos dados de pré-treinamento, eles não conseguem responder rapidamente o suficiente ao desfoque inesperado deste tipo e continuam a produzir seções não desfocadas de rostos, revelando a existência de uma chamada de vídeo-conferência deepfake.

DeepFaceLive não consegue responder rapidamente o suficiente para simular o desfoque causado pelas vibrações da câmera. Fonte: https://arxiv.org/pdf/2409.10889v1
Os resultados dos testes nos dados auto-curados dos pesquisadores (já que não existem conjuntos de dados com câmera ativa) encontraram que SFake superou os métodos de detecção de deepfakes baseados em vídeo, mesmo quando enfrentou circunstâncias desafiadoras, como o movimento natural da mão que ocorre quando a outra pessoa em uma vídeo-conferência segura a câmera com a mão, em vez de usar um suporte de telefone estático.
A Crescente Necessidade de Detecção de Deepfakes Baseada em Vídeo
A pesquisa sobre detecção de deepfakes baseada em vídeo aumentou recentemente. Após vários anos de golpes de deepfakes de voz bem-sucedidos, no início deste ano, um trabalhador de finanças foi enganado para transferir $25 milhões de dólares para um golpista que estava se passando por um CFO em uma chamada de vídeo-conferência deepfake.
Embora um sistema deste tipo exija um alto nível de acesso ao hardware, muitos usuários de smartphones já estão acostumados a serviços de verificação financeira e outros tipos de verificação que nos pedem para gravar nossas características faciais para autenticação baseada em rosto (de fato, isso faz parte do processo de verificação do LinkedIn).
Portanto, parece provável que tais métodos sejam cada vez mais aplicados em sistemas de vídeo-conferência, à medida que esse tipo de crime continua a fazer manchetes.
A maioria das soluções que abordam o deepfaking em tempo real em vídeo-conferência assume um cenário muito estático, onde o comunicante está usando uma webcam estacionária, e nenhum movimento ou mudanças ambientais ou de iluminação excessivas são esperados. Uma chamada de smartphone não oferece nenhum cenário ‘fixo’ deste tipo.
Em vez disso, SFake usa vários métodos de detecção para compensar o grande número de variantes visuais em uma vídeo-conferência baseada em smartphone portátil, e parece ser o primeiro projeto de pesquisa a abordar a questão por meio do uso de equipamentos de vibração padrão integrados aos smartphones.
O artigo é intitulado Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes, e vem de dois pesquisadores da Universidade Tecnológica de Nanyang, em Cingapura.
Método
SFake é projetado como um serviço baseado em nuvem, onde um aplicativo local enviaria dados para um serviço de API remoto para ser processado, e os resultados seriam enviados de volta.
No entanto, seu tamanho de apenas 450mb e metodologia otimizada permitem que ele processe a detecção de deepfakes entirely no dispositivo em si, em casos onde a conexão de rede possa causar que as imagens enviadas sejam excessivamente comprimidas, afetando o processo de diagnóstico.
Executar ‘all local’ desta forma significa que o sistema teria acesso direto à feed de câmera do usuário, sem a interferência do codec frequentemente associada à vídeo-conferência.
O tempo de análise médio requer uma amostra de vídeo de quatro segundos, durante a qual o usuário é solicitado a permanecer parado, e durante a qual SFake envia ‘probes’ para causar vibrações da câmera a ocorrer, em intervalos aleatórios seletivos que sistemas como DeepFaceLive não podem responder a tempo.
(Deve ser relembrado que qualquer atacante que não incluiu conteúdo desfocado no conjunto de dados de treinamento é improvável ser capaz de produzir um modelo que possa gerar desfoque, mesmo em circunstâncias mais favoráveis, e que DeepFaceLive não pode simplesmente ‘adicionar’ essa funcionalidade a um modelo treinado em um conjunto de dados sub-curado)
O sistema escolhe áreas seletivas do rosto como áreas de potencial conteúdo deepfake, excluindo os olhos e sobrancelhas (já que o piscar e outras motilidades faciais nessa área estão fora do escopo da detecção de desfoque, e não são um indicador ideal).

Esquema conceitual para SFake.
Como podemos ver no esquema conceitual acima, após escolher padrões de vibração apropriados e imprevisíveis, decidir sobre a melhor distância focal, e realizar reconhecimento facial (incluindo detecção de marcos via um componente Dlib que estima 68 marcos faciais padrão), SFake deriva gradientes da face de entrada e se concentra em áreas selecionadas desses gradientes.
A sequência de variância é obtida analisando sequencialmente cada quadro no clipe curto em estudo, até que a sequência média ou ‘ideal’ seja alcançada, e o resto descartado.
Isso fornece recursos extraídos recursos que podem ser usados como um quantificador para a probabilidade de conteúdo deepfake, com base no banco de dados treinado (do qual, mais adiante).
O sistema requer uma resolução de imagem de 1920×1080 pixels, bem como uma exigência de zoom de pelo menos 2x para a lente. O artigo observa que tais resoluções (e até resoluções mais altas) são suportadas no Microsoft Teams, Skype, Zoom e Tencent Meeting.
A maioria dos smartphones tem uma câmera frontal e uma câmera auto-facial, e frequentemente apenas uma delas tem as capacidades de zoom exigidas por SFake; o aplicativo, portanto, exigiria que o comunicante usasse qualquer uma das câmeras que atendesse a esses requisitos.
O objetivo aqui é obter uma proporção correta do rosto do usuário no fluxo de vídeo que o sistema irá analisar. O artigo observa que a distância média que as mulheres usam dispositivos móveis é de 34,7cm, e para os homens, 38,2cm (conforme relatado no Journal of Optometry), e que SFake opera muito bem nessas distâncias.
Já que a estabilização é um problema com vídeo portátil, e já que o desfoque que ocorre do movimento da mão é um impedimento para o funcionamento de SFake, os pesquisadores tentaram vários métodos para compensar. O mais bem-sucedido desses foi calcular o ponto central dos marcos estimados e usá-lo como um ‘âncora’ – efetivamente uma técnica de estabilização algorítmica. Por esse método, uma precisão de 92% foi obtida.
Dados e Testes
Como nenhum conjunto de dados apropriado existia para o propósito, os pesquisadores desenvolveram o seu próprio:
‘[Nós] usamos 8 marcas diferentes de smartphones para gravar 15 participantes de gêneros e idades variados para construir nosso próprio conjunto de dados. Nós colocamos o smartphone no suporte de telefone a 20 cm de distância do participante e ampliamos duas vezes, mirando no rosto do participante para abranger todas as suas características faciais, enquanto vibrava o smartphone em padrões diferentes.
‘Para telefones cujas câmeras frontais não podem ampliar, usamos as câmeras traseiras como substituto. Nós gravamos 150 vídeos longos, cada um com 20 segundos de duração. Por padrão, assumimos que o período de detecção dura 4 segundos. Nós cortamos 10 clipes de 4 segundos de um longo vídeo, randomizando o tempo de início. Portanto, obtemos um total de 1500 clipes reais, cada um com 4 segundos de duração.’
Embora DeepFaceLive (link do GitHub) tenha sido o alvo central do estudo, já que é atualmente o foco do interesse criminoso em relação ao golpe de vídeo-conferência, os pesquisadores incluíram quatro outros métodos para treinar seu modelo de detecção base: Hififace; FS-GANV2; RemakerAI; e MobileFaceSwap – o último desses uma escolha particularmente apropriada, dado o ambiente-alvo.
1500 vídeos falsos foram usados para treinamento, juntamente com o mesmo número de vídeos reais e inalterados.
SFake foi testado contra vários classificadores diferentes, incluindo SBI; FaceAF; CnnDetect; LRNet; DefakeHop variantes; e o serviço de detecção de deepfakes online gratuito Deepaware. Para cada um desses métodos de deepfake, 1500 vídeos falsos e 1500 vídeos reais foram treinados.
Para o classificador de teste base, uma rede neural simples de duas camadas com uma função de ativação ReLU foi usada. 1000 vídeos reais e 1000 vídeos falsos foram escolhidos aleatoriamente (embora os vídeos falsos tenham sido exclusivamente exemplos de DeepFaceLive).
Área sob a Curva de Característica de Operação do Receptor (AUC/AUROC) e Precisão (ACC) foram usados como métricas.
Para treinamento e inferência, um NVIDIA RTX 3060 foi usado, e os testes foram executados sob Ubuntu. Os vídeos de teste foram gravados com um Xiaomi Redmi 10x, um Xiaomi Redmi K50, um OPPO Find x6, um Huawei Nova9, um Xiaomi 14 Ultra, um Honor 20, um Google Pixel 6a e um Huawei P60.
Para estar de acordo com os métodos de detecção existentes, os testes foram implementados em PyTorch. Os resultados dos testes principais são ilustrados na tabela abaixo:

Resultados para SFake contra métodos concorrentes.
