Cibersegurança
Roubo bancário de $35 milhões habilitado por voz Deepfaked em 2020

Uma investigação sobre a fraude de $35 milhões de dólares de um banco nos Emirados Árabes Unidos em janeiro de 2020 descobriu que a tecnologia de voz deepfake foi usada para imitar um diretor de empresa conhecido de um gerente de banco, que então autorizou as transações.
O crime ocorreu em 15 de janeiro do ano passado e é descrito em um pedido (PDF) dos Emirados Árabes Unidos às autoridades estaduais americanas para obter ajuda na rastreio de uma parte dos fundos desviados que foram enviados para os Estados Unidos.
O pedido afirma que o gerente de uma agência bancária de um banco vítima nos Emirados Árabes Unidos recebeu uma ligação telefônica de uma voz familiar, que, juntamente com e-mails de um advogado chamado Martin Zelner, convenceu o gerente a disponibilizar os fundos, que aparentemente destinavam-se à aquisição de uma empresa.
O pedido afirma:
‘De acordo com as autoridades emiradenses, em 15 de janeiro de 2020, o gerente de uma agência da Empresa Vítima recebeu uma ligação telefônica que alegava ser da sede da empresa. O interlocutor soava como o Diretor da empresa, então o gerente da agência acreditou que a ligação era legítima.
‘O gerente da agência também recebeu vários e-mails que ele acreditava serem do Diretor relacionados à ligação telefônica. O interlocutor disse ao gerente da agência por telefone e e-mail que a Empresa Vítima estava prestes a adquirir outra empresa e que um advogado chamado Martin Zelner (Zelner) havia sido autorizado a coordenar os procedimentos para a aquisição.’
O gerente da agência então recebeu os e-mails de Zelner, juntamente com uma carta de autorização do (suposto) Diretor, cuja voz era familiar à vítima.
Fraude de Voz Deepfake Identificada
Investigadores emiradenses então estabeleceram que a tecnologia de clonagem de voz deepfake havia sido usada para imitar a voz do diretor da empresa:
‘A investigação emiradense revelou que os réus haviam usado tecnologia de “voz profunda” para simular a voz do Diretor. Em janeiro de 2020, fundos foram transferidos da Empresa Vítima para várias contas bancárias em outros países em um esquema complexo que envolvia pelo menos 17 réus conhecidos e desconhecidos. As autoridades emiradenses rastrearam o movimento do dinheiro por meio de várias contas e identificaram duas transações para os Estados Unidos.
‘Em 22 de janeiro de 2020, duas transferências de USD 199.987,75 e USD 215.985,75 foram enviadas de dois dos réus para números de contas do Centennial Bank xxxxx7682 e xxxxx7885, respectivamente, localizados nos Estados Unidos.’
Não há mais detalhes disponíveis sobre o crime, que é apenas o segundo caso conhecido de fraude financeira baseada em voz deepfake. O primeiro ocorreu nove meses antes, em março de 2020, quando um executivo de uma empresa de energia do Reino Unido foi importunado por telefone por alguém que soava como o chefe do funcionário, exigindo a transferência urgente de €220.000 ($243.000), que o funcionário então transacionou.
Desenvolvimento de Clonagem de Voz
A clonagem de voz deepfake envolve o treinamento de um modelo de aprendizado de máquina em centenas ou milhares de amostras da ‘voz-alvo’ (a voz que será imitada). A correspondência mais precisa pode ser obtida treinando a voz-alvo diretamente contra a voz da pessoa que falará no cenário proposto, embora o modelo seja ‘sobreajustado’ à pessoa que estará imitando a voz-alvo.
A comunidade online legítima mais ativa para desenvolvedores de clonagem de voz é o servidor Audio Fakes Discord, que apresenta fóruns para muitos algoritmos de clonagem de voz deepfake, como o Tacotron-2 da Google, Talknet, ForwardTacotron, Coqui-ai-TTS e Glow-TTS, entre outros.
Deepfakes em Tempo Real
Como uma conversa telefônica é necessariamente interativa, a fraude de clonagem de voz não pode ser razoavelmente afetada por cliques de voz de alta qualidade ‘assados’, e em ambos os casos de fraude de clonagem de voz, podemos razoavelmente supor que o falante está usando um quadro de deepfake em tempo real.
Os deepfakes em tempo real entraram em foco recentemente devido à criação do DeepFaceLive, uma implementação em tempo real do popular pacote de deepfake DeepFaceLab, que pode superpor identidades de celebridades ou outras em footage de webcam ao vivo. Embora os usuários do servidor Discord Audio Fakes e do servidor Discord DeepFaceLab estejam intensamente interessados em combinar as duas tecnologias em uma arquitetura de deepfake de vídeo e voz ao vivo, nenhum produto assim emergiu publicamente até agora.










