Ângulo de Anderson
Fraude de Voz Deepfaked Habilitada para Roubo de $35 Milhões em Banco em 2020

Uma investigação sobre a fraude de $35 milhões de dólares americanos de um banco nos Emirados Árabes Unidos em janeiro de 2020 descobriu que a tecnologia de voz deepfaked foi usada para imitar a voz de um diretor de empresa conhecido de um gerente de banco, que então autorizou as transações.
O crime ocorreu em 15 de janeiro do ano passado e é descrito em um pedido (PDF) dos Emirados Árabes Unidos às autoridades americanas para obter ajuda na localização de uma parte dos fundos desviados que foram enviados para os Estados Unidos.
O pedido afirma que o gerente de uma agência de um banco vítima nos Emirados Árabes Unidos recebeu uma ligação telefônica de uma voz familiar, que, juntamente com e-mails de um advogado chamado Martin Zelner, convenceu o gerente a liberar os fundos, que aparentemente destinavam-se à aquisição de uma empresa.
O pedido afirma:
‘De acordo com as autoridades emiradenses, em 15 de janeiro de 2020, o gerente da agência da Empresa Vítima recebeu uma ligação telefônica que alegava ser da sede da empresa. O chamador soava como o Diretor da empresa, então o gerente da agência acreditou que a ligação era legítima.
‘O gerente da agência também recebeu vários e-mails que ele acreditava serem do Diretor relacionados à ligação telefônica. O chamador disse ao gerente da agência por telefone e e-mail que a Empresa Vítima estava prestes a adquirir outra empresa e que um advogado chamado Martin Zelner (Zelner) havia sido autorizado a coordenar os procedimentos para a aquisição.’
O gerente da agência então recebeu os e-mails de Zelner, juntamente com uma carta de autorização do (suposto) Diretor, cuja voz era familiar à vítima.
Fraude de Voz Deepfaked Identificada
Os investigadores emiradenses então estabeleceram que a tecnologia de clonagem de voz deepfaked havia sido usada para imitar a voz do diretor da empresa:
‘A investigação emiradense revelou que os réus haviam usado tecnologia de “voz profunda” para simular a voz do Diretor. Em janeiro de 2020, fundos foram transferidos da Empresa Vítima para várias contas bancárias em outros países em um esquema complexo que envolvia pelo menos 17 réus conhecidos e desconhecidos. As autoridades emiradenses rastrearam o movimento do dinheiro por meio de várias contas e identificaram duas transações para os Estados Unidos.
‘Em 22 de janeiro de 2020, duas transferências de USD 199.987,75 e USD 215.985,75 foram enviadas de dois dos réus para contas do Centennial Bank com números xxxxx7682 e xxxxx7885, respectivamente, localizadas nos Estados Unidos.’
Não há mais detalhes disponíveis sobre o crime, que é apenas o segundo caso conhecido de fraude financeira baseada em voz deepfaked. O primeiro ocorreu nove meses antes, em março de 2020, quando um executivo de uma empresa de energia do Reino Unido foi importunado por telefone por alguém que soava como o chefe do executivo, exigindo a transferência urgente de €220.000 ($243.000), que o executivo então realizou.
Desenvolvimento de Clonagem de Voz
A clonagem de voz deepfaked envolve o treinamento de um modelo de aprendizado de máquina com centenas ou milhares de amostras da “voz-alvo” (a voz que será imitada). A correspondência mais precisa pode ser obtida treinando a voz-alvo diretamente contra a voz da pessoa que falará no cenário proposto, embora o modelo seja “sobreajustado” para a pessoa que estará imitando a voz-alvo.
A comunidade online legítima mais ativa para desenvolvedores de clonagem de voz é o servidor Discord Audio Fakes, que apresenta fóruns para muitos algoritmos de clonagem de voz deepfaked, como o Tacotron-2 da Google, Talknet, ForwardTacotron, Coqui-ai-TTS e Glow-TTS, entre outros.
Deepfakes em Tempo Real
Como uma conversa telefônica é necessariamente interativa, a fraude de clonagem de voz não pode ser razoavelmente afetada por cliques de voz “assados” de alta qualidade, e em ambos os casos de fraude de clonagem de voz, podemos razoavelmente supor que o falante está usando um quadro de deepfakes em tempo real.
Os deepfakes em tempo real entraram em foco recentemente devido à criação do DeepFaceLive, uma implementação em tempo real do popular pacote de deepfakes DeepFaceLab, que pode superpor celebridades ou outras identidades em imagens de webcam ao vivo. Embora os usuários do Discord Audio Fakes e do Discord DeepFaceLab estejam intensamente interessados em combinar as duas tecnologias em uma arquitetura de deepfakes de vídeo e voz ao vivo, nenhum produto desse tipo foi lançado publicamente até agora.
Age DeepFaceLab, que pode superpor celebridades ou outras identidades em imagens de webcam ao vivo. Embora os usuários do Discord Audio Fakes e do Discord DeepFaceLab estejam intensamente interessados em combinar as duas tecnologias em uma arquitetura de deepfakes de vídeo e voz ao vivo, nenhum produto desse tipo foi lançado publicamente até agora.












