사이버 보안

Deepfaked 음성으로 가능해진 3,500만 달러 은행 강도 사건 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

2020년 1월 아랍에미리트의 한 은행에서 3,500만 달러를 欺诈적으로 인출한 사건에 대한 조사 결과, 은행 지점장에게 잘 알려진 한 회사의 이사長의 음성을模倣하기 위해 Deepfake 음성 기술이 사용되었다고 밝혀졌다.

이 범죄는 2020년 1월 15일에 발생했으며, 미국의 주 당국에 의해 도난당한 자금의 일부를 추적하기 위한 요청(PDF)서에 의해 아랍에미리트에 의해 설명되어 있다.

요청서에는 아랍에미리트의 한 은행 지점장에게 익숙한 음성이 전화를 걸어, 함께 보낸 마틴 젤너(Martin Zelner)라는 이름의 변호사로부터 온 이메일로 지점장에게 자금을 인출하도록 설득했다고 한다. 이는 회사의 인수를 위해 필요한 자금이었다.

요청서에는 다음과 같이 적혀 있다:

‘아랍에미리트 당국에 따르면, 2020년 1월 15일, 피해 회사의 지점장은 회사 본사에서 온 것으로 생각되는 전화를 받았다. 전화를 건 이는 회사의 이사長과 동일한 음성을 가지고 있었기 때문에, 지점장은 전화를 믿을 수 있었다. ‘

‘지점장은 또한 전화를 받은 후, 이사長으로부터 온 것으로 생각되는 여러 이메일을 받았다. 전화를 건 이는 지점장에게 전화를 통해 그리고 이메일을 통해, 피해 회사가 다른 회사를 인수할 예정이며, 마틴 젤너(Martin Zelner)라는 이름의 변호사가 인수 절차를 조율하기 위해 권한을 받았다고 말했다.’

지점장은 젤너로부터 이메일을 받았으며, (가짜) 이사長으로부터의 권한 증명서를 받았다.

Deepfake 음성 사기 확인

아랍에미리트의 조사자들은 이후에 Deepfake 음성 클로닝 기술이 회사의 이사長의 음성을模倣하기 위해 사용되었다는 것을 발견했다:

‘아랍에미리트의 조사 결과, 피고인들이 “딥 보이스” 기술을 사용하여 이사長의 음성을 모방했다는 것이 밝혀졌다. 2020년 1월, 자금은 여러 나라의 은행 계좌로 전송되었으며, 이는 최소 17명의 알려진 및 알려지지 않은 피고인들이 관련된 복잡한 계획이었다. 아랍에미리트 당국은 자금의 이동을 추적하여 미국으로의 두 건의 거래를 확인했다. ‘

‘2020년 1월 22일, 두 건의 거래(199,987.75 달러와 215,985.75 달러)가 피고인들로부터 미국의 센테니얼 은행 계좌 번호(xxxxx7682 및 xxxxx7885)로 전송되었다.’

이 범죄에 대한 자세한 정보는 공개되지 않았으며, 이는 음성 기반 Deepfake 금융 사기의 두 번째 알려진 사례이다. 첫 번째 사례는 2020년 3월에 발생했으며, 영국의 에너지 회사 임원이 자신의 상사로 생각되는 사람으로부터 전화를 받았으며, 220,000 유로(243,000 달러)를 긴급하게 전송하라는 요구를 받았다.

음성 클로닝 개발

Deepfake 음성 클로닝은 기계 학습 모델을 ‘타겟’ 음성(모방할 음성)의 수백, 수천 개의 샘플로 훈련하는 것을 포함한다. 가장 정확한 일치는 타겟 음성을 직접적으로 모방할 사람의 음성과 훈련함으로써 얻을 수 있다. 그러나 모델은 모방할 사람이 과적합(overfitted)될 수 있다.
음성 클로닝 개발자들을 위한 가장 활발한 합법적인 온라인 커뮤니티는 Audio Fakes 디스코드 서버이며, 여기에는 Google의 Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS 및 Glow-TTS를 포함한 여러 Deepfake 음성 클로닝 알고리즘에 대한 포럼이 있다.

실시간 Deepfakes

전화 통화는 필연적으로 상호 작용을 포함하기 때문에, 음성 클로닝 사기는 합성된 고화질 음성 클립으로 합리적으로 수행될 수 없다. 두 경우의 음성 클로닝 사기에서, 우리는 합성자가 실시간 Deepfake 프레임워크를 사용하고 있다고 합리적으로 가정할 수 있다.
실시간 Deepfakes는 최근 DeepFaceLive의 등장으로 주목을 받고 있다. DeepFaceLive는 인기 있는 Deepfake 패키지인 DeepFaceLab의 실시간 구현으로, 실시간으로 라이브 웹캠 영상을 다른 사람의 얼굴로 바꿀 수 있다. 그러나 Audio Fakes 디스코드와 DeepFaceLab 디스코드의 사용자들은 두 기술을 하나의 라이브 비디오+음성 Deepfake 아키텍처로 결합하는 데 관심이 있지만, 아직까지는 공개적으로 이러한 제품이 나타나지 않았다.