An ninh mạng

Deepfaked Voice đã kích hoạt vụ cướp ngân hàng trị giá 35 triệu đô la vào năm 2020

cập nhật on 15 Tháng Mười

Một cuộc điều tra về vụ lừa đảo 35 triệu USD từ một ngân hàng ở Các Tiểu vương quốc Ả Rập Thống nhất vào tháng 2020 năm XNUMX đã phát hiện ra rằng công nghệ giọng nói deepfake đã được sử dụng để bắt chước một giám đốc công ty mà giám đốc chi nhánh ngân hàng biết, người sau đó đã ủy quyền cho các giao dịch.

Vụ án xảy ra vào ngày 15 tháng XNUMX năm ngoái và được vạch ra trong một yêu cầu (PDF) của UAE cho các cơ quan nhà nước của Hoa Kỳ để được hỗ trợ theo dõi một phần số tiền bị bòn rút đã được gửi đến Hoa Kỳ.

Yêu cầu nói rằng giám đốc chi nhánh của một ngân hàng nạn nhân giấu tên ở UAE đã nhận được một cuộc điện thoại từ một giọng nói quen thuộc, cùng với các email kèm theo từ một luật sư tên là Martin Zelner, đã thuyết phục người quản lý giải ngân số tiền, rõ ràng là dành cho mua lại một công ty.

Sản phẩm yêu cầu nói:

'Theo nhà chức trách Các Tiểu vương quốc Ả Rập Thống nhất, vào ngày 15 tháng 2020 năm XNUMX, giám đốc chi nhánh của Công ty Nạn nhân đã nhận được một cuộc điện thoại tự xưng là từ trụ sở công ty. Người gọi giống như Giám đốc của công ty, vì vậy giám đốc chi nhánh tin rằng cuộc gọi là hợp pháp.

'Giám đốc chi nhánh cũng nhận được một số email mà anh ta tin là từ Giám đốc có liên quan đến cuộc điện thoại. Người gọi nói với giám đốc chi nhánh qua điện thoại và email rằng Công ty Nạn nhân sắp mua lại một công ty khác và một luật sư tên là Martin Zelner (Zelner) đã được ủy quyền điều phối các thủ tục mua lại.'

Giám đốc chi nhánh sau đó đã nhận được email từ Zelner, cùng với thư ủy quyền từ Giám đốc (được cho là), người có giọng nói quen thuộc với nạn nhân.

Gian lận giọng nói Deepfake đã được xác định

Các nhà điều tra của Tiểu vương quốc sau đó đã xác định rằng công nghệ nhân bản giọng nói deepfake đã được sử dụng để bắt chước giọng nói của giám đốc công ty:

'Cuộc điều tra của Tiểu vương quốc cho thấy các bị cáo đã sử dụng công nghệ “giọng trầm” để mô phỏng giọng nói của Giám đốc. Vào tháng 2020 năm 17, tiền đã được chuyển từ Công ty Nạn nhân sang một số tài khoản ngân hàng ở các quốc gia khác trong một kế hoạch phức tạp liên quan đến ít nhất XNUMX bị cáo đã biết và chưa biết. Các nhà chức trách của Tiểu vương quốc Ả Rập Thống nhất đã lần theo dấu vết chuyển động của số tiền thông qua nhiều tài khoản và xác định được hai giao dịch đến Hoa Kỳ.

'Vào ngày 22 tháng 2020 năm 199,987.75, hai lần chuyển khoản 215,985.75 USD và 7682 USD đã được gửi từ hai trong số các bị cáo đến các số tài khoản của Ngân hàng Centennial, lần lượt là xxxxx7885 và xxxxxXNUMX, đặt tại Hoa Kỳ.'

Không có thêm thông tin chi tiết nào liên quan đến tội phạm, đây chỉ là trường hợp gian lận tài chính deepfake dựa trên giọng nói thứ hai được biết đến. Vụ đầu tiên diễn ra 2020 tháng trước đó, vào tháng 220,000 năm 243,000, khi một giám đốc điều hành tại một công ty năng lượng của Vương quốc Anh bị một người có vẻ như là sếp của nhân viên quấy rối qua điện thoại, yêu cầu chuyển gấp XNUMX € (XNUMX USD) mà nhân viên sau đó giao dịch.

Phát triển nhân bản giọng nói

Nhân bản giọng nói deepfake liên quan đến việc đào tạo mô hình học máy trên hàng trăm hoặc hàng nghìn mẫu giọng nói của 'mục tiêu' (giọng nói sẽ được bắt chước). Có thể đạt được kết quả phù hợp chính xác nhất bằng cách huấn luyện giọng nói mục tiêu trực tiếp với giọng nói của người sẽ nói trong kịch bản đề xuất, mặc dù mô hình sẽ được 'trang bị quá mức' cho người đang mạo danh mục tiêu.

Cộng đồng trực tuyến hợp pháp tích cực nhất dành cho các nhà phát triển nhân bản giọng nói là giả mạo âm thanh Máy chủ Discord, có các diễn đàn cho nhiều thuật toán nhân bản giọng nói deepfake như của Google tacotron-2, mạng đàm thoại, Về Phía TrướcTacotron, Coqui-ai-TTS và phát sáng-TTS, Trong số những người khác.

Deepfake thời gian thực

Vì một cuộc trò chuyện qua điện thoại nhất thiết phải có tính tương tác, nên việc gian lận sao chép giọng nói không thể bị ảnh hưởng một cách hợp lý bởi các clip giọng nói chất lượng cao đã được 'nướng' và trong cả hai trường hợp lừa đảo sao chép giọng nói, chúng ta có thể giả định một cách hợp lý rằng người nói đang sử dụng kỹ thuật giả sâu trực tiếp, theo thời gian thực. khuôn khổ.

Gần đây, deepfakes thời gian thực đã được chú trọng do sự ra đời của DeepFaceLive, một triển khai thời gian thực của gói deepfake phổ biến DeepFaceLab, có thể áp đặt danh tính của người nổi tiếng hoặc các danh tính khác vào cảnh quay webcam trực tiếp. Mặc dù người dùng tại Audio Fakes Discord và DeepFaceLab Discord rất quan tâm đến việc kết hợp hai công nghệ này thành một kiến trúc deepfake trực tiếp bằng giọng nói và video, nhưng vẫn chưa có sản phẩm nào như vậy xuất hiện công khai.