Góc nhìn Anderson

Giọng Nói Deepfaked Kích Hoạt Vụ Cướp Ngân Hàng 35 Triệu Đô La Năm 2020

mm

Cơ quan điều tra về vụ lừa đảo 35 triệu đô la Mỹ từ một ngân hàng ở Các Tiểu vương quốc Ả Rập Thống nhất vào tháng 1 năm 2020 đã phát hiện ra rằng công nghệ giọng nói deepfake đã được sử dụng để bắt chước giọng nói của một giám đốc công ty quen thuộc với một nhà quản lý chi nhánh ngân hàng, người sau đó đã ủy quyền cho các giao dịch.

Tội ác này diễn ra vào ngày 15 tháng 1 năm ngoái và được nêu trong một yêu cầu (PDF) của UAE gửi cho các cơ quan chức năng của Mỹ để hỗ trợ theo dõi một phần của số tiền bị đánh cắp đã được gửi đến Hoa Kỳ.

Yêu cầu này cho biết rằng nhà quản lý chi nhánh của một ngân hàng bị hại không được nêu tên ở UAE đã nhận được một cuộc gọi điện thoại từ một giọng nói quen thuộc, cùng với các email từ một luật sư tên là Martin Zelner, đã thuyết phục nhà quản lý này giải ngân số tiền này, rõ ràng là để mua lại một công ty.

Yêu cầu này cho biết:

‘Theo cơ quan chức năng của UAE, vào ngày 15 tháng 1 năm 2020, nhà quản lý chi nhánh của Công ty Nạn nhân đã nhận được một cuộc gọi điện thoại tự xưng là từ trụ sở chính của công ty. Người gọi có giọng nói giống như Giám đốc của công ty, vì vậy nhà quản lý chi nhánh này tin rằng cuộc gọi là hợp pháp.

‘Nhà quản lý chi nhánh cũng nhận được một số email mà anh ta tin là từ Giám đốc liên quan đến cuộc gọi điện thoại. Người gọi đã nói với nhà quản lý chi nhánh qua điện thoại và email rằng Công ty Nạn nhân đang chuẩn bị mua lại một công ty khác và một luật sư tên là Martin Zelner (Zelner) đã được ủy quyền để phối hợp các thủ tục cho việc mua lại.’

Nhà quản lý chi nhánh sau đó nhận được các email từ Zelner, cùng với một bức thư ủy quyền từ (giám đốc giả mạo), người có giọng nói quen thuộc với nạn nhân.

Giọng Nói Deepfaked Được Xác Định

Các nhà điều tra UAE sau đó đã xác định rằng công nghệ bắt chước giọng nói deepfake đã được sử dụng để bắt chước giọng nói của giám đốc công ty:

‘Điều tra của UAE đã tiết lộ rằng các bị cáo đã sử dụng công nghệ “deep voice” để mô phỏng giọng nói của Giám đốc. Vào tháng 1 năm 2020, các quỹ đã được chuyển từ Công ty Nạn nhân sang nhiều tài khoản ngân hàng ở các quốc gia khác trong một kế hoạch phức tạp liên quan đến ít nhất 17 bị cáo được biết và không được biết. Cơ quan chức năng UAE đã theo dõi chuyển động của tiền qua nhiều tài khoản và xác định hai giao dịch đến Hoa Kỳ.

‘Vào ngày 22 tháng 1 năm 2020, hai khoản chuyển tiền trị giá 199.987,75 đô la Mỹ và 215.985,75 đô la Mỹ đã được gửi từ hai trong số các bị cáo đến số tài khoản ngân hàng Centennial xxxxx7682 và xxxxx7885, tương ứng, nằm ở Hoa Kỳ.’

Không có thông tin chi tiết nào khác về tội ác này, đây chỉ là trường hợp thứ hai được biết đến về gian lận tài chính dựa trên giọng nói deepfake. Trường hợp đầu tiên diễn ra chín tháng trước đó, vào tháng 3 năm 2020, khi một giám đốc điều hành của một công ty năng lượng ở Anh đã bị quấy rối qua điện thoại bởi một giọng nói giống như của sếp, yêu cầu chuyển ngay 220.000 euro (243.000 đô la Mỹ), mà nhân viên sau đó đã thực hiện.

Phát Triển Giọng Nói Deepfaked

Công nghệ bắt chước giọng nói deepfake liên quan đến việc đào tạo một mô hình học máy trên hàng trăm hoặc hàng nghìn mẫu của ‘giọng nói mục tiêu’ (giọng nói sẽ được bắt chước). Sự trùng khớp chính xác nhất có thể được thu được bằng cách đào tạo giọng nói mục tiêu trực tiếp chống lại giọng nói của người sẽ nói trong kịch bản đề xuất, mặc dù mô hình sẽ bị ‘quá vừa vặn’ với người sẽ giả mạo giọng nói mục tiêu.

Cộng đồng trực tuyến hợp pháp tích cực nhất cho các nhà phát triển giọng nói deepfaked là máy chủ Discord Audio Fakes, có các diễn đàn cho nhiều thuật toán bắt chước giọng nói deepfaked như Tacotron-2 của Google, Talknet, ForwardTacotron, Coqui-ai-TTSGlow-TTS, cùng với một số khác.

Deepfaked Thời Gian Thực

Kể từ khi một cuộc trò chuyện điện thoại nhất thiết phải là tương tác, gian lận giọng nói deepfaked không thể được thực hiện một cách hợp lý bằng cách sử dụng các đoạn âm thanh chất lượng cao được ‘nướng’ sẵn, và trong cả hai trường hợp của gian lận giọng nói deepfaked, chúng ta có thể giả định hợp lý rằng người nói đang sử dụng một khuôn khổ deepfaked thời gian thực.

Deepfaked thời gian thực đã trở thành焦 điểm gần đây do sự ra đời của DeepFaceLive, một triển khai thời gian thực của gói deepfaked phổ biến DeepFaceLab, có thể đặt các danh tính của người nổi tiếng hoặc khác lên các cảnh quay từ webcam trực tiếp. Mặc dù người dùng tại Audio Fakes Discord và DeepFaceLab Discord rất quan tâm đến việc kết hợp hai công nghệ này thành một kiến trúc deepfaked video + giọng nói trực tiếp, nhưng chưa có sản phẩm nào như vậy được công bố cho đến nay.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]