Trí tuệ nhân tạo

Deepfakes có thể đánh lừa hiệu quả nhiều API 'Sức sống' trên khuôn mặt

cập nhật on 9 Tháng mười hai, 2022

Từ 'DeepFace Live - Arnold Schwarzenegger 224 3.03 triệu lần lặp lại | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Một sự hợp tác nghiên cứu mới giữa Mỹ và Trung Quốc đã thăm dò tính nhạy cảm đối với deepfake của một số hệ thống xác thực dựa trên khuôn mặt lớn nhất trên thế giới và nhận thấy rằng hầu hết chúng đều dễ bị tổn thương trước các hình thức tấn công deepfake đang phát triển và mới nổi.

Nghiên cứu đã tiến hành các cuộc xâm nhập dựa trên deepfake bằng cách sử dụng khung tùy chỉnh được triển khai dựa trên các hệ thống Xác minh độ sống trên khuôn mặt (FLV) thường được cung cấp bởi các nhà cung cấp lớn và được bán dưới dạng dịch vụ cho các khách hàng hạ nguồn như hãng hàng không và công ty bảo hiểm.

Từ bài báo, tổng quan về hoạt động của API Xác minh độ sống trên khuôn mặt (FLV) giữa các nhà cung cấp chính. Nguồn: https://arxiv.org/pdf/2202.10673.pdf

Sự sống động trên khuôn mặt nhằm mục đích đẩy lùi việc sử dụng các kỹ thuật như tấn công hình ảnh đối thủ, Việc sử dụng mặt nạ và video được quay trước, cái gọi là 'gương mặt đại gia'và các hình thức khác của nhân bản ID trực quan.

Nghiên cứu kết luận rằng số lượng hạn chế các mô-đun phát hiện deepfake được triển khai trong các hệ thống này, nhiều mô-đun phục vụ hàng triệu khách hàng, không phải là không thể sai sót và có thể đã được định cấu hình trên các kỹ thuật deepfake hiện đã lỗi thời hoặc có thể quá đặc thù về kiến trúc .

Các tác giả lưu ý:

'Các phương pháp deepfake [Khác nhau] cũng hiển thị các biến thể giữa các nhà cung cấp khác nhau…Không có quyền truy cập vào các chi tiết kỹ thuật của các nhà cung cấp FLV mục tiêu, chúng tôi suy đoán rằng các biến thể đó là do các biện pháp phòng thủ được triển khai bởi các nhà cung cấp khác nhau. Chẳng hạn, một số nhà cung cấp nhất định có thể triển khai các biện pháp phòng thủ chống lại các cuộc tấn công deepfake cụ thể.'

Và tiếp tục:

'[Hầu hết] API FLV không sử dụng tính năng phát hiện chống deepfake; ngay cả đối với những người có khả năng phòng thủ như vậy, hiệu quả của chúng cũng đáng lo ngại (ví dụ: nó có thể phát hiện các video tổng hợp chất lượng cao nhưng không phát hiện được các video chất lượng thấp).'

Về vấn đề này, các nhà nghiên cứu quan sát thấy rằng 'tính xác thực' là tương đối:

'[Thậm chí] nếu một video được tổng hợp là không có thật đối với con người, nó vẫn có thể vượt qua cơ chế phát hiện chống deepfake hiện tại với tỷ lệ thành công rất cao.'

Ở trên, các hình ảnh deepfake mẫu có thể xác thực trong các thử nghiệm của tác giả. Dưới đây, rõ ràng là những hình ảnh giả mạo thực tế hơn nhiều mà xác thực không thành công.

Một phát hiện khác là cấu hình hiện tại của các hệ thống xác minh khuôn mặt chung đang thiên về nam giới da trắng. Sau đó, danh tính nữ và không phải người da trắng được phát hiện là hiệu quả hơn trong việc vượt qua các hệ thống xác minh, khiến khách hàng thuộc các danh mục đó có nguy cơ vi phạm cao hơn thông qua các kỹ thuật dựa trên deepfake.

Báo cáo cho thấy rằng danh tính nam giới da trắng được đánh giá chính xác và nghiêm ngặt nhất bởi các API xác minh độ sống động trên khuôn mặt phổ biến. Trong bảng trên, chúng tôi thấy danh tính nữ và không phải da trắng có thể dễ dàng sử dụng hơn để qua mặt hệ thống.

Bài báo nhận xét rằng 'có những sai lệch trong [Xác minh độ sống của khuôn mặt], điều này có thể mang lại rủi ro bảo mật đáng kể cho một nhóm người cụ thể.'

Các tác giả cũng đã tiến hành các cuộc tấn công xác thực khuôn mặt có đạo đức chống lại chính phủ Trung Quốc, một hãng hàng không lớn của Trung Quốc, một trong những công ty bảo hiểm nhân thọ lớn nhất ở Trung Quốc và R360, một trong những nhóm đầu tư kỳ lân lớn nhất trên thế giới và báo cáo thành công trong việc bỏ qua việc sử dụng các API được nghiên cứu ở hạ nguồn của các tổ chức này.

Trong trường hợp bỏ qua xác thực thành công cho hãng hàng không Trung Quốc, API xuôi dòng yêu cầu người dùng 'lắc đầu' như một bằng chứng chống lại tài liệu deepfake tiềm năng, nhưng điều này đã được chứng minh là không hoạt động với khuôn khổ do các nhà nghiên cứu nghĩ ra, kết hợp sáu kiến trúc deepfake.

Bất chấp đánh giá của hãng hàng không về cái lắc đầu của người dùng, nội dung deepfake vẫn có thể vượt qua bài kiểm tra.

Bài báo lưu ý rằng các tác giả đã liên hệ với các nhà cung cấp có liên quan, những người đã thừa nhận công việc.

Các tác giả đưa ra một loạt các đề xuất để cải thiện trạng thái hiện tại của FLV, bao gồm việc từ bỏ xác thực một hình ảnh ('FLV dựa trên hình ảnh'), trong đó xác thực dựa trên một khung hình duy nhất từ nguồn cấp dữ liệu máy ảnh của khách hàng; cập nhật linh hoạt và toàn diện hơn cho các hệ thống phát hiện deepfake trên các miền hình ảnh và giọng nói; đặt ra yêu cầu rằng xác thực dựa trên giọng nói trong video của người dùng phải được đồng bộ hóa với chuyển động của môi (nói chung là hiện tại không có); và yêu cầu người dùng thực hiện các cử chỉ và chuyển động mà các hệ thống deepfake hiện khó tái tạo (ví dụ: số lượt xem hồ sơ và che khuất một phần khuôn mặt).

Sản phẩm giấy có tiêu đề Thấy là Sống? Suy nghĩ lại về tính bảo mật của xác minh độ sống của khuôn mặt trong kỷ nguyên Deepfake, và đến từ các tác giả chính Changjiang Li và Li Wang, và năm tác giả khác từ Đại học Bang Pennsylvania, Đại học Chiết Giang và Đại học Sơn Đông.

Mục tiêu cốt lõi

Các nhà nghiên cứu đã nhắm mục tiêu 'sáu nhà cung cấp Xác minh độ sống trên khuôn mặt (FLV) tiêu biểu nhất', đã được ẩn danh bằng các mật mã trong nghiên cứu.

Các nhà cung cấp được đại diện như vậy: 'BD' và 'TC' đại diện cho nhà cung cấp tập đoàn có số lượng lệnh gọi API liên quan đến khuôn mặt lớn nhất và chiếm thị phần lớn nhất trong các dịch vụ đám mây AI của Trung Quốc; 'CTNH' là 'một trong những nhà cung cấp có thị trường đám mây công cộng [Trung Quốc] lớn nhất'; 'CW' có tốc độ tăng trưởng nhanh nhất trong lĩnh vực thị giác máy tính và đang đạt được vị trí dẫn đầu thị trường'; 'ST' là một trong những nhà cung cấp thị giác máy tính lớn nhất; Và 'iFT' trong số các nhà cung cấp phần mềm AI lớn nhất ở Trung Quốc.

Dữ liệu và Kiến trúc

Dữ liệu cơ bản cung cấp năng lượng cho dự án bao gồm một bộ dữ liệu gồm 625,537 hình ảnh từ sáng kiến của Trung Quốc CelebA-Spoof, cùng các video trực tiếp từ Michigan State University 2019 SiW-M tập dữ liệu.

Tất cả các thử nghiệm đều được tiến hành trên một máy chủ có hai CPU Intel Xeon E2.40-5 v2640 tốc độ 4 GHz chạy trên RAM 256 GB với ổ cứng 4TB và bốn GPU NVIDIA 1080Ti được phối hợp, với tổng số 44GB VRAM đang hoạt động.

Sáu trong một

Khung do các tác giả của bài báo nghĩ ra được gọi là SốngBuggervà kết hợp sáu khung deepfake tiên tiến có phạm vi chống lại bốn hệ thống phòng thủ chính trong các hệ thống FLV.

LiveBugger chứa các cách tiếp cận deepfake đa dạng và tập trung vào bốn vectơ tấn công chính trong các hệ thống FLV.

Sáu khuôn khổ deepfake được sử dụng là: Đại học Oxford 2018 X2Face; hợp tác học thuật Hoa Kỳ iface; hai biến thể của dự án Israel 2019 FSGAN; Người Ý Mô hình phương pháp đặt hàng đầu tiên (FOMM), từ đầu năm 2020; và sự hợp tác Nghiên cứu Microsoft của Đại học Bắc Kinh FaceShifter (mặc dù FaceShifter không phải là mã nguồn mở nên các tác giả phải xây dựng lại nó dựa trên các chi tiết kiến trúc đã xuất bản).

Các phương pháp được sử dụng trong số các khung này bao gồm việc sử dụng video kết xuất trước, trong đó các đối tượng của video giả mạo thực hiện các hành động thuộc lòng đã được trích xuất từ các yêu cầu xác thực API trong mô-đun đánh giá trước đó của LiveBugger và cả việc sử dụng 'múa rối deepfake' hiệu quả. ', chuyển các chuyển động trực tiếp của một cá nhân thành luồng giả mạo sâu đã được đưa vào luồng webcam đồng chọn.

Một ví dụ về cái sau là DeepFaceSống, Mà ra mắt vào mùa hè năm ngoái như một chương trình phụ trợ cho phổ biến DeepFaceLab, để cho phép phát trực tuyến deepfake theo thời gian thực, nhưng tính năng này không có trong nghiên cứu của tác giả.

Tấn công bốn vectơ

Bốn vectơ tấn công trong một hệ thống FLV điển hình là: FLV dựa trên hình ảnh, sử dụng một ảnh do người dùng cung cấp làm mã thông báo xác thực đối với ID khuôn mặt được lưu trong hệ thống; FLV dựa trên sự im lặng, yêu cầu người dùng tải lên một video clip của chính họ; FLV dựa trên hành động, yêu cầu người dùng thực hiện các hành động do nền tảng quy định; Và FLV dựa trên giọng nói, so khớp lời nói được nhắc của người dùng với mục nhập cơ sở dữ liệu của hệ thống cho mẫu giọng nói của người dùng đó.

Thách thức đầu tiên đối với hệ thống là thiết lập mức độ mà API sẽ tiết lộ các yêu cầu của nó, vì sau đó chúng có thể được dự đoán và đáp ứng trong quy trình giả mạo sâu. Điều này được xử lý bởi Công cụ thông minh trong LiveBugger, thu thập thông tin về các yêu cầu từ tài liệu API có sẵn công khai và các nguồn khác.

Vì các yêu cầu đã công bố có thể không có (vì nhiều lý do) trong các quy trình thực tế của API, nên Công cụ thông minh kết hợp một đầu dò thu thập thông tin ngầm định dựa trên kết quả của các lệnh gọi API thăm dò. Trong dự án nghiên cứu, điều này được hỗ trợ bởi các API 'thử nghiệm' ngoại tuyến chính thức được cung cấp vì lợi ích của nhà phát triển và cả những tình nguyện viên đề nghị sử dụng tài khoản trực tiếp của chính họ để thử nghiệm.

Công cụ Tình báo tìm kiếm bằng chứng về việc liệu API hiện có đang sử dụng một phương pháp cụ thể có thể hữu ích trong các cuộc tấn công hay không. Các tính năng của loại này có thể bao gồm phát hiện sự kết hợp, kiểm tra xem các khung trong video có liên tục theo thời gian hay không – một yêu cầu có thể được thiết lập bằng cách gửi các khung video bị xáo trộn và quan sát xem điều này có góp phần gây ra lỗi xác thực hay không.

Mô-đun này cũng tìm kiếm Phát hiện ngôn ngữ môi, nơi API có thể kiểm tra xem âm thanh trong video có phải là được đồng bộ hóa với chuyển động môi của người dùng (hiếm khi xảy ra – xem 'Kết quả' bên dưới).

Kết quả

Các tác giả nhận thấy rằng tất cả sáu API được đánh giá đều không sử dụng tính năng phát hiện sự nhất quán tại thời điểm thử nghiệm, cho phép công cụ deepfaker trong LiveBugger chỉ cần ghép âm thanh tổng hợp với video deepfake lại với nhau, dựa trên tài liệu do các tình nguyện viên đóng góp.

Tuy nhiên, một số ứng dụng hạ nguồn (tức là khách hàng của khung API) đã được phát hiện đã thêm tính năng phát hiện sự nhất quán vào quy trình, yêu cầu phải ghi trước video được điều chỉnh để phá vỡ điều này.

Ngoài ra, chỉ một số nhà cung cấp API sử dụng tính năng phát hiện ngôn ngữ môi; đối với hầu hết chúng, video và âm thanh được phân tích dưới dạng số lượng riêng biệt và không có chức năng nào cố gắng khớp chuyển động của môi với âm thanh được cung cấp.

Các kết quả đa dạng mở rộng phạm vi các kỹ thuật giả mạo có sẵn trong LiveBugger chống lại mảng vectơ tấn công khác nhau trong các API FLV. Con số cao hơn cho thấy tỷ lệ thành công cao hơn trong việc thâm nhập FLV bằng kỹ thuật deepfake. Không phải tất cả các API đều bao gồm tất cả các biện pháp bảo vệ có thể có đối với FLV; chẳng hạn, một số không đưa ra bất kỳ biện pháp bảo vệ nào chống lại deepfakes, trong khi những người khác không kiểm tra xem chuyển động của môi và âm thanh có khớp với video do người dùng gửi trong quá trình xác thực hay không.

Kết luận

Các kết quả và chỉ dẫn của bài báo về tương lai của các API FLV là mê cung và các tác giả đã kết hợp chúng thành một 'kiến trúc về các lỗ hổng' chức năng có thể giúp các nhà phát triển FLV hiểu rõ hơn về một số vấn đề đã được khám phá.”

Mạng lưới các khuyến nghị của bài báo liên quan đến tính nhạy cảm hiện có và tiềm ẩn của các quy trình nhận dạng video dựa trên khuôn mặt đối với cuộc tấn công deepfake.

Các khuyến nghị lưu ý:

'Rủi ro bảo mật của FLV tồn tại rộng rãi trong nhiều ứng dụng trong thế giới thực và do đó đe dọa đến bảo mật của hàng triệu người dùng cuối'

Các tác giả cũng nhận thấy rằng việc sử dụng FLV dựa trên hành động là 'không đáng kể' và việc tăng số lượng hành động mà người dùng được yêu cầu thực hiện 'không thể mang lại bất kỳ lợi ích bảo mật nào'.

Hơn nữa, các tác giả lưu ý rằng việc kết hợp nhận dạng giọng nói và nhận dạng khuôn mặt tạm thời (trong video) là một biện pháp bảo vệ vô ích trừ khi các nhà cung cấp API bắt đầu yêu cầu chuyển động môi được đồng bộ hóa với âm thanh.

Bài báo xuất hiện dưới ánh sáng của một vấn đề gần đây FBI cảnh báo doanh nghiệp về sự nguy hiểm của gian lận deepfake, gần một năm sau khi họ công bố công nghệ sử dụng trong các hoạt động ảnh hưởng nước ngoài, Và nỗi sợ chung rằng công nghệ deepfake trực tiếp sẽ tạo điều kiện cho một làn sóng tội phạm mới đối với công chúng vẫn tin tưởng vào các kiến trúc bảo mật xác thực video.

Đây vẫn là những ngày đầu của deepfake như một bề mặt tấn công xác thực; vào năm 2020, $35 triệu đô la đã được trích xuất gian lận từ một ngân hàng ở UAE bằng cách sử dụng công nghệ âm thanh deepfake và một giám đốc điều hành ở Vương quốc Anh cũng bị lừa giải ngân 243,000 đô la trong 2019.

Xuất bản lần đầu vào ngày 23 tháng 2022 năm XNUMX.

Thể hiện cảm xúc qua kiểu chữ với AI

Đừng bỏ lỡ

Thành phần máy tính bắt chước khớp thần kinh não người

Martin Anderson

Người viết về học máy, trí tuệ nhân tạo và dữ liệu lớn.
Trang cá nhân: martinanderson.ai
Liên Hệ: [email được bảo vệ]
Twitter: @manders_ai

đoàn kết.AI

Deepfakes có thể đánh lừa hiệu quả nhiều API 'Sức sống' trên khuôn mặt

Trí tuệ nhân tạo