An ninh mạng

Trí tuệ nhân tạo giải thích được có thể tiết lộ dữ liệu bí mật dễ dàng hơn

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

Các nhà nghiên cứu từ Đại học Quốc gia Singapore đã kết luận rằng, trí tuệ nhân tạo càng trở nên giải thích được, thì càng dễ dàng để vượt qua các tính năng bảo mật quan trọng trong các hệ thống học máy. Họ cũng phát hiện ra rằng, ngay cả khi một mô hình không giải thích được, vẫn có thể sử dụng các giải thích của các mô hình tương tự để ‘giải mã’ dữ liệu nhạy cảm trong mô hình không giải thích được.

Các nghiên cứu, có tiêu đề Khai thác giải thích cho các cuộc tấn công đảo ngược mô hình, nhấn mạnh các rủi ro khi sử dụng sự ‘không rõ ràng’ của cách các mạng nơ-ron hoạt động như một tính năng bảo mật được thiết kế – không chỉ vì một làn sóng các sáng kiến toàn cầu mới, bao gồm cả đề xuất quy định AI của Liên minh Châu Âu, đang miêu tả trí tuệ nhân tạo giải thích được (XAI) như một điều kiện tiên quyết cho sự bình thường hóa cuối cùng của học máy trong xã hội.

Trong nghiên cứu, một danh tính thực tế đã được xây dựng lại từ dữ liệu匿名 liên quan đến biểu cảm khuôn mặt, thông qua việc khai thác nhiều giải thích của hệ thống học máy. Nguồn: https://arxiv.org/pdf/2108.10800.pdf

Các nhà nghiên cứu nhận xét:

‘Trí tuệ nhân tạo giải thích được (XAI) cung cấp thêm thông tin để giúp người dùng hiểu quyết định của mô hình, nhưng kiến thức bổ sung này lại暴 lộ thêm các rủi ro cho các cuộc tấn công bảo mật. Do đó, việc cung cấp giải thích có hại cho quyền riêng tư.’

Xác định lại dữ liệu riêng tư

Các tham gia trong các tập dữ liệu học máy có thể đã đồng ý được bao gồm trong giả định về tính ẩn danh; trong trường hợp Thông tin nhận dạng cá nhân (PII) kết thúc trong các hệ thống AI thông qua thu thập dữ liệu ad hoc (ví dụ, thông qua mạng xã hội), sự tham gia có thể là hợp pháp về mặt kỹ thuật, nhưng gây áp lực cho ý niệm về ‘sự đồng ý’.

Một số phương pháp đã xuất hiện trong những năm gần đây đã chứng minh được khả năng de-anonymizing PII từ các luồng dữ liệu học máy không rõ ràng. Khai thác mô hình sử dụng truy cập API (tức là ‘hộp đen’ truy cập, không có sẵn mã nguồn hoặc dữ liệu) để trích xuất PII thậm chí từ các nhà cung cấp dịch vụ học máy quy mô lớn, bao gồm Amazon Web Services, trong khi các cuộc tấn công suy luận thành viên (MIAs), hoạt động dưới các ràng buộc tương tự, có thể nhận được thông tin y tế bí mật; ngoài ra, các cuộc tấn công suy luận thuộc tính (AIAs) có thể phục hồi dữ liệu nhạy cảm từ đầu ra API.

Phát hiện khuôn mặt

Đối với bài báo mới, các nhà nghiên cứu đã tập trung vào một cuộc tấn công đảo ngược mô hình được thiết kế để thu được một danh tính từ một tập hợp con của dữ liệu cảm xúc khuôn mặt mà không nên có khả năng tiết lộ thông tin này.

Mục tiêu của hệ thống là liên kết các hình ảnh tìm thấy trong tự nhiên (hoặc được đăng tải một cách bất cẩn trên internet hoặc trong một sự cố bảo mật tiềm năng) với việc bao gồm chúng trong các tập dữ liệu dướipin một thuật toán học máy.

Các nhà nghiên cứu đã đào tạo một mô hình tấn công đảo ngược có khả năng xây dựng lại hình ảnh đóng góp từ đầu ra API ẩn danh, mà không cần truy cập đặc biệt vào kiến trúc gốc. Các công việc trước đây trong lĩnh vực này đã tập trung vào các hệ thống trong đó việc xác định (bảo vệ hoặc tiết lộ) là mục tiêu của cả hệ thống mục tiêu và hệ thống tấn công; trong trường hợp này, khuôn khổ đã được thiết kế để khai thác đầu ra của một lĩnh vực và áp dụng nó cho một lĩnh vực khác.

Một mạng nơ-ron tích chập đảo ngược (CNN) đã được sử dụng để dự đoán một ‘hình ảnh nguồn gốc’ dựa trên vectơ dự đoán mục tiêu (bản đồ saliency) cho một hệ thống nhận dạng cảm xúc, sử dụng một kiến trúc U-Net để cải thiện hiệu suất xây dựng lại khuôn mặt.

Hệ thống xác định lại được cung cấp và thông tin bởi trí tuệ nhân tạo giải thích được (XAI), nơi kiến thức về hoạt động nơ-ron, trong số nhiều khía cạnh XAI công khai khác, được khai thác để xây dựng lại các cơ chế nội bộ của kiến trúc chỉ từ đầu ra của nó, cho phép xác định lại hình ảnh trong tập dữ liệu.

Thử nghiệm

Trong thử nghiệm hệ thống, các nhà nghiên cứu đã áp dụng nó chống lại ba tập dữ liệu: iCV-MEFED biểu cảm khuôn mặt; CelebA; và MNIST chữ viết tay. Để phù hợp với kích thước mô hình được sử dụng bởi các nhà nghiên cứu, ba tập dữ liệu đã được thay đổi kích thước tương ứng thành 128×128, 265×256 và 32×32 pixel. 50% của mỗi tập được sử dụng làm dữ liệu đào tạo, và nửa còn lại được sử dụng làm tập dữ liệu tấn công để đào tạo các mô hình đối thủ.

Mỗi tập dữ liệu có các mô hình mục tiêu khác nhau, và mỗi mạng tấn công được điều chỉnh để phù hợp với các hạn chế của các giải thích dướipin quá trình, chứ không phải sử dụng các mô hình nơ-ron sâu hơn mà sự phức tạp sẽ vượt quá sự khái quát hóa của các giải thích.

Các loại giải thích XAI được sử dụng để cung cấp năng lượng cho các nỗ lực bao gồm Giải thích Gradient, Đầu vào Gradient, Grad-CAM và Truyền bá liên quan lớp (LRP). Các nhà nghiên cứu cũng đã đánh giá nhiều giải thích trên các thí nghiệm.

Xây dựng lại hình ảnh được tạo điều kiện bởi một cuộc tấn công đảo ngược nhận thức XAI trên ba tập dữ liệu, với các nhiệm vụ mục tiêu và tấn công giống hệt.

Các chỉ số đo lường cho thử nghiệm là độ tương đồng pixelwise được đánh giá bởi Sai số trung bình bình phương (MSE); Tương đồng hình ảnh (SSIM), một chỉ số tương đồng dựa trên nhận thức; độ chính xác của cuộc tấn công, được xác định bởi liệu một phân loại器 có thể dán nhãn lại một hình ảnh được xây dựng lại thành công; và độ tương đồng nhúng tấn công, so sánh các nhúng tính năng của dữ liệu nguồn đã biết với dữ liệu được xây dựng lại.

Xác định lại được thực hiện, với các mức độ khác nhau tùy theo nhiệm vụ và tập dữ liệu, trên tất cả các tập. Hơn nữa, các nhà nghiên cứu đã tìm thấy rằng bằng cách tạo ra một mô hình mục tiêu thay thế (mà họ tự nhiên có quyền kiểm soát hoàn toàn), vẫn có thể đạt được xác định lại dữ liệu từ các mô hình ‘đóng’ bên ngoài, dựa trên các nguyên tắc XAI đã biết.

Các nhà nghiên cứu đã tìm thấy rằng các kết quả chính xác nhất được thu được bởi các giải thích dựa trên hoạt động (bản đồ saliency), mà rò rỉ nhiều PII hơn so với các phương pháp dựa trên độ nhạy (gradient).

Trong công việc tương lai, nhóm dự định sẽ kết hợp các loại giải thích XAI khác nhau vào các cuộc tấn công mới, chẳng hạn như hình ảnh hóa tính năng và vectơ kích hoạt khái niệm.

Related Topics:explainability Explainable AI explainable neural networks model inversion research

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]