An ninh mạng
Ăn cắp mô hình học máy thông qua đầu ra API

Nghiên cứu mới từ Canada cung cấp một phương pháp có thể cho phép các kẻ tấn công ăn cắp thành quả của các khuôn khổ học máy tốn kém, ngay cả khi chỉ có quyền truy cập vào một hệ thống độc quyền thông qua một API được vệ sinh cao và dường như được bảo vệ tốt (một giao diện hoặc giao thức xử lý các truy vấn của người dùng trên máy chủ và chỉ trả về phản hồi đầu ra).
Khi lĩnh vực nghiên cứu ngày càng hướng tới việc kiếm tiền từ việc đào tạo mô hình tốn kém thông qua các triển khai Học máy như một Dịch vụ (MLaaS), công việc mới này gợi ý rằng các mô hình Học tự giám sát (SSL) dễ bị tổn thương hơn trước loại tấn công trích xuất mô hình này, vì chúng được đào tạo mà không có nhãn, làm cho việc trích xuất trở nên đơn giản hơn, và thường cung cấp kết quả chứa nhiều thông tin hữu ích cho người muốn sao chép mô hình nguồn (được ẩn).
Trong các mô phỏng thử nghiệm “hộp đen” (trong đó các nhà nghiên cứu chỉ cho phép mình truy cập vào mô hình “nạn nhân” cục bộ như một người dùng cuối thông thường sẽ có thông qua một API web), các nhà nghiên cứu đã có thể sao chép các hệ thống mục tiêu với tài nguyên tương đối thấp:
‘Các cuộc tấn công của chúng tôi có thể đánh cắp một bản sao của mô hình nạn nhân đạt được hiệu suất đáng kể trong ít hơn 1/5 số truy vấn được sử dụng để đào tạo mô hình nạn nhân. Đối với một mô hình nạn nhân được đào tạo trên 1,2 triệu mẫu không có nhãn từ ImageNet, với độ chính xác 91,9% trong nhiệm vụ phân loại Fashion-MNIST, cuộc tấn công trích xuất trực tiếp của chúng tôi với mất mát InfoNCE đã đánh cắp một bản sao của bộ mã hóa đạt được độ chính xác 90,5% trong 200.000 truy vấn.
‘Tương tự, đối với một nạn nhân được đào tạo trên 50.000 mẫu không có nhãn từ CIFAR10, với độ chính xác 79,0% trong nhiệm vụ phân loại CIFAR10, cuộc tấn công trích xuất trực tiếp của chúng tôi với mất mát SoftNN đã đánh cắp một bản sao đạt được độ chính xác 76,9% trong 9.000 truy vấn.’

Các nhà nghiên cứu sử dụng ba phương pháp tấn công, phát hiện ra rằng ‘Trích xuất Trực tiếp’ là phương pháp hiệu quả nhất. Các mô hình này được đánh cắp từ một mô hình mã hóa nạn nhân CIFAR10 được tạo lại cục bộ sử dụng 9.000 truy vấn từ tập kiểm tra CIFAR10. Nguồn: https://arxiv.org/pdf/2205.07890.pdf
Các nhà nghiên cứu cũng lưu ý rằng các phương pháp phù hợp để bảo vệ các mô hình được đào tạo có giám sát khỏi các cuộc tấn công không thích nghi tốt với các mô hình được đào tạo trên cơ sở không giám sát – mặc dù các mô hình như vậy đại diện cho một số thành quả được mong đợi và chào đón nhất của lĩnh vực tổng hợp hình ảnh.
Bài báo mới này có tiêu đề Về sự khó khăn của việc bảo vệ Học tự giám sát khỏi việc trích xuất mô hình, và đến từ Đại học Toronto và Viện Trí tuệ Nhân tạo Vector.
Ý thức tự giám sát
Trong Học tự giám sát, một mô hình được đào tạo trên dữ liệu không có nhãn. Không có nhãn, một mô hình SSL phải học các mối liên hệ và nhóm từ cấu trúc ngầm của dữ liệu, tìm kiếm các khía cạnh tương tự của dữ liệu và dần dần thu thập các khía cạnh này vào các nút, hoặc biểu diễn.
Khi một cách tiếp cận SSL là khả thi, nó vô cùng năng suất, vì nó bỏ qua nhu cầu về việc phân loại tốn kém (thường được thực hiện bởi các công nhân đông đảo và độc hại) và cơ bản là hợp lý hóa dữ liệu một cách tự động.
Ba cách tiếp cận SSL được các tác giả của bài báo mới xem xét là SimCLR, một Mạng Siamese; SimSiam, một Mạng Siamese khác tập trung vào việc học biểu diễn; và Barlow Twins, một cách tiếp cận SSL đạt được hiệu suất phân loại ImageNet tốt nhất vào năm 2021.
Việc trích xuất mô hình cho dữ liệu có nhãn (tức là một mô hình được đào tạo thông qua học có giám sát) là một lĩnh vực nghiên cứu tương đối được ghi chép rõ ràng. Nó cũng dễ bảo vệ hơn, vì kẻ tấn công phải thu được nhãn từ mô hình nạn nhân để tái tạo nó.

Từ một bài báo trước, một mô hình tấn công ‘phân loại giả’ đối với một kiến trúc học có giám sát. Nguồn: https://arxiv.org/pdf/1812.02766.pdf
Không có quyền truy cập hộp trắng, đây không phải là một nhiệm vụ tầm thường, vì đầu ra điển hình từ một yêu cầu API đến một mô hình như vậy chứa ít thông tin hơn so với một API SSL điển hình.
Từ bài báo*:
‘Công việc trước đây về việc trích xuất mô hình tập trung vào thiết lập Học có giám sát (SL), nơi mô hình nạn nhân thường trả về một nhãn hoặc các đầu ra thấp chiều khác như độ tin cậy hoặc logits.
‘Ngược lại, các bộ mã hóa SSL trả về các biểu diễn cao chiều; đầu ra de facto cho một mô hình Sim-CLR ResNet-50, một kiến trúc phổ biến trong tầm nhìn, là một vector 2048 chiều.
‘Chúng tôi đưa ra giả thuyết rằng sự rò rỉ thông tin cao hơn đáng kể từ các bộ mã hóa này làm cho chúng dễ bị tổn thương hơn trước các cuộc tấn công trích xuất so với các mô hình SL.’
Kiến trúc và Dữ liệu
Các nhà nghiên cứu đã thử nghiệm ba cách tiếp cận để suy luận/trích xuất mô hình SSL: Trích xuất Trực tiếp, trong đó đầu ra API được so sánh với đầu ra của một bộ mã hóa được tạo lại thông qua một hàm mất mát phù hợp như Mean Squared Error (MSE); tái tạo đầu dự án, nơi một chức năng phân tích quan trọng của mô hình, thường bị loại bỏ trước khi triển khai, được tái tạo và sử dụng trong một mô hình sao chép; và truy cập đầu dự án, chỉ có thể thực hiện được trong các trường hợp mà các nhà phát triển ban đầu đã làm cho kiến trúc có sẵn.

Trong phương pháp #1, Trích xuất Trực tiếp, đầu ra của mô hình nạn nhân được so sánh với đầu ra của một mô hình cục bộ; phương pháp #2 liên quan đến việc tái tạo đầu dự án được sử dụng trong kiến trúc đào tạo ban đầu (và thường không được bao gồm trong một mô hình được triển khai).
Các nhà nghiên cứu phát hiện ra rằng Trích xuất Trực tiếp là phương pháp hiệu quả nhất để có được một bản sao chức năng của mô hình mục tiêu, và có lợi thế là khó được coi là một ‘cuộc tấn công’ (vì nó cơ bản hành động không khác gì so với một người dùng cuối hợp lệ).
Các tác giả đã đào tạo các mô hình nạn nhân trên ba tập dữ liệu hình ảnh: CIFAR10, ImageNet, và Số nhà Đường phố Stanford (SVHN). ImageNet được đào tạo trên ResNet50, trong khi CIFAR10 và SVHN được đào tạo trên ResNet18 và ResNet24 trên một triển khai PyTorch có sẵn của SimCLR.
Hiệu suất của mô hình khi triển khai (tức là được triển khai) được kiểm tra chống lại CIFAR100, STL10, SVHN, và Fashion-MNIST. Các nhà nghiên cứu cũng thực hiện các phương pháp ‘hộp trắng’ hơn để chiếm mô hình, mặc dù nó đã trở nên rõ ràng rằng Trích xuất Trực tiếp, cách tiếp cận được đặc quyền ít nhất, đã mang lại kết quả tốt nhất.
Để đánh giá các biểu diễn được suy luận và sao chép trong các cuộc tấn công, các tác giả đã thêm một lớp dự đoán tuyến tính vào mô hình, được tinh chỉnh trên toàn bộ tập dữ liệu huấn luyện có nhãn từ nhiệm vụ (triển khai) tiếp theo, với phần còn lại của mạng lưới bị đóng băng. Theo cách này, độ chính xác của thử nghiệm trên lớp dự đoán có thể hoạt động như một chỉ số hiệu suất. Vì nó không đóng góp gì vào quá trình suy luận, điều này không đại diện cho chức năng ‘hộp trắng’.

Kết quả trên các lần chạy thử, được thực hiện có thể thông qua Lớp Đánh giá tuyến tính. Các điểm số chính xác trong chữ đậm.
Nhận xét về kết quả, các nhà nghiên cứu tuyên bố:
‘Chúng tôi phát hiện ra rằng mục tiêu trực tiếp của việc bắt chước các biểu diễn của nạn nhân mang lại hiệu suất cao trên các nhiệm vụ triển khai mặc dù cuộc tấn công chỉ yêu cầu một phần nhỏ (dưới 15% trong một số trường hợp) số lượng truy vấn cần thiết để đào tạo bộ mã hóa bị đánh cắp từ đầu.’
Và tiếp tục:
‘[Nó] là một thách thức để bảo vệ các bộ mã hóa được đào tạo với SSL vì đầu ra của biểu diễn rò rỉ một lượng thông tin đáng kể. Các phương pháp phòng thủ hứa hẹn nhất là các phương pháp phản ứng, chẳng hạn như đánh dấu nước, có thể nhúng các tăng cường cụ thể trong các bộ mã hóa có dung lượng cao.’
* Sự chuyển đổi của tôi các chú thích trong bài báo thành siêu liên kết.
Được xuất bản lần đầu vào ngày 18 tháng 5 năm 2022.












