Cyberbezpieczeństwo

Kradzież modeli Machine Learning za pomocą danych wyjściowych API

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Nowe badania z Kanady oferują możliwą metodę, za pomocą której atakujący mogliby ukraść owoce drogich ram machine learning, nawet wtedy, gdy dostęp do systemu własnościowego jest możliwy tylko za pośrednictwem wysoko zsanitowanego i pozornie dobrze bronionego API (interfejsu lub protokołu, który przetwarza zapytania użytkownika po stronie serwera i zwraca tylko odpowiedź wyjściową).

Jako sektor badawczy coraz bardziej zwraca się ku komercjalizacji kosztownego szkolenia modeli za pomocą wdrożeń Machine Learning as a Service (MLaaS), nowa praca sugeruje, że modele Self-Supervised Learning (SSL) są bardziej narażone na ten rodzaj ekstrakcji modelu, ponieważ są szkolone bez etykiet użytkowników, co ułatwia ekstrakcję, a ich wyniki zawierają wiele przydatnych informacji dla osoby, która chce odtworzyć (ukryty) model źródłowy.

W symulacjach testowych “black box” (gdzie badacze nie mieli dostępu do lokalnego “ofiary” modelu, poza tym, co miałby typowy użytkownik końcowy za pośrednictwem API sieci web), badacze byli w stanie odtworzyć systemy docelowe przy użyciu relatywnie niskich zasobów:

‘[Nasze] ataki mogą ukraść kopię modelu ofiary, który osiąga znaczącą wydajność w mniejszej niż 1/5 liczbie zapytań użytych do szkolenia ofiary. Przeciwko modelowi ofiary, który został wyszkolony na 1,2 miliona nieoznaczonych próbek z ImageNet, z dokładnością 91,9% w zadaniu klasyfikacji Fashion-MNIST, nasz bezpośredni atak ekstrakcji z utratą InfoNCE ukradł kopię encodera, który osiąga 90,5% dokładności w 200 000 zapytań.

‘Podobnie, przeciwko modelowi ofiary, który został wyszkolony na 50 000 nieoznaczonych próbek z CIFAR10, z dokładnością 79,0% w zadaniu klasyfikacji CIFAR10, nasz bezpośredni atak ekstrakcji z utratą SoftNN ukradł kopię, która osiąga 76,9% dokładności w 9 000 zapytań.’

… (reszta treści) …