Cybersikkerhed

Tyveri af Machine Learning-modeller gennem API-udgang

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Ny forskning fra Canada tilbyder en mulig metode, hvormed angribere kunne stjæle frugterne af dyre machine learning-rammer, selv når den eneste adgang til et proprietært system er via en højt sanitær og åbenbart godt forsvarligt API (et interface eller protokol, der behandler brugerforespørgsler server-side, og returnerer kun output-svaret).

Da forskningssektoren ser mere og mere mod at moneterisere dyre modeltræning gennem Machine Learning som en Service (MLaaS)-implementeringer, antyder den nye forskning, at Self-Supervised Learning (SSL)-modeller er mere sårbare over for denne type model-ekstraktion, fordi de trænes uden brugeretiketter, hvilket forenkler extraction, og typisk returnerer resultater, der indeholder en stor mængde nyttig information for nogen, der ønsker at replikere den (skjulte) kilde-model.

I ‘black box’-test-simulationer (hvor forskerne gav sig selv ingen mere adgang til en lokal ‘offer’-model end en typisk slutbruger ville have via et web-API), kunne forskerne replikere målsystemerne med relativt lave ressourcer:

‘[Vores] angreb kan stjæle en kopi af offer-modellen, der opnår betydelig downstream-præstation i færre end 1/5 af forespørgslene, der blev brugt til at træne offeret. Mod en offer-model, der er trænet på 1,2M ikke-mærkede eksempler fra ImageNet, med en 91,9% nøjagtighed på downstream Fashion-MNIST-klassificeringsopgaven, stjal vores direkte ekstraktionsangreb med InfoNCE-taben en kopi af encoderen, der opnår 90,5% nøjagtighed i 200K forespørgsler.

‘Lignende, mod en offer, der er trænet på 50K ikke-mærkede eksempler fra CIFAR10, med en 79,0% nøjagtighed på downstream CIFAR10-klassificeringsopgaven, stjal vores direkte ekstraktionsangreb med SoftNN-taben en kopi, der opnår 76,9% nøjagtighed i 9.000 forespørgsler.’

Forskerne brugte tre angrebsmetoder og fandt, at ‘Direkte Ekstraktion’ var den mest effektive. Disse modeller blev stjålet fra en lokal genskabt CIFAR10-offer-encoder ved hjælp af 9.000 forespørgsler fra CIFAR10-test-sættet. Source: https://arxiv.org/pdf/2205.07890.pdf

Forskerne bemærker også, at metoder, der er egnede til at beskytte supervised-modeller mod angreb, ikke tilpasser sig godt til modeller, der er trænet på en usuperviseret basis – selv om sådanne modeller repræsenterer nogle af de mest forventede og fejrede frugter af billedsyn-sektoren.

Den nye artikel er titlen Om sværheden ved at forsvare Self-Supervised Learning mod Model-Ekstraktion, og kommer fra University of Toronto og Vector Institute for Artificial Intelligence.

Selvbevidsthed

I Self-Supervised Learning trænes en model på ikke-mærket data. Uden mærker må en SSL-model lære associationer og grupper fra den implicite struktur af data, søger lignende aspekter af data og samler disse aspekter gradvist i noder eller repræsentationer.

Hvor en SSL-tilgang er gennemførlig, er det utroligt produktivt, da det omgår behovet for dyre (ofte outsourcede og omstridte) kategorisering af crowdworkers, og essentielt rationaliserer data autonomt.

De tre SSL-tilgange, der er overvejet af artiklens forfattere, er SimCLR, en Siamese Network; SimSiam, en anden Siamese Network centreret på repræsentationslæring; og Barlow Twins, en SSL-tilgang, der opnåede state-of-the-art ImageNet-klassificatorpræstation på dens udgivelse i 2021.

Model-ekstraktion for mærket data (dvs. en model trænet gennem supervised learning) er et relativt veldokumenteret forskningsområde. Det er også lettere at forsvare mod, da angriberen må opnå mærkerne fra offer-modellen for at genskabe den.

En 'knockoff-klassificator'-angrebsmodel mod en supervised learning-arkitektur. Source: https://arxiv.org/pdf/1812.02766.pdf

Fra en tidligere artikel, en ‘knockoff-klassificator’-angrebsmodel mod en supervised learning-arkitektur. Source: https://arxiv.org/pdf/1812.02766.pdf

Uden white-box-adgang er dette ikke en trivial opgave, da den typiske output fra en API-forespørgsel til en sådan model indeholder mindre information end med en typisk SSL-API.

Fra artiklen*:

‘Tidligere arbejde om model-ekstraktion fokuserede på Supervised Learning (SL)-indstillingen, hvor offer-modellen typisk returnerer en mærke eller andre lavdimensionale output som tillidsniveauer eller logits.

‘I modsætning hertil returnerer SSL-encodere højdimensionale repræsentationer; de facto-output for en ResNet-50 Sim-CLR-model, en populær arkitektur i vision, er en 2048-dimensionel vektor.

‘Vi formoder, at denne betydeligt højere informationslækage fra encodere gør dem mere sårbare over for ekstraktionsangreb end SL-modeller.’

Arkitektur og Data

Forskerne testede tre tilgange til SSL-model-inferens/ekstraktion: Direkte Ekstraktion, hvor API-output sammenlignes med en genskabt encoders output via en passende tab-funktion som f.eks. Mean Squared Error (MSE); genskabelse af projektionshovedet, hvor en kritisk analytisk funktion af modellen, normalt bortkastet før deployment, genskabes og bruges i en replika-model; og adgang til projektionshovedet, som kun er muligt i tilfælde, hvor de oprindelige udviklere har gjort arkitekturen tilgængelig.

I metode #1, Direkte Ekstraktion, sammenlignes output fra offer-modellen med output fra en lokal model; metode #2 indebærer genskabelse af projektionshovedet, der blev brugt i den oprindelige træningsarkitektur (og normalt ikke er inkluderet i en deployet model).

Forskerne fandt, at Direkte Ekstraktion var den mest effektive metode til at opnå en fungerende replika af målmodellen, og har den ekstra fordel at være den mest vanskelige at karakterisere som et ‘angreb’ (fordi det essentielt opfører sig lidt anderledes end en typisk og gyldig slutbruger).

Forfatterne trænede offer-modeller på tre billed-datasæt: CIFAR10, ImageNet, og Stanfords Street View House Numbers (SVHN). ImageNet blev trænet på ResNet50, mens CIFAR10 og SVHN blev trænet på ResNet18 og ResNet24 over en frit tilgængelig PyTorch-implementation af SimCLR.

Modellernes downstream (dvs. deployerede) præstation blev testet mod CIFAR100, STL10, SVHN og Fashion-MNIST. Forskerne eksperimenterede også med mere ‘white box’-metoder til model-appropriation, selv om det viste sig, at Direkte Ekstraktion, den mindst privilegerede tilgang, gav de bedste resultater.

For at evaluere repræsentationerne, der blev infereret og replikeret i angrebene, tilføjede forfatterne en lineær prædiktionslag til modellen, der blev fintuned på det fulde mærkede træningssæt fra den efterfølgende (downstream)-opgave, med resten af netværkslagene frozen. På denne måde kan testnøjagtigheden på prædiktionslaget fungere som en metrik for præstation. Da det ikke bidrager til inferensprocessen, repræsenterer dette ikke ‘white box’-funktionalitet.

Resultater fra testkørslerne, muliggjort af (ikke-bidragende) Lineær Evaluering-laget. Nøjagtighedsscores i fed.

I kommentar til resultaterne, siger forskerne:

‘Vi finder, at det direkte formål med at imitere offerets repræsentationer giver høj præstation på downstream-opgaver, på trods af at angrebet kun kræver en brøkdel (mindre end 15% i visse tilfælde) af antallet af forespørgsler, der blev brugt til at træne den stjålne encoder i første omgang.’

Og fortsætter:

‘[Det] er vanskeligt at forsvare encodere, der er trænet med SSL, da output-repræsentationerne lækker en betydelig mængde information. De mest lovende forsvar er reaktive metoder, såsom vandmærkning, der kan indlejre bestemte forbedringer i højkapacitets-encodere.’

* Min konvertering af artiklens inline-citationer til hyperlinks.

Først publiceret 18. maj 2022.