Cybersikkerhet

Tyveri av maskinlæringsmodeller gjennom API-utdata

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Ny forskning fra Canada tilbyr en mulig metode for hvordan angripere kunne stjele fruktene av dyrekjøpte maskinlæringsrammeverk, selv når den eneste tilgangen til et proprietært system er via en høyt sanert og tilsynelatende godt forsvar API (et grensesnitt eller protokoll som prosesserer brukerforespørsler på serversiden, og returnerer bare utdataresponsen).

Da forskningssektoren ser stadig mer mot å gjøre dyrekjøpt modelltrening lønnsomt gjennom Machine Learning as a Service (MLaaS)-implementeringer, foreslår den nye forskningen at Self-Supervised Learning (SSL)-modeller er mer utsatt for denne type modellutvinning, fordi de er trent uten brukeretiketter, noe som forenkler utvinning, og vanligvis gir resultater som inneholder mye nyttig informasjon for noen som ønsker å replikere den (skjulte) kildemodellen.

I ‘black box’-testsimuleringer (der forskerne ga seg selv ingen mer tilgang til en lokal ‘offer’-modell enn en typisk sluttbruker ville ha via en web-API), kunne forskerne replikere mål-systemene med relativt lave ressurser:

‘[Våre] angrep kan stjele en kopi av offermodellen som oppnår betydelig nedstrøms-ytelse i færre enn 1/5 av spørringene som ble brukt til å trene offeret. Mot en offermodell trent på 1,2 millioner ulabelte eksempler fra ImageNet, med en nøyaktighet på 91,9% på nedstrøms Fashion-MNIST-klassifiseringsoppgaven, stjal vårt direkte utvinningsangrep med InfoNCE-tap en kopi av koderen som oppnår 90,5% nøyaktighet i 200 000 spørringer.

‘Tilsvarende, mot en offer trent på 50 000 ulabelte eksempler fra CIFAR10, med en nøyaktighet på 79,0% på nedstrøms CIFAR10-klassifiseringsoppgaven, stjal vårt direkte utvinningsangrep med SoftNN-tap en kopi som oppnår 76,9% nøyaktighet i 9 000 spørringer.’

Forskerne brukte tre angrepsmetoder, og fant at ‘Direkte utvinning’ var den mest effektive. Disse modellene ble stjålet fra en lokal rekonstruert CIFAR10-offer-koderer ved hjelp av 9 000 spørringer fra CIFAR10-testsettet. Source: https://arxiv.org/pdf/2205.07890.pdf

Forskerne bemerker også at metoder som er egnet til å beskytte overvåkede modeller mot angrep, ikke tilpasser seg godt til modeller trent på en uovervåket basis – selv om slike modeller representerer noen av de mest ventede og feirede fruktene av bildesynthese-sektoren.

Den nye artikkelen heter On the Difficulty of Defending Self-Supervised Learning against Model Extraction, og kommer fra University of Toronto og Vector Institute for Artificial Intelligence.

Selvbevissthet

I Self-Supervised Learning, blir en modell trent på ulabelt data. Uten etiketter, må en SSL-modell lære assosiasjoner og grupper fra den implisitte strukturen i dataene, søke liknende aspekter av data og gradvis samle disse aspektene i noder eller representasjoner.

Hvor en SSL-tilnærming er gjennomførbar, er den usedvanlig produktiv, siden den unngår behovet for dyrekjøpt (ofte outsourcet og kontroversiell) kategorisering av crowdworkers, og i stor grad rasjonaliserer dataene autonomt.

De tre SSL-tilnærmingene som er vurdert av artikkelforfatterne, er SimCLR, en Siamese Network; SimSiam, en annen Siamese Network sentrert på representasjonslæring; og Barlow Twins, en SSL-tilnærming som oppnådde state-of-the-art ImageNet-klassifikatorprestasjon på dens lansering i 2021.

Modellutvinning for merket data (dvs. en modell trent gjennom overvåket læring) er et relativt veldokumentert forskningsområde. Det er også enklere å forsvare mot, siden angriperen må få tak i etikettene fra offermodellen for å rekonstruere den.

En 'knockoff-klassifikator'-angrepsmodell mot en overvåket læring-arkitektur. Source: https://arxiv.org/pdf/1812.02766.pdf

Fra en tidligere artikkel, en ‘knockoff-klassifikator’-angrepsmodell mot en overvåket læring-arkitektur. Source: https://arxiv.org/pdf/1812.02766.pdf

Uten hvitboks-tilgang, er dette ikke en trivial oppgave, siden den typiske utdata fra en API-forespørsel til en slik modell inneholder mindre informasjon enn med en typisk SSL-API.

Fra artikkelen*:

‘Tidligere arbeid med modellutvinning fokuserte på den overvåkede læring (SL)-innstillingen, der offermodellen vanligvis returnerer en etikett eller andre lavdimensjonale utdata som tillitsverdier eller logits.

‘I motsetning til dette, returnerer SSL-kodere høydimensjonale representasjoner; den de facto utdata for en ResNet-50 Sim-CLR-modell, en populær arkitektur i visjon, er en 2048-dimensjonal vektor.

‘Vi hypotetiserer at denne betydelig høyere informasjonslekkasjen fra kodere gjør dem mer utsatt for utvinningsangrep enn SL-modeller.’

Arkitektur og data

Forskerne testet tre tilnærminger til SSL-modell-inferens/utvinning: Direkte utvinning, hvor API-utdataene sammenlignes med en rekonstruert koders utdata via en egnet tap-funksjon som middelverdi-feil (MSE); gjenopprettelse av prosjeksjonshead, hvor en kritisk analytisk funksjonalitet av modellen, vanligvis kastet før distribusjon, gjenopprettet og brukt i en replika-modell; og tilgang til prosjeksjonshead, som bare er mulig i tilfeller hvor de opprinnelige utviklerne har gjort arkitekturen tilgjengelig.

I metode #1, Direkte utvinning, sammenlignes utdata fra offermodellen med utdata fra en lokal modell; metode #2 innebærer gjenopprettelse av prosjeksjonshead brukt i den opprinnelige treningsarkitekturen (og vanligvis ikke inkludert i en distribuert modell).

Forskerne fant at Direkte utvinning var den mest effektive metoden for å få en fungerende replika av målmodellen, og har den ekstra fordelen av å være den mest vanskelige å karakterisere som et ‘angrep’ (fordi den i stor grad oppfører seg lite forskjellig fra en typisk og gyldig sluttbruker).

Forskerne trente offermodellene på tre bilde-datasett: CIFAR10, ImageNet, og Stanford’s Street View House Numbers (SVHN). ImageNet ble trent på ResNet50, mens CIFAR10 og SVHN ble trent på ResNet18 og ResNet24 over en fritt tilgjengelig PyTorch-implementering av SimCLR.

Modellenes nedstrøms-ytelse (dvs. distribuert) ble testet mot CIFAR100, STL10, SVHN og Fashion-MNIST. Forskerne eksperimenterte også med mer ‘hvitboks’-metoder for modell-inntakelse, selv om det viste seg at Direkte utvinning, den minst privilegerte tilnærmingen, ga de beste resultater.

For å evaluere representasjonene som ble inferert og replisert i angrepene, la forfatterne til en lineær prediksjonslag til modellen, som ble finjustert på det fullstendige merkte treningssettet fra den påfølgende (nedstrøms) oppgaven, med resten av nettverkslagene frozen. På denne måten kan testnøyaktigheten på prediksjonslaget fungere som en målestokk for ytelse. Ettersom det ikke bidrar til inferensprosessen, representerer dette ikke ‘hvitboks’-funksjonalitet.

Resultater fra testkjøringer, muliggjort av (ikke-bidragende) Lineær evaluering-lag. Nøyaktighetspoeng i fet skrift.

I kommentarer til resultater, sier forskerne:

‘Vi finner at det direkte målet med å imitere offers representasjoner gir høy ytelse på nedstrøms-oppgaver, til tross for at angrepet bare krever en brøkdel (mindre enn 15% i visse tilfeller) av antall spørringer som ble brukt til å trene den stjålne koderen fra først.’