Kyber ochrana

Krádež modelov strojového učenia prostredníctvom výstupu API

uverejnené

Pred 2 rokov

Môže 18, 2022

Nový výskum z Kanady ponúka možnú metódu, pomocou ktorej by útočníci mohli ukradnúť plody drahých rámcov strojového učenia, aj keď jediný prístup k proprietárnemu systému je cez vysoko dezinfikované a zjavne dobre chránené API (rozhranie alebo protokol, ktorý spracováva dopyty používateľov). na strane servera a vráti iba výstupnú odpoveď).

Keďže výskumný sektor sa čoraz viac zameriava na speňaženie nákladných modelových školení prostredníctvom implementácií strojového učenia ako služby (MLaaS), nová práca naznačuje, že Samokontrolované učenie Modely (SSL) sú voči tomuto druhu exfiltrácie modelu zraniteľnejšie, pretože sú trénované bez používateľských označení, čo zjednodušuje extrakciu a zvyčajne poskytujú výsledky, ktoré obsahujú veľké množstvo užitočných informácií pre niekoho, kto chce replikovať (skrytý) zdrojový model.

V testovacích simuláciách „čiernej skrinky“ (kde si výskumníci neposkytli väčší prístup k miestnemu modelu „obete“, ako by mal typický koncový používateľ prostredníctvom webového rozhrania API), boli výskumníci schopní replikovať cieľové systémy s relatívne nízkymi zdrojmi. :

„[Naše] útoky môžu ukradnúť kópiu modelu obete, ktorý dosahuje značný výkon pri menej ako 1/5 dopytov použitých na zaškolenie obete. V porovnaní s modelom obete trénovaným na 1.2 milióna neoznačených vzoriek z ImageNet, s presnosťou 91.9 % pri následnej úlohe klasifikácie Fashion-MNIST, náš priamy extrakčný útok so stratou InfoNCE ukradol kópiu kodéra, ktorý dosahuje 90.5 % presnosť v 200 XNUMX dopytoch.

'Podobne, proti obeti trénovanej na 50 10 neoznačených vzorkách z CIFAR79.0, s presnosťou 10 % v následnej klasifikačnej úlohe CIFAR76.9, náš útok priamej extrakcie so stratou SoftNN ukradol kópiu, ktorá dosahuje 9,000 % presnosť v XNUMX XNUMX dotazoch.'

Výskumníci použili tri metódy útoku a zistili, že „priama extrakcia“ bola najúčinnejšia. Tieto modely boli ukradnuté z lokálne vytvoreného kodéra obetí CIFAR10 pomocou 9,000 10 dopytov z testovacej sady CIFARXNUMX. Zdroj: https://arxiv.org/pdf/2205.07890.pdf

Výskumníci tiež poznamenávajú, že metódy, ktoré sú vhodné na ochranu kontrolovaných modelov pred útokom, sa neprispôsobujú dobre modelom trénovaným na báze bez dozoru – aj keď takéto modely predstavujú niektoré z najočakávanejších a najslávnejších plodov sektora syntézy obrazu.

Nový papier je s názvom O obtiažnosti obrany učenia s vlastným dohľadom proti extrakcii modelu, a pochádza z University of Toronto a Vector Institute for Artificial Intelligence.

Self-uvedomenie

V samokontrolnom učení sa model trénuje na neoznačených údajoch. Bez štítkov sa model SSL musí naučiť asociácie a skupiny z implicitnej štruktúry údajov, hľadať podobné aspekty údajov a postupne tieto aspekty spájať do uzlov alebo reprezentácií.

Tam, kde je prístup SSL životaschopný, je neuveriteľne produktívny, pretože obchádza potrebu drahých (často outsourcovaných a kontroverzná) kategorizácia podľa crowdworkerov a v podstate autonómne racionalizuje údaje.

Autori nového článku zvažujú tri prístupy SSL SimCLRsa Siamská sieť; SimSiam, ďalšia siamská sieť zameraná na učenie sa reprezentácie; a Dvojčatá Barlow, prístup SSL, ktorý dosiahol najnovší stav techniky ImageNet výkon klasifikátora pri jeho vydaní v roku 2021.

Extrakcia modelu pre označené údaje (tj model trénovaný prostredníctvom učenia pod dohľadom) je relatívne dobre zdokumentované oblasť výskumu. Je tiež jednoduchšie sa proti tomu brániť, pretože útočník musí získať štítky od modelu obete, aby tak mohol urobiť znovu to vytvoriť.

Model útoku typu „knockoff classifier“ proti architektúre učenia pod dohľadom. Zdroj: https://arxiv.org/pdf/1812.02766.pdf

Z predchádzajúceho článku, model útoku „knockoff classifier“ proti architektúre učenia pod dohľadom. Zdroj: https://arxiv.org/pdf/1812.02766.pdf

Bez prístupu k bielej skrinke to nie je triviálna úloha, pretože typický výstup z požiadavky API na takýto model obsahuje menej informácií ako pri typickom SSL API.

Z papiera*:

„Minulá práca na extrakcii modelu sa zamerala na nastavenie Supervised Learning (SL), kde model obete zvyčajne vracia označenie alebo iné nízkorozmerné výstupy, ako napr. skóre dôvery or logits.

„Naproti tomu kódovače SSL vracajú vysokorozmerné reprezentácie; na de facto výstup pre model ResNet-50 Sim-CLR, populárna architektúra vo vízii, je 2048-rozmerný vektor.

"Predpokladáme, že tento výrazne vyšší únik informácií z kódovačov ich robí zraniteľnejšími voči extrakčným útokom ako modely SL."

Architektúra a dáta

Výskumníci testovali tri prístupy k odvodeniu/extrakcii modelu SSL: Priama extrakcia, v ktorom sa výstup API porovnáva s výstupom znovu vytvoreného kódovača pomocou vhodnej stratovej funkcie, ako je stredná štvorcová chyba (MSE); znovuvytvorenie projekčnej hlavy, kde sa kľúčová analytická funkcia modelu, ktorá sa bežne pred nasadením vyraďuje, znovu zloží a použije v modeli repliky; a prístup k projekčnej hlave, čo je možné len v prípadoch, keď pôvodní vývojári sprístupnili architektúru.

V metóde č. 1, priama extrakcia, sa výstup modelu obete porovnáva s výstupom lokálneho modelu; metóda č. 2 zahŕňa opätovné vytvorenie projekčnej hlavy používanej v pôvodnej cvičnej architektúre (a zvyčajne nie je zahrnutá do nasadeného modelu).

Výskumníci zistili, že priama extrakcia bola najefektívnejšou metódou na získanie funkčnej repliky cieľového modelu a má ďalšiu výhodu v tom, že je najťažšie ju charakterizovať ako „útok“ (pretože sa v podstate správa trochu inak ako typický a platný koncový užívateľ).

Autori trénovali modely obetí na troch súboroch údajov: CIFAR10, ImageNeta čísla domov v Stanforde Street View (SVHN). ImageNet bol vyškolený na ResNet50, zatiaľ čo CIFAR10 a SVHN boli vyškolení na ResNet18 a ResNet24 cez voľne dostupnú implementáciu PyTorch SimCLR.

Následný (tj nasadený) výkon modelov bol testovaný podľa CIFAR100, 10 STL, SVHN a Móda-MNIST. Výskumníci tiež experimentovali s viacerými metódami privlastňovania modelu „bielej skrinky“, hoci sa ukázalo, že najlepšie výsledky priniesla priama extrakcia, najmenej privilegovaný prístup.

Na vyhodnotenie reprezentácií odvodených a replikovaných pri útokoch autori pridali do modelu vrstvu lineárnej predikcie, ktorá bola doladená na úplne označenú trénovaciu množinu z následnej (downstream) úlohy, pričom zvyšok sieťových vrstiev bol zmrazený. . Týmto spôsobom môže presnosť testu na predikčnej vrstve fungovať ako metrika výkonu. Keďže nič neprispieva k procesu odvodzovania, nepredstavuje to funkčnosť „bielej skrinky“.

Výsledky testov, ktoré umožňuje (neprispievajúca) vrstva lineárneho hodnotenia. Skóre presnosti tučne.

V komentári k výsledkom výskumníci uvádzajú:

„Zistili sme, že priamym cieľom napodobňovania reprezentácií obete je vysoký výkon pri nadväzujúcich úlohách napriek tomu, že útok si vyžaduje len zlomok (v niektorých prípadoch menej ako 15 %) z počtu dopytov potrebných na trénovanie ukradnutého kódovača. '

A pokračovať:

„[Je] náročné brániť kodéry trénované pomocou SSL, pretože výstupné reprezentácie prepúšťajú značné množstvo informácií. Najsľubnejšou obranou sú reaktívne metódy, ako je vodotlač, ktoré môžu vložiť špecifické rozšírenia do veľkokapacitných kódovačov.'

* Moja konverzia vložených citácií článku na hypertextové odkazy.

Prvýkrát uverejnené 18. mája 2022.

Nasledujúci

Ako hackeri ovládajú umelú inteligenciu

Nenechajte si ujsť

Predvídanie nových spamových domén prostredníctvom strojového učenia

Martin Anderson

Autor o strojovom učení, umelej inteligencii a veľkých dátach.
Osobná stránka: martinanderson.ai
Kontakt: [chránené e-mailom]
Twitter: @manders_ai

Spojte sa.AI

Krádež modelov strojového učenia prostredníctvom výstupu API

Kyber ochrana

Krádež modelov strojového učenia prostredníctvom výstupu API

Obsah

Self-uvedomenie

Architektúra a dáta

Správy AI

Spojte sa.AI

Krádež modelov strojového učenia prostredníctvom výstupu API

Obsah

Self-uvedomenie

Architektúra a dáta

Možno budete chcieť

Správy AI