Connect with us

Kybernetická bezpečnost

Krádež modelů strojového učení prostřednictvím výstupu API

mm

Nová výzkum z Kanady nabízí možný způsob, jak útočníci mohli ukrást ovoce drahých rámců strojového učení, i když je jediným přístupem k proprietárnímu systému prostřednictvím vysoce sanitizovaného a zdánlivě dobře bráněného API (rozhraní nebo protokolu, který zpracovává dotazy uživatelů na serveru a vrací pouze výstupní odpověď).

Jak se výzkumný sektor stále více zaměřuje na monetizaci nákladného školení modelů prostřednictvím implementací Machine Learning jako služby (MLaaS), nová práce naznačuje, že modely Self-Supervised Learning (SSL) jsou více náchylné k tomuto typu exfiltrace modelu, protože jsou školeny bez uživatelských popisků, což usnadňuje extrakci a obvykle poskytují výsledky, které obsahují大量 užitečných informací pro někoho, kdo chce replikovat (skrytý) zdroj modelu.

Ve “černé skříňce” testovacích simulacích (kde výzkumníci sami sobě poskytli přístup k místnímu “obětnímu” modelu pouze jako typický koncový uživatel by měl prostřednictvím webového API), výzkumníci byli schopni replikovat cílové systémy s relativně nízkými zdroji:

‘[Naše] útoky mohou ukrást kopii oběti modelu, který dosahuje značného výkonu v méně než 1/5 dotazů použitých pro školení oběti. Proti obětnímu modelu školenému na 1,2M nelabelovaných vzorků z ImageNet, s 91,9% přesností na downstream klasifikační úkolu Fashion-MNIST, náš přímý extrakční útok s InfoNCE ztrátou ukradl kopii kódéru, který dosahuje 90,5% přesnosti v 200 000 dotazech.

‘Podobně, proti obětnímu modelu školenému na 50 000 nelabelovaných vzorků z CIFAR10, s 79,0% přesností na downstream klasifikační úkolu CIFAR10, náš přímý extrakční útok s SoftNN ztrátou ukradl kopii, která dosahuje 76,9% přesnosti v 9 000 dotazech.’

The researchers used three attack methods, finding that 'Direct Extraction' was the most effective. These models were stolen from a locally recreated CIFAR10 victim encoder using 9,000 queries from the CIFAR10 test-set. Source: https://arxiv.org/pdf/2205.07890.pdf

Výzkumníci používali tři útočné metody a zjistili, že ‘Direct Extraction’ byla nejúčinnější. Tyto modely byly ukradeny z místně rekreovaného CIFAR10 obětního kódéru pomocí 9 000 dotazů z testovací sady CIFAR10. Source: https://arxiv.org/pdf/2205.07890.pdf

Výzkumníci také poznamenali, že metody, které jsou vhodné pro ochranu dohlížených modelů před útokem, se nehodí dobře pro modely školené na neřízeném základě – ačkoli takové modely představují některé z nejvíce očekávaných a oslavovaných plodů image syntézy.

Nová práce se nazývá On the Difficulty of Defending Self-Supervised Learning against Model Extraction a pochází z University of Toronto a Vector Institute for Artificial Intelligence.

Sebevědomí

V Self-Supervised Learning je model školen na nelabelovaných datech. Bez popisků musí model SSL naučit asociace a skupiny z implicitní struktury dat, hledající podobné aspekty dat a postupně je seskupující do uzlů nebo reprezentací.

Kde je přístup SSL životaschopný, je to neuvěřitelně produktivní, protože obejde potřebu drahé (často outsourcováno a kontroverzní) kategorizace lidmi a vlastně racionalizuje data autonomně.

Tři přístupy SSL, které autoři nové práce zvažují, jsou SimCLR, Siamese Network; SimSiam, další Siamese Network zaměřený na učení reprezentací; a Barlow Twins, přístup SSL, který dosáhl špičkového výkonu ImageNet klasifikátoru při jeho vydání v roce 2021.

Extrakce modelu pro označená data (tj. model školený prostřednictvím dohlíženého učení) je relativně dokumentovaná výzkumná oblast. Je to také snazší bránit se proti němu, protože útočník musí získat popisky z obětního modelu, aby ho mohl replikovat.

A 'knockoff classifier' attack model against a supervised learning architecture. Source: https://arxiv.org/pdf/1812.02766.pdf

Ze starší práce, ‘knockoff classifier’ útočný model proti architektuře dohlíženého učení. Source: https://arxiv.org/pdf/1812.02766.pdf

Bez bílé skříňky není to triviální úkol, protože typický výstup z požadavku API na takový model obsahuje méně informací než u typického SSL API.

Z práce*:

‘Minulé práce na extrakci modelu se zaměřily na nastavení Dohlíženého učení (SL), kde obětní model obvykle vrací popisek nebo jiné nízko-rozměrné výstupy, jako skóre důvěry nebo logits.

‘Naopak, kódéry SSL vrací vysoké-rozměrné reprezentace; de facto výstup pro model ResNet-50 Sim-CLR, populární architektura ve vidění, je 2048-rozměrný vektor.

‘Hypotézujeme, že tento výrazně vyšší únik informací z kódérů je činí více zranitelnými vůči útokům na extrakci než modely SL.’

Architektura a data

Výzkumníci otestovali tři přístupy k inferenci/extrakci modelu SSL: přímá extrakce, ve které je výstup API srovnán s výstupem rekreovaného kódéru prostřednictvím vhodné ztrátové funkce, jako je průměrná čtvercová chyba (MSE); rekreace projekční hlavy, kde je kritická analytická funkce modelu, obvykle odstraněna před nasazením, reassemblována a použita v replikovaném modelu; a přístup k projekční hlavě, který je možný pouze v případech, kdy původní vývojáři zpřístupnili architekturu.

In method #1, Direct Extraction, the output of the victim model is compared to the output of a local model; method #2 involves recreating the projection head used in the original training architecture (and usually not included in a deployed model).

Metoda #1, přímá extrakce, výstup oběti modelu je srovnán s výstupem místního modelu; metoda #2 zahrnuje rekreaci projekční hlavy použité v původní trénovací architektuře (a obvykle není zahrnuta v nasazeném modelu).

Výzkumníci zjistili, že přímá extrakce byla nejúčinnější metodou pro získání funkční repliky cílového modelu a má navíc výhodu, že je nejobtížnější charakterizovat jako “útok” (protože se chová velmi podobně jako typický a platný koncový uživatel).

Autoři školovali obětní modely na tři image datové sady: CIFAR10, ImageNet a Stanford’s Street View House Numbers (SVHN). ImageNet byl školen na ResNet50, zatímco CIFAR10 a SVHN byly školeny na ResNet18 a ResNet24 přes volně dostupnou PyTorch implementaci SimCLR.

Výkon modelů v downstream (tj. nasazeném) úkolu byl testován proti CIFAR100, STL10, SVHN a Fashion-MNIST. Výzkumníci také experimentovali s více “bílou skříňkou” metodami modelové aproprace, i když se ukázalo, že přímá extrakce, nejméně privilegovaný přístup, poskytla nejlepší výsledky.

Aby vyhodnotili reprezentace, které jsou inferovány a replikovány v útocích, autoři přidali lineární predikční vrstvu k modelu, která byla jemně vyladěna na plném označeném trénovacím souboru z následného (downstream) úkolu, s ostatními vrstvami sítě zmrazenými. Tímto způsobem může testovací přesnost na predikční vrstvě fungovat jako metrika pro výkon. Protože nepřispívá k inferenčnímu procesu, toto nepředstavuje “bílou skříňkovou” funkčnost.

Results on the test runs, made possible by the (non-contributing) Linear Evaluation layer. Accuracy scores in bold.

Výsledky testovacích běhů, umožněné (nepřispívající) lineární evaluační vrstvou. Přesnostní skóre v tučném.

Komentář k výsledkům, výzkumníci uvádějí:

‘Zjistili jsme, že přímý cíl napodobení reprezentací oběti dává vysoké výkon na downstream úkolech, přestože útok vyžaduje pouze zlomek (méně než 15% v určitých případech) počtu dotazů potřebných pro školení ukradeného kódéru původně.’

A pokračují:

‘[Je] obtížné bránit kódéry školené SSL, protože výstupní reprezentace unikají podstatné množství informací. Nejslibnější obrany jsou reaktivní metody, jako je watermarking, které mohou vložit specifické augmentace do vysoce kapacitních kódérů.’

 

* Mé konverze paperových inline citací na hypertextové odkazy.

Poprvé publikováno 18. května 2022.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai