Kyberturvallisuus

Varastamalla Machine Learning -mallit API-vastauksen kautta

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Uusi tutkimus Kanadasta tarjoaa mahdollisen menetelmän, jolla hyökkääjät voivat varastaa kalliiden machine learning -kehysten tulokset, vaikka ainoa pääsy omistettuun järjestelmään on hyvin suojattujen ja puhtaiden API:den (rajapinnan tai protokollan, joka prosessoi käyttäjän kyselyt palvelimella ja palauttaa vain vastausvastauksen) kautta.

Kun tutkimusala katsoo yhä enemmän rahoittavansa kalliiden mallien koulutusta Machine Learning as a Service (MLaaS) -toteutuksien kautta, uusi tutkimus ehdottaa, että Itseoppijaisten oppimismallit (SSL) ovat alttiimpia tälle kaltaiselle mallin salamiseksi, koska ne koulutetaan ilman käyttäjän merkintöjä, mikä yksinkertaa hakua, ja ne antavat yleensä tuloksia, jotka sisältävät paljon hyödyllistä tietoa jollekin, joka haluaa jäljitellä (piilotettua) alkuperäistä mallia.

“Mustan ruudun” testisimulaatioissa (joissa tutkijat antoivat itselleen vain saman pääsyn paikalliseen “uhri”-malliin kuin tyypillinen loppukäyttäjä olisi verkkorajapinnan kautta), tutkijat pystyivät jäljittelemään kohdemalleja suhteellisen vähäisillä resursseilla:

‘[Meidän] hyökkäykset voivat varastaa kopion uhri-mallista, joka saavuttaa huomattavan lopputuloksen alle 1/5:lla kyselyistä, joita uhri-malliin koulutukseen käytettiin. Uhri-mallia vastaan, joka on koulutettu 1,2M:lla merkinnättömällä otoksella ImageNetistä, 91,9%:n tarkkuudella alihankintatehtävänä Fashion-MNIST-luokittelutehtävässä, meidän suora extraktiohyökkäys InfoNCE-hävikillä varasti kopion kooderista, joka saavuttaa 90,5%:n tarkkuuden 200 000 kyselyssä.

‘Vastaavasti, uhri-mallia vastaan, joka on koulutettu 50 000:lla merkinnättömällä otoksella CIFAR10:stä, 79,0%:n tarkkuudella alihankintatehtävänä CIFAR10-luokittelutehtävässä, meidän suora extraktiohyökkäys SoftNN-hävikillä varasti kopion, joka saavuttaa 76,9%:n tarkkuuden 9 000 kyselyssä.’

Tutkijat käyttivät kolmea hyökkäysmenetelmää ja totesivat, että ‘Suora extraktio’ oli tehokkain. Nämä mallit varastettiin paikallisesti uudelleenluodusta CIFAR10-uhri-koodeerista 9 000 kyselyllä CIFAR10-testijoukosta. Source: https://arxiv.org/pdf/2205.07890.pdf

Tutkijat huomauttavat myös, että menetelmät, jotka sopivat suojelemaan valvottuja malleja hyökkäyksiltä, eivät sovellu hyvin malleihin, jotka on koulutettu epäsuorasti – vaikka tällaiset mallit edustavat osaa eniten odotettuja ja juhlittuja tuloksia kuvansynteesisektorilta.

Uusi artikkeli on nimeltään Itseoppijaisten oppimismallien puolustamisen vaikeudesta mallin extraktiota vastaan, ja se on peräisin Toronton yliopistosta ja Vectorin tekoälyinstituutista.

Itsetietoisuus

Itseoppijaisten oppimismenettelyssä malli koulutetaan merkinnättömällä aineistolla. Merkintöjen puutteessa itseoppijaismalli on oppiva yhteyksiä ja ryhmiä aineiston implisiittisestä rakenteesta, etsimällä samankaltaisia aineiston piirteitä ja vähitellen kokoamalla nämä piirteet solmuiksi tai edustukseksi.

Kun itseoppijaismenetelmä on käytettävissä, se on erittäin tuottavaa, koska se ohittaa kalliiden luokittelujen tarpeen, jotka usein ulkoistetaan ja kiistanalaisia, ja se perustelee aineiston itsestään.

Kolme itseoppijaismenetelmää, joita uuden artikkelin tekijät tarkastelivat, ovat SimCLR, Siamese-verkko; SimSiam, toinen Siamese-verkko, joka keskittyy edustusoppimiseen; ja Barlow Twins, itseoppijaismenetelmä, joka saavutti huipputuloksen ImageNet -luokittelijan suorituskyvyn julkaisunsa yhteydessä vuonna 2021.

Mallin extraktio merkityistä aineistoista (ts. malli, joka on koulutettu valvotulla oppimisella) on suhteellisen hyvin dokumentoitu tutkimusalue. Se on myös helpompi puolustaa, koska hyökkääjän on saatava uhri-mallin merkinnät, jotta se voidaan uudelleenluoda.

Aiemmasta artikkelista, ‘knockoff-luokittelija’ -hyökkäysmalli valvotun oppimisen arkkitehtuuriin. Source: https://arxiv.org/pdf/1812.02766.pdf

Ilman valkoisen ruudun pääsyä tämä ei ole triviaali tehtävä, koska tyypillinen vastaus API-pyynnöstä tällaiselle mallille sisältää vähemmän tietoa kuin tyypillinen SSL-API.

Artikkelista*:

‘Aiempi tutkimus mallin extraktiosta keskittyi valvottuun oppimiseen (SL), jossa uhri-malli yleensä palauttaa merkinnän tai muiden matala-ulotteisen tulokset kuten luottamusluokat tai logiit.

‘Sen sijaan SSL-koodeerit palauttavat korkean-ulotteisen edustukset; de facto tuloste ResNet-50 Sim-CLR-mallille, suositulla arkkitehtuurilla näkemisen alalla, on 2048-ulotteinen vektori.

‘Oletamme, että tämä huomattavasti suurempi tietovuoto koodeereista tekee niistä alttiimpia extraktiohyökkäyksille kuin SL-malleja.’

Arkkitehtuuri ja aineisto

Tutkijat testasivat kolmea lähestymistapaa itseoppijaismallien inferenssiin/extraktioon: Suora extraktio, jossa API-vastaus verrataan uudelleenluodun koodeerin tulokseen soveltuvaan hävikkiin, kuten keskinäiseen virheeseen (MSE); projektiokepin uudelleenluominen, jossa kriittinen analyysi-toiminto, jota malli normaalisti hylätään ennen käyttöönottoa, kootaan uudelleen ja käytetään kopio-mallissa; ja projektiokepin käyttäminen, joka on mahdollista vain silloin, kun alkuperäiset kehittäjät ovat tehneet arkkitehtuurin saataville.

Menetelmä #1, Suora extraktio, uhri-mallin tuloste verrataan paikallisen mallin tulokseen; menetelmä #2 sisältää projektiokepin uudelleenluomisen, jota käytetään alkuperäisessä koulutusarkkitehtuurissa (ja jota yleensä ei sisällytetä käyttöönotetussa mallissa).

Tutkijat totesivat, että Suora extraktio oli tehokkain tapa saada toimiva kopio kohdemallista, ja se tarjoaa myös etua, että se on vaikein tunnistaa ‘hyökkäykseksi’ (koska se käyttäytyy hyvin vähän eri tavalla kuin tyypillinen ja pätevä loppukäyttäjä).

Tutkijat kouluttivat uhri-malleja kolmella kuvatietokannalla: CIFAR10, ImageNet ja Stanfordin katunumerojen (SVHN) kuvat. ImageNet koulutettiin ResNet50:llä, kun taas CIFAR10 ja SVHN koulutettiin ResNet18:lla ja ResNet24:llä vapaasti saatavilla olevan PyTorch-toteutuksen SimCLR:n avulla.

Mallien lopputuloksen suorituskyky testattiin CIFAR100, STL10, SVHN ja Fashion-MNIST -tehtävissä. Tutkijat kokeilivat myös enemmän ‘valkoisen ruudun’ menetelmiä mallin omimiseksi, vaikka se osoittautui, että Suora extraktio, jolla on vähiten etuoikeuksia, antoi parhaat tulokset.

Tutkijat lisäsivät lineaarisen ennustuskerroksen malliin, joka säätettiin koko merkittyyn koulutusaineistoon myöhempää (alihankintatehtävää) varten, ja loput verkko-kerrokset jäädytettiin. Tällä tavoin ennustuskerroksen testitarkkuus voi toimia suorituskyvyn mittarina. Koska se ei vaikuta itse inferenssiprosessiin, se ei edusta ‘valkoisen ruudun’ toiminnallisuutta.

Testien tulokset, jotka tehtiin mahdollisiksi (ei-vaikuttavalla) Lineaarisella arviointikerroksella. Tarkkuuslukemat lihavoituina.

Related Topics:crime cybersecurity research security theft

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Varastamalla Machine Learning -mallit API-vastauksen kautta

Itsetietoisuus

Arkkitehtuuri ja aineisto

You may like