Umjetna inteligencija

DRM za skupove podataka računalnog vida

Ažurirano on Prosinac 9, 2022

Povijest sugerira da naposljetku 'otvoreno' doba istraživanja računalnog vida, gdje su ponovljivost i povoljna recenzija središnji za razvoj nove inicijative, mora ustupiti mjesto novoj eri zaštite IP-a – gdje zatvoreni mehanizmi i ograđene platforme sprječavaju konkurente podrivanje visokih troškova razvoja skupa podataka, ili korištenje skupog projekta kao puke odskočne daske za razvoj vlastite (možda superiorne) verzije.

Trenutačno rastući trend prema protekcionizmu uglavnom je podržan ograđivanjem vlasničkih središnjih okvira iza API pristupa, gdje korisnici šalju rijetke tokene ili zahtjeve, i gdje su transformacijski procesi koji odgovore okvira čine vrijednima potpuno skriveni.

U drugim slučajevima, sam konačni model može biti objavljen, ali bez središnjih informacija koje ga čine vrijednim, kao što su unaprijed uvježbani utezi koji možda košta više milijuna generirati; ili nedostatak vlasničkog skupa podataka, ili točne pojedinosti o tome kako je podskup proizveden iz niza otvorenih skupova podataka. U slučaju OpenAI transformativnog modela prirodnog jezika GPT-3, obje zaštitne mjere su trenutno u upotrebi, ostavljajući imitatore modela, kao što su GPT Neo, kako bi što bolje spojili aproksimaciju proizvoda.

Skupovi podataka sa zaštitom od kopiranja

Međutim, raste interes za metode pomoću kojih bi 'zaštićeni' okvir strojnog učenja mogao vratiti određenu razinu prenosivosti, osiguravajući da samo ovlašteni korisnici (na primjer, plaćeni korisnici) mogu profitabilno koristiti predmetni sustav. To obično uključuje šifriranje skupa podataka na neki programski način, tako da ga AI okvir za vrijeme obuke čita 'čist', ali je ugrožen ili na neki način neupotrebljiv u bilo kojem drugom kontekstu.

Takav sustav upravo su predložili istraživači sa Sveučilišta za znanost i tehnologiju Kine u Anhuiju i Sveučilišta Fudan u Šangaju. Naslovljeno Invertible Image Dataset Protectionje papir nudi cjevovod koji automatski dodaje adversarial primjer perturbation na skup slikovnih podataka, tako da se ne može korisno koristiti za obuku u slučaju piratstva, ali gdje je zaštita u potpunosti filtrirana od strane ovlaštenog sustava koji sadrži tajni token.

Iz članka: 'vrijedna' izvorna slika se čini efektivno nesposobnom za treniranje tehnikama adversarnog primjera, s perturbacijama koje se uklanjaju sustavno i potpuno automatski za 'ovlaštenog' korisnika. Izvor: https://arxiv.org/pdf/2112.14420.pdf

Mehanizam koji omogućuje zaštitu naziva se reverzibilni adversarial example generator (RAEG) i zapravo predstavlja enkripciju na stvarnom iskoristivost slika za potrebe klasifikacije, koristeći reverzibilno skrivanje podataka (RDH). Autori navode:

'Metoda prvo generira kontradiktornu sliku koristeći postojeće AE metode, zatim ugrađuje kontradiktornu perturbaciju u kontradiktornu sliku i generira stego sliku koristeći RDH. Zbog karakteristike reverzibilnosti, kontradiktorna perturbacija i izvorna slika mogu se vratiti.'

Izvorne slike iz skupa podataka ubacuju se u invertibilnu neuronsku mrežu (INN) u obliku slova U kako bi se proizvele slike s negativnim utjecajem koje su izrađene da prevare sustave klasifikacije. To znači da će ekstrakcija tipičnih značajki biti potkopana, što će otežati klasifikaciju osobina kao što su spol i druge značajke temeljene na licu (iako arhitektura podržava niz domena, a ne samo materijal temeljen na licu).

Inverzijski test RAEG-a, gdje se različite vrste napada izvode na slike prije rekonstrukcije. Metode napada uključuju Gaussovo zamućenje i JPEG artefakte.

Stoga, ako se pokuša koristiti 'oštećeni' ili 'šifrirani' skup podataka u okviru dizajniranom za generiranje lica temeljeno na GAN-u ili za potrebe prepoznavanja lica, dobiveni model bit će manje učinkovit nego što bi bio da je bio obučen na nepomućene slike.

Zaključavanje slika

Međutim, to je samo nuspojava opće primjenjivosti popularnih metoda perturbacije. Zapravo, u zamišljenom slučaju upotrebe, podaci će biti osakaćeni osim u slučaju ovlaštenog pristupa ciljnom okviru, budući da je središnji 'ključ' čistih podataka tajni token unutar ciljne arhitekture.

Ova enkripcija ima svoju cijenu; istraživači karakteriziraju gubitak izvorne kvalitete slike kao 'blago izobličenje' i navode '[Predložena] metoda može gotovo savršeno vratiti izvornu sliku, dok prethodne metode mogu vratiti samo mutnu verziju.'

Prethodne metode u pitanju su iz studenog 2018 papir Neovlaštena umjetna inteligencija me ne može prepoznati: reverzibilni kontradiktorni primjer, suradnja između dva kineska sveučilišta i RIKEN Center for Advanced Intelligence Project (AIP); i Reverzibilni kontradiktorni napad temeljen na reverzibilnoj transformaciji slikeA 2019 papir također iz kineskog akademskog istraživačkog sektora.

Istraživači novog rada tvrde da su napravili značajna poboljšanja u upotrebljivosti restauriranih slika, u usporedbi s ovim prijašnjim pristupima, primjećujući da je prvi pristup preosjetljiv na posredničke smetnje i previše lak za zaobilaženje, dok drugi uzrokuje pretjeranu degradaciju izvornih slika u (ovlašteno) vrijeme obuke, potkopavajući primjenjivost sustava.

Arhitektura, podaci i testovi

Novi sustav sastoji se od generatora, napadačkog sloja koji primjenjuje perturbaciju, unaprijed obučenih klasifikatora ciljeva i elementa diskriminatora.

Arhitektura RAEG-a. Lijevo-sredina, vidimo tajni token 'Iprt', koji će omogućiti de-perturbaciju slike u vrijeme treninga, identificiranjem perturbiranih značajki ugrađenih u izvorne slike i njihovim odbacivanjem.

Arhitektura RAEG-a. Lijevo-sredina, vidimo tajni znak 'I_spreman', koji će omogućiti de-perturbaciju slike u vrijeme treninga, identificiranjem perturbiranih značajki ugrađenih u izvorne slike i njihovim odbacivanjem.

U nastavku su rezultati testne usporedbe s dva prethodna pristupa, koristeći tri skupa podataka: CelebA-100; Caltech-101; i Mini-ImageNet.

Tri skupa podataka trenirana su kao mreže za klasifikaciju ciljeva, s veličinom serije od 32, na NVIDIA RTX 3090 tijekom tjedan dana, tijekom 50 epoha.

Autori tvrde da je RAEG prvi rad koji nudi invertibilnu neuronsku mrežu koja može aktivno generirati kontradiktorne primjere.

Prvi put objavljeno 4. siječnja 2022.

Srodne teme:računalni vid Cybersecurity istraživanje

Sljedeći

Promjena spola i rase u rezultatima pretraživanja slika pomoću strojnog učenja

Ne propustite

Stvaranje umjetnih mehaničkih Turaka s unaprijed obučenim jezičnim modelima

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai