Inteligenta Artificiala

DRM pentru seturi de date computerizate

Actualizat on December 9, 2022

Istoria sugerează că, în cele din urmă, epoca „deschisă” a cercetării viziunii computerizate, în care reproductibilitatea și evaluarea inter pares favorabilă sunt esențiale pentru dezvoltarea unei noi inițiative, trebuie să cedeze loc unei noi ere a protecției IP – în care mecanismele închise și platformele cu pereți împiedică concurenții să subminarea costurilor mari de dezvoltare a setului de date sau de la utilizarea unui proiect costisitor ca o simplă piatră de temelie la dezvoltarea propriei versiuni (poate superioare).

În prezent, tendința de creștere către protecționism este susținută în principal de îngrădirea cadrelor centrale proprietare în spatele accesului API, în care utilizatorii trimit token-uri sau solicitări rare și în care procesele de transformare care fac ca răspunsurile cadrului să fie valoroase sunt complet ascunse.

În alte cazuri, modelul final în sine poate fi lansat, dar fără informațiile centrale care îl fac valoros, cum ar fi greutățile pre-antrenate care este posibil să fi costat mai multe milioane a genera; sau lipsa unui set de date proprietar sau detalii exacte despre cum a fost produs un subset dintr-o serie de seturi de date deschise. În cazul modelului transformator de limbaj natural GPT-3 al OpenAI, ambele măsuri de protecție sunt în prezent utilizate, lăsând imitatorii modelului, cum ar fi GPT Neo, pentru a pune laolaltă o aproximare a produsului cât mai bine.

Seturi de date de imagine cu protecție împotriva copierii

Cu toate acestea, interesul este în creștere pentru metodele prin care un cadru de învățare automată „protejat” ar putea recâștiga un anumit nivel de portabilitate, asigurându-se că numai utilizatorii autorizați (de exemplu, utilizatorii plătiți) ar putea folosi în mod profitabil sistemul în cauză. Acest lucru implică de obicei criptarea setului de date într-un fel programatic, astfel încât să fie citit „curat” de cadrul AI în timpul antrenamentului, dar să fie compromis sau într-un fel inutilizabil în orice alt context.

Un astfel de sistem tocmai a fost propus de cercetătorii de la Universitatea de Știință și Tehnologie din China din Anhui și de la Universitatea Fudan din Shanghai. Intitulat Protecția setului de date cu imagini inversabile, hârtie oferă o conductă care se adaugă automat exemplu contradictoriu perturbare la un set de date imagine, astfel încât să nu poată fi utilizat în mod util pentru antrenament în caz de piraterie, dar în cazul în care protecția este filtrată în întregime de un sistem autorizat care conține un simbol secret.

Din lucrare: o imagine sursă „valoroasă” este redată efectiv imposibil de antrenat cu tehnici de exemplu contradictorii, perturbațiile fiind eliminate sistematic și complet automat pentru un utilizator „autorizat”. Sursă: https://arxiv.org/pdf/2112.14420.pdf

Mecanismul care permite protecția se numește generator reversibil de exemplu adversarial (RAEG) și echivalează efectiv cu criptarea reală. uzabilitate a imaginilor în scopuri de clasificare, folosind ascunderea reversibilă a datelor (RDH). Autorii afirmă:

„Metoda generează mai întâi imaginea adversară folosind metodele AE existente, apoi încorporează perturbația adversară în imaginea adversară și generează imaginea stego folosind RDH. Datorită caracteristicii de reversibilitate, perturbația adversă și imaginea originală pot fi recuperate.'

Imaginile originale din setul de date sunt introduse într-o rețea neuronală inversabilă în formă de U (INN) pentru a produce imagini afectate adversar care sunt create pentru a înșela sistemele de clasificare. Aceasta înseamnă că extragerea caracteristicilor tipice va fi subminată, ceea ce face dificilă clasificarea trăsăturilor cum ar fi genul și alte caracteristici bazate pe chip (deși arhitectura acceptă o serie de domenii, mai degrabă decât doar material bazat pe chip).

Un test de inversare a RAEG, în care se efectuează diferite tipuri de atac asupra imaginilor înainte de reconstrucție. Metodele de atac includ Gaussian Blur și artefacte JPEG.

Astfel, dacă încercați să utilizați setul de date „corupt” sau „criptat” într-un cadru conceput pentru generarea feței bazate pe GAN sau în scopuri de recunoaștere facială, modelul rezultat va fi mai puțin eficient decât ar fi fost dacă ar fi fost instruit pe imagini neperturbate.

Blocarea imaginilor

Cu toate acestea, acesta este doar un efect secundar al aplicabilității generale a metodelor populare de perturbare. De fapt, în cazul de utilizare preconizat, datele vor fi paralizate, cu excepția cazului de acces autorizat la cadrul țintă, deoarece „cheia” centrală pentru datele curate este un simbol secret în arhitectura țintă.

Această criptare vine cu un preț; cercetătorii caracterizează pierderea calității imaginii originale drept „ușoară distorsiune” și stare „[Metoda propusă] poate restabili aproape perfect imaginea originală, în timp ce metodele anterioare pot restaura doar o versiune neclară”.

Metodele anterioare în cauză sunt din noiembrie 2018 hârtie AI neautorizat nu mă poate recunoaște: Exemplu adversar reversibil, o colaborare între două universități chineze și RIKEN Center for Advanced Intelligence Project (AIP); și Atac adversar reversibil bazat pe transformarea reversibilă a imaginii, A Hârtie 2019 tot din sectorul de cercetare academică chinez.

Cercetătorii noii lucrări susțin că au adus îmbunătățiri notabile în utilizarea imaginilor restaurate, în comparație cu aceste abordări anterioare, observând că prima abordare este prea sensibilă la interferența intermediară și prea ușor de ocolit, în timp ce a doua provoacă o degradare excesivă. a imaginilor originale în timpul antrenamentului (autorizat), subminând aplicabilitatea sistemului.

Arhitectură, date și teste

Noul sistem constă dintr-un generator, un strat de atac care aplică perturbații, clasificatori de ținte pre-antrenați și un element discriminator.

Arhitectura RAEG. Mijlocul stânga, vedem simbolul secret „Iprt”, care va permite de-perturbarea imaginii în timpul antrenamentului, prin identificarea caracteristicilor perturbate incluse în imaginile sursă și scăderea acestora.

Arhitectura RAEG. Mijlocul stânga, vedem simbolul secret „I_gata", care va permite de-perturbarea imaginii în timpul antrenamentului, prin identificarea caracteristicilor perturbate incluse în imaginile sursă și scăderea acestora.

Mai jos sunt rezultatele unei comparații de test cu cele două abordări anterioare, folosind trei seturi de date: CelebA-100; Caltech-101; și Mini-ImageNet.

Cele trei seturi de date au fost antrenate ca rețele de clasificare țintă, cu o dimensiune a lotului de 32, pe un NVIDIA RTX 3090 pe parcursul unei săptămâni, timp de 50 de epoci.

Autorii susțin că RAEG este prima lucrare care oferă o rețea neuronală inversabilă care poate genera în mod activ exemple contradictorii.

Publicat prima dată pe 4 ianuarie 2022.

Subiecte asemănătoare:Computer Vision securitate cibernetică cercetare

Urmeaza

Schimbarea sexului și rasei în rezultatele căutării de imagini cu învățarea automată

Nu ratați

Crearea de turci mecanici artificiali cu modele de limbaj preinstruit

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai