Connect with us

Tekoäly

Estäen Tietokoneen Näköaistin Datasets Epävirallista Käyttöä

mm

Kiinalaiset tutkijat ovat kehittäneet menetelmän, jolla voidaan tekijänoikeussuojata tietokoneen näköaistimia varten käytettäviä kuvadatasäikeitä “merkintämällä” kuvat tiedoissa ja sitten salaamalla “puhtaat” kuvat pilvipohjaisen alustan kautta ainoastaan valtuutetuille käyttäjille.

Kokeet järjestelmän kanssa osoittavat, että koneoppimismallin kouluttaminen tekijänoikeussuojatuilla kuvilla aiheuttaa katastrofaalisen laskun mallin tarkkuudessa. Kokeilemalla järjestelmää kahdella suositulla avoimella lähdekoodin kuvadatasäikkeellä, tutkijat totesivat, että on mahdollista laskea tarkkuudet 86,21 %:sta ja 74,00 %:sta puhtaiden datasäikeiden osalta 38,23 %:iin ja 16,20 %:iin, kun yritetään kouluttaa malleja salaamattomilla tiedoilla.

Tutkimuksesta – esimerkkejä puhtaista, suojatuista (ts. häiriintyneistä) ja palautetuista kuvista. Lähde: https://arxiv.org/pdf/2109.07921.pdf

Tutkimuksesta – esimerkkejä, vasemmalta oikealle, puhtaista, suojatuista (ts. häiriintyneistä) ja palautetuista kuvista. Lähde: https://arxiv.org/pdf/2109.07921.pdf

Tämä mahdollistaa laajan julkisen jakelun laadukkaiden, kalliiden datasäikeiden ja (oletettavasti) jopa osittain vammautuneiden “demo”-koulutuksen näiden datasäikeiden kanssa, jotta voidaan osoittaa niiden toimivuus.

Pilvipohjainen Datasäikeen Todennus

Tutkimus on peräisin Nanjingin ilmailu- ja avaruustekniikan yliopiston kahdesta osastosta, ja se näkee Datasäikeen Hallintapilveen (DMCP) käytön, joka on etäinen todennuskehys, joka tarjoaisi samanlaisen etäisen ennakkovalidoinnin kuin mitä on tullut yleiseksi raskaiden paikallisten asennusten kuten Adobe Creative Suiten kanssa.

Ehdotetun menetelmän virtaus ja kehys.

Ehdotetun menetelmän virtaus ja kehys.

Suojattu kuva generoidaan piirteiden avaruuden häiriöiden avulla, joka on vastustuskykyinen hyökkäysmenetelmä, jonka Duke University kehitti Pohjois-Carolinassa vuonna 2019.

Piirteiden avaruuden häiriöt suorittavat 'Aktivaatiohyökkäyksen', jossa yhden kuvan piirteet työnnetään toisen kuvan piirteiden avaruuteen. Tässä tapauksessa hyökkäys pakottaa koneoppimisen tunnistusjärjestelmän luokittelemaan koiran lentokoneeksi. Lähde: https://openaccess.thecvf.com

Piirteiden avaruuden häiriöt suorittavat ‘Aktivaatiohyökkäyksen’, jossa yhden kuvan piirteet työnnetään toisen kuvan piirteiden avaruuteen. Tässä tapauksessa hyökkäys pakottaa koneoppimisen tunnistusjärjestelmän luokittelemaan koiran lentokoneeksi. Lähde: https://openaccess.thecvf.com

Seuraavaksi muuttamaton kuva upotetaan häiriintyneeseen kuvaan lohkoparissa ja lohkokäännöksessä, kuten ehdotettiin vuoden 2016 tutkimuksessa Reversible Data Hiding in Encrypted Images by Reversible Image Transformation.

Lohkoparoinnin sisältävä jono upotetaan väliaikaiseen välikuvaan AES-salausmenetelmällä, jonka avain haetaan myöhemmin DMCP:stä todennusajankohtana. Vähäisen merkitsevän bittisteganografia-algoritmi käytetään avaimen upottamiseen. Tutkijat viittaavat tähän prosessiin Muuntuneena Käännöksellisenä Kuvanmuunnoksena (mRIT).

mRIT-rutiini on käytännössä käänteinen salaamisaikana, jolloin “puhdas” kuva palautetaan käyttöön koulutussessioissa.

Testaus

Tutkijat testasivat järjestelmää ResNet-18-arkkitehtuurilla kahdella datasäikkeellä: vuoden 2009 työ CIFAR-10, joka sisältää 6000 kuvaa 10 luokassa; ja Stanfordin TinyImageNet, joka on osajoukko ImageNet-luokitteluhässäkkestä, joka sisältää 100 000 kuvan koulutusdatasäikkeen, 10 000 kuvan validointidatasäikkeen ja 10 000 kuvan testidatasäikkeen.

ResNet-malli koulutettiin nollasta kolmella konfiguraatiolla: puhtaalla, suojatulla ja salaamattomalla datasäikkeellä. Molemmat datasäikkeet käyttivät Adam-optimointia, jossa oli alkuopetusnopeus 0,01, eräkoko 128 ja koulutusjakso 80.

Koulutus- ja testitarkkuustulokset salausjärjestelmän testeistä. Vähäisiä tappioita voidaan havaita koulutustilastojen osalla palautetuissa (ts. salaamattomissa) kuvissa.

Koulutus- ja testitarkkuustulokset salausjärjestelmän testeistä. Vähäisiä tappioita voidaan havaita koulutustilastojen osalla palautetuissa (ts. salaamattomissa) kuvissa.

Vaikka tutkimus toteaa, että “mallin suorituskyky palautetussa datasäikkeessä ei vaikuta”, tulokset osoittavat vähäisiä tappioita tarkkuudessa palautetuissa datasäikeissä verrattuna alkuperäisiin datasäikeisiin, 86,21 %:sta 85,86 %:iin CIFAR-10:ssä ja 74,00 %:sta 73,20 %:iin TinyImageNetissä.

Kuitenkin, ottaen huomioon, miten jopa vähäiset siementen muutokset (sekä GPU-laitteistoa) voivat vaikuttaa koulutussuorituskykyyn, tämä näyttää olevan vähäinen ja tehokas kompromissi IP-suojauksen ja tarkkuuden välillä.

Mallin Suojauksen Maisema

Aikaisemmat tutkimukset ovat keskittyneet lähinnä koneoppimismallien IP-suojaukseen olettaen, että itse koulutusdata on vaikeampi suojata: vuoden 2018 tutkimus Japanista tarjosi menetelmän upottaa vesileimat syvän neuroniverkkoon; aikaisempi tutkimus vuodelta 2017 tarjosi samankaltaisen lähestymistavan.

Vuoden 2018 aloite IBM:ltä teki ehkä syvimmän ja sitoutuneimman tutkimuksen neuroniverkkomallien vesileimojen potentiaalista. Tämä lähestymistapa poikkesi uudesta tutkimuksesta siinä, että se pyrki upottamaan ei-käänteisiä vesileimoja koulutusdataan ja sitten käyttämään suodattimia neuroniverkossa “alennusarvoa” häiriöille datasäikkeessä.

IBM:n suunnitelma neuroniverkon “ohittamiseksi” vesileimoja perustui siihen, että osat arkkitehtuurista, jotka oli suunniteltu tunnistamaan ja hylkäämään vesileimattuja osia datasäikkeessä, olivat suojattuja. Lähde: https://gzs715.github.io/pubs/WATERMARK_ASIACCS18.pdf

Piratismivektori

Vaikka IP-suojattujen datasäikeiden salauskehysten metsästys voisi näyttää reunatapaukselta tietokoneen näköaistin kulttuurissa, joka on edelleen riippuvainen avoimen lähdekoodin tarkastelusta ja tiedon jakamisesta tutkimusyhteisössä, jatkuva kiinnostus tietosuojaa koskevien tunnistusalgoritmien kehittämiseen saattaa tuottaa järjestelmiä, jotka ovat kiinnostavia yrityksille, jotka haluavat suojata tiettyjä tietoja eivätkä henkilökohtaisia tietoja.

Uusi tutkimus ei lisää satunnaisia häiriöitä kuva-dataan, vaan pakotettuja siirtoja piirteiden avaruudessa. Siksi nykyinen vesileimojen poistamiseen ja kuva paranemiseen liittyvät tietokoneen näköaistin projektit voivat mahdollisesti “palauttaa” kuvat inhimillisesti havaittavaan korkeampaan laatuun ilman, että itse piirteiden häiriöt, jotka aiheuttavat väärän luokittelun, poistetaan.

Monissa tietokoneen näköaistin sovelluksissa, erityisesti niissä, jotka liittyvät merkintöihin ja entiteettien tunnistamiseen, laittomasti palautetut kuvat aiheuttaisivat todennäköisesti edelleen väärän luokittelun. Kuitenkin tapauksissa, joissa kuvanmuunnokset ovat keskeinen tavoite (kuten kasvojen luomisessa tai deepfake-sovelluksissa), algoritmien palauttamat kuvat voisivat edelleen olla hyödyllisiä toimivien algoritmien kehittämisessä.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]