Tekoäly

Kuinka tietää, milloin kuvan synteesijärjestelmät tuottavat aitoa "alkuperäistä" materiaalia

Päivitetty on Joulukuu 9, 2022

"Nallekarhut työskentelevät uuden vedenalaisen tekoälytutkimuksen parissa 1990-luvun tekniikalla" – Lähde: https://www.creativeboom.com/features/meet-dall-e/

Uusi Etelä-Korean tutkimus on ehdottanut menetelmää sen määrittämiseksi, tuottavatko kuvasynteesijärjestelmät aidosti uusia kuvia tai "pieniä" muunnelmia harjoitustiedoista, mikä mahdollisesti kumoaa tällaisten arkkitehtuurien tavoitteen (kuten uusien ja alkuperäisten kuvien tuottaminen). .

Hyvin usein paperi ehdottaa, että jälkimmäinen on totta, koska olemassa olevat mittarit, joita tällaiset järjestelmät käyttävät parantaakseen kapasiteettiaan koulutuksen aikana, ovat pakotettuja suosimaan kuvia, jotka ovat suhteellisen lähellä tietojoukon (ei väärennettyjä) lähdekuvia. .

Loppujen lopuksi, jos luotu kuva on "visuaalisesti lähellä" lähdetietoa, se saa väistämättä paremman arvosanan "aitoudesta" kuin "alkuperäisyydestä", koska se on "uskollinen" - jos se ei ole inspiroitunut.

Alalla, joka on liian syntymässä ja kokeilematon, jotta sen oikeudellisia seurauksia ei vielä tiedetä, tämä voisi olla mahdollista osoittautuvat tärkeäksi oikeudelliseksi ongelmaksi, jos käy ilmi, että kaupallistettu synteettinen kuvasisältö ei eroa tarpeeksi (usein) tekijänoikeudella suojatusta lähdemateriaalista, joka on tällä hetkellä saa haistaa tutkimusala suosittujen web-kaapattujen tietokokonaisuuksien muodossa (tällaisten rikkomuskanteiden mahdollisuus on noussut julkisuuteen melko hiljattain Microsoftin GitHub Co-Pilot AI:n osalta).

Mitä tulee OpenAI:n kaltaisten järjestelmien yhä yhtenäisempään ja semanttisesti vankempaan ulostuloon DALL-E2, Googlen Kuva, ja Kiinan CogView julkaisut (sekä alemmat dall-e mini), niitä on hyvin vähän postaa faktaa tapoja luotettavasti testata luodun kuvan alkuperäisyyttä.

Todellakin, joidenkin suosituimpien uusien DALL-E 2 -kuvien etsiminen johtaa usein vain uusiin samoihin kuviin hakukoneesta riippuen.

Täydellisen 9-kuvan DALL-E 2 -lähtöryhmän lataaminen johtaa vain useampiin DALL-E 2 -lähtöryhmiin. Ensimmäisen kuvan erottaminen ja lataaminen (tästä 8. kesäkuuta 2022 julkaistusta Twitter-viestistä "Weird Dall-E Generations" -tilistä) saa Googlen kiinnittymään kuvan koripalloon ja vie kuvapohjaisen haun semanttiselle sokealle kujalle. Saman kuvapohjaisen haun osalta Yandex näyttää ainakin tekevän todellista pikselipohjaista purkamista ja ominaisuuksien yhteensovittamista.

Täydellisen 9-kuvan DALL-E 2 -lähtöryhmän lataaminen johtaa vain lisää DALL-E 2 -lähtöryhmiä, koska ruudukkorakenne on vahvin ominaisuus. Ensimmäisen kuvan erottaminen ja lataaminen (alk tämä Twitter-postaus 8. kesäkuuta 2022, Weird Dall-E Generations -tilistä) saa Googlen kiinnittymään kuvan koripalloon ja vie kuvapohjaisen haun semanttiselle sokealle kujalle. Saman kuvapohjaisen haun osalta Yandex näyttää ainakin tekevän todellista pikselipohjaista purkamista ja ominaisuuksien yhteensovittamista.

Vaikka Yandex käyttää todennäköisemmin kuin Google-haku todellista piirteet (eli kuva on johdettu/laskettu piirteet, ei välttämättä ihmisten kasvojen piirteitä) ja visuaalinen Lähetetyn kuvan (eikä semanttiset) ominaisuudet samanlaisten kuvien löytämiseksi, kaikilla kuvapohjaisilla hakukoneilla on joko jonkinlainen agenda tai käytäntö mikä voi vaikeuttaa tapausten tunnistamista lähde> luotu plagiointi web-hakujen kautta.

Lisäksi generatiivisen mallin opetusdata ei välttämättä ole julkisesti saatavilla kokonaisuudessaan, mikä vaikeuttaa luotujen kuvien alkuperäisyyden oikeuslääketieteellistä tutkimusta.

Mielenkiintoista on, että kuvapohjaisen verkkohaun tekeminen yhdelle Googlen esittämistä synteettisistä kuvista omistettu Imagen-sivusto ei löydä mitään, mikä olisi verrattavissa kuvan aiheeseen, mitä tulee kuvan todelliseen katsomiseen ja samanlaisten kuvien puolueettomasti etsimiseen. Pikemminkin semanttisesti kiinnitettynä tämän kuvakuvan Google-kuvahaun tulokset eivät salli pelkän kuvapohjaisen verkkohaun tekemistä kuvasta lisäämättä hakutermejä "imagen google" ylimääräiseksi (ja rajoittavaksi) parametriksi:

Yandex päinvastoin löytää monia samanlaisia (tai ainakin visuaalisesti liittyviä) tosielämän kuvia amatööritaiteilijayhteisöstä:

Yleisesti ottaen olisi parempi, jos kuvasynteesijärjestelmien tuotoksen uutuus tai omaperäisyys voitaisiin jollain tavalla mitata ilman, että tarvitsisi poimia ominaisuuksia kaikista mahdollisista verkkoon suuntautuvista kuvista, jotka ovat Internetissä mallin koulutushetkellä, tai ei-julkisissa tietojoukoissa, jotka saattavat käyttää tekijänoikeudella suojattua materiaalia.

Tähän asiaan liittyen Korea Advanced Institute of Science and Technologyn (KAIST AI) Kim Jaechul Graduate School of AI -tutkijat ovat tehneet yhteistyötä maailmanlaajuisen ICT- ja hakuyhtiö NAVER Corp. Harvinaisuuspisteet jotka voivat auttaa tunnistamaan kuvasynteesijärjestelmien omaperäisempiä luomuksia.

Tässä olevat kuvat on luotu StyleGAN-FFHQ:n kautta. Vasemmalta oikealle sarakkeet osoittavat huonoimpia tuloksia. Voimme nähdä, että "Truncation temppu" -mittarilla (katso alla) ja realismimittarilla on omat tavoitteensa, kun taas uusi "Rarity"-pistemäärä (ylärivi) etsii yhtenäistä, mutta omaperäistä kuvaa (eikä vain yhtenäistä kuvastoa). Koska tässä artikkelissa on kuvien kokorajoituksia, katso lähdepaperia saadaksesi lisätietoja ja tarkkuutta. Lähde: https://arxiv.org/pdf/2206.08549.pdf

Uusi paperi on otsikko Harvinaisuuspisteet: Uusi mittari syntetisoitujen kuvien epätavallisuuden arvioimiseksi, ja tulee kolmelta KAISTin tutkijalta ja kolmelta NAVER Corp.:lta.

"Halvan tempun" ulkopuolella

Yksi aikaisemmista mittareista, joita uusi paperi pyrkii parantamaan, ovat "Truncation temppu" ehdotettu julkaisussa 2019 Yhdistyneen kuningaskunnan Heriot-Watt Universityn ja Googlen DeepMindin yhteistyönä.

Katkaisutemppu käyttää pohjimmiltaan erilaista piilevää jakaumaa näytteenottoon kuin mitä käytettiin generatiivisen mallin harjoittamiseen.

Tämän menetelmän kehittäneet tutkijat olivat yllättyneitä sen toimivuudesta, mutta myöntävät alkuperäisessä asiakirjassa, että se vähentää tuotettujen tulosten vaihtelua. Kaikesta huolimatta katkaisutempusta on tullut tehokas ja suosittu siinä yhteydessä, mikä voitaisiin väittää uudelleen kuvailla "halpaksi temppuksi" aidon näköisten tulosten saamiseksi, jotka eivät todellakaan omaksu kaikkia datan sisältämiä mahdollisuuksia. muistuttavat lähdetietoja enemmän kuin toivotaan.

Mitä tulee katkaisutemppuun, uuden paperin kirjoittajat huomauttavat:

"[Se] ei ole tarkoitettu luomaan harvinaisia näytteitä opetusaineistoissa, vaan pikemminkin syntetisoimaan tyypillisiä kuvia vakaammin. Oletamme, että olemassa olevat generatiiviset mallit pystyvät tuottamaan näytteitä, jotka ovat rikkaampia todellisessa datajakaumassa, jos generaattori voidaan saada tuottamaan tehokkaasti harvinaisia näytteitä.

Yleisestä taipumuksesta luottaa perinteisiin mittareihin, kuten Frechet Inception Distance (FID, joka joutui ankaran kritiikin kohteeksi joulukuussa 2021), aloituspisteet (IS) ja ytimen aloitusetäisyys (KID) "edistymisindikaattoreina" generatiivisen mallin koulutuksen aikana, kirjoittajat kommentoivat edelleen*:

"Tämä oppimisjärjestelmä saa generaattorin olemaan syntetisoimatta paljon harvinaisia näytteitä, jotka ovat ainutlaatuisia ja joilla on vahvat ominaisuudet, jotka eivät vastaa suurta osaa todellisesta kuvajakaumasta. Esimerkkejä harvinaisista näytteistä julkisista tietojoukoista ovat ihmiset, joilla on erilaisia lisävarusteita FFHQ, valkoiset eläimet AFHQ:ssaja harvinaisia patsaita Metfacesissa.

”Harvinaisten näytteiden generointikyky on tärkeä paitsi siksi, että se liittyy generatiivisten mallien reunakykyyn, vaan myös siksi, että ainutlaatuisuudella on tärkeä rooli luovissa sovelluksissa, kuten virtuaali-ihmisessä.

"Useiden viimeaikaisten tutkimusten kvalitatiiviset tulokset sisältävät kuitenkin harvoin näitä harvinaisia esimerkkejä. Oletamme, että kontradiktorisen oppimisjärjestelmän luonne pakottaa luomaan kuvanjakauman, joka on samanlainen kuin koulutustietojoukossa. Siten kuvat, joilla on selkeä yksilöllisyys tai harvinaisuus, ottavat vain pienen osan mallien syntetisoimista kuvista.

Tekniikka

Tutkijoiden uusi Rarity Score mukauttaa vuonna esitettyä ideaa aikaisemmin toimii - käyttö K-Lähimmät naapurit (KNN:t) edustamaan aidon (koulutus) ja synteettisen (tulostus) datan ryhmiä kuvasynteesijärjestelmässä.

Tästä uudesta analyysimenetelmästä kirjoittajat väittävät:

"Oletamme, että tavalliset näytteet olisivat lähempänä toisiaan, kun taas ainutlaatuiset ja harvinaiset näytteet sijaitsisivat harvoin piirreavaruudessa."

Yllä oleva tuloskuva näyttää pienimmät lähin naapurin etäisyydet (NND:t) yli suurimpiin StyleGAN-arkkitehtuurissa, joka on koulutettu FFHQ.

"Kaikista tietojoukoista pienimmät NND:t sisältävät näytteet näyttävät edustavia ja tyypillisiä kuvia. Päinvastoin, näytteillä, joissa on suurimmat NND:t, on vahva yksilöllisyys ja ne eroavat merkittävästi tyypillisistä pienimmistä NND-kuvista.

Teoriassa käyttämällä tätä uutta metriikkaa erottelijana tai ainakin sisällyttämällä se monimutkaisempaan erottimen arkkitehtuuriin generatiivinen järjestelmä voitaisiin ohjata pois puhtaasta jäljittelystä kohti kekseliäisempää algoritmia, samalla kun säilytetään olennainen yhteenkuuluvuus käsitteistä, jotka voivat olla kriittisiä. aitoa kuvantuotantoa varten (esim 'mies', 'nainen', 'auto', 'kirkko', Jne.).

Vertailut ja kokeilut

Testeissä tutkijat vertasivat Rarity Score -suorituskykyä sekä Truncation Trickiin että NVIDIA:n vuoden 2019 tulokseen. Realismi pisteet, ja havaitsi, että useissa eri kehyksissä ja tietojoukoissa lähestymistapa pystyy yksilöimään "ainutlaatuisia" tuloksia.

Vaikka artikkelissa esitetyt tulokset ovat liian laajoja sisällytettäväksi tähän, tutkijat näyttävät osoittaneen uuden menetelmän kyvyn tunnistaa harvinaisuus sekä lähdekuvista (oikeista) että luoduista (väärenneistä) kuvista generatiivisessa menettelyssä:

Valitse esimerkkejä paperissa esitetyistä laajoista visuaalisista tuloksista (katso lisätietoja lähde-URL-osoitteesta yllä). Vasemmalla aitoja esimerkkejä FFHQ:sta, joilla on hyvin vähän lähinaapureita (eli ovat uusia ja epätavallisia) alkuperäisessä tietojoukossa; oikealla StyleGANin luomia väärennettyjä kuvia, jotka uusi mittari on tunnistanut todella uusiksi. Koska tässä artikkelissa on kuvien kokorajoituksia, katso lähdepaperia saadaksesi lisätietoja ja tarkkuutta.

Uusi Rarity Score -metriikka ei ainoastaan mahdollista "uusien" generatiivisten tulosten tunnistamista yhdessä arkkitehtuurissa, vaan se mahdollistaa myös vertailun erilaisten ja vaihtelevien arkkitehtuurien generatiivisten mallien välillä (esim. autoencoder, VAE, GAN jne. ).

Rarity Score eroaa aikaisemmista mittareista keskittymällä generatiivisen viitekehyksen kykyyn luoda ainutlaatuisia ja harvinaisia kuvia vastakohtana "perinteisille" mittareille, jotka tutkivat (melko lyhytnäköisemmin) sukupolvien välistä monimuotoisuutta mallin koulutuksen aikana.

Rajoitettujen tehtävien lisäksi

Vaikka uuden paperin tutkijat ovat tehneet testejä rajoitetuilla verkkotunnuksilla (kuten generaattori/tietojoukon yhdistelmillä, jotka on suunniteltu erityisesti tuottamaan kuvia ihmisistä tai kissoista, esimerkiksi), harvinaisuuspisteitä voidaan mahdollisesti soveltaa mihin tahansa mielivaltaiseen kuvasynteesimenettelyyn, jossa halutaan tunnistaa generoidut esimerkit, jotka käyttävät opetetusta tiedosta johdettuja jakaumia sen sijaan, että ne lisäisivät autenttisuutta (ja vähentäisivät monimuotoisuutta) asettamalla väliin vieraita piileviä jakaumia tai tukeutumalla muihin "oikopolkuihin", jotka vaarantavat uutuuden aitouden hyväksi.

Itse asiassa tällainen metriikka voisi mahdollisesti erottaa todella uudet tulosteet järjestelmissä, kuten DALL-E-sarja, käyttämällä tunnistettua etäisyyttä näennäisen "outlier"-tuloksen, harjoitustietojen ja vastaavien kehotteiden tai syötteiden (esim. kuvan) välillä. -pohjaiset kehotteet).

Käytännössä ja koska ei ole selvää ymmärrystä siitä, missä määrin järjestelmä on todella omaksunut visuaalisia ja semanttisia käsitteitä (jota usein haittaa rajallinen tieto koulutustiedoista), tämä voisi olla käyttökelpoinen tapa tunnistaa aito "hetki" inspiraatio" generatiivisessa järjestelmässä - piste, jossa riittävä määrä syötekäsitteitä ja -dataa on johtanut johonkin aidosti kekseliääseen sen sijaan, että se olisi jotain liian johdannaista tai lähellä lähdetietoa.

* Muutokseni tekijöiden tekstin sisäisistä lainauksista hyperlinkeiksi.

Julkaistu ensimmäisen kerran 20.

Seuraavaksi

Uusi menetelmä auttaa itse ajavia autoja luomaan "muistoja"

Älä missaa

Insinöörit rakentavat pinottavan ja uudelleenkonfiguroitavan AI-sirun

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai