Umjetna inteligencija

Kako znati kada sustavi za sintezu slike proizvode istinski 'izvorni' materijal

Ažurirano on Prosinac 9, 2022

'Plišani medvjedići rade na novom istraživanju umjetne inteligencije pod vodom s tehnologijom iz 1990-ih' – Izvor: https://www.creativeboom.com/features/meet-dall-e/

Nova studija iz Južne Koreje predložila je metodu kojom se utvrđuje da li sustavi za sintezu slike proizvode istinski nove slike ili 'manje' varijante podataka o obučavanju, što potencijalno poništava cilj takvih arhitektura (kao što je proizvodnja novih i originalnih slika) .

Vrlo često, sugerira rad, potonje je točno, jer su postojeće metrike koje takvi sustavi koriste za poboljšanje svojih generativnih kapaciteta tijekom obuke prisiljene favorizirati slike koje su relativno bliske (ne lažnim) izvornim slikama u skupu podataka. .

Uostalom, ako je generirana slika 'vizualno blizu' izvornim podacima, neizbježno je vjerojatno da će imati bolju ocjenu za 'autentičnost' nego za 'originalnost', budući da je 'vjerna' – ako nije nadahnuta.

To bi moglo biti u sektoru koji je previše raan i neiskušan da bi njegove pravne posljedice još bile poznate pokazati se kao važno pravno pitanje, ako se pokaže da se komercijalizirani sintetički slikovni sadržaj ne razlikuje dovoljno od (često) izvornog materijala zaštićenog autorskim pravima koji je trenutno dopušteno perfuzijom istraživački sektor u obliku popularnih skupova podataka s weba (potencijal za buduće tužbe za kršenje autorskih prava ove vrste je došli do izražaja relativno nedavno u odnosu na Microsoftov GitHub Co-Pilot AI).

U smislu sve koherentnijeg i semantički robusnijeg izlaza iz sustava kao što je OpenAI DALL-E2, Googleov Slika, i Kine CogView izdanja (kao i nižih specifikacija dall-e mini), ima ih vrlo malo post fact načine za pouzdano testiranje originalnosti generirane slike.

Doista, traženje nekih od najpopularnijih novih DALL-E 2 slika često će dovesti samo do daljnjih primjeraka istih slika, ovisno o tražilici.

Prijenos kompletne DALL-E 9 izlazne grupe od 2 slika vodi samo do više DALL-E 2 izlaznih grupa. Odvajanje i prijenos prve slike (iz ove objave na Twitteru od 8. lipnja 2022., s računa 'Weird Dall-E Generations') uzrokuje da se Google fiksira na košarkašku loptu na slici, odvodeći pretraživanje temeljeno na slikama u semantičku slijepu ulicu. Za isto pretraživanje temeljeno na slikama, čini se da Yandex barem radi neku stvarnu dekonstrukciju temeljenu na pikselima i podudaranje značajki.

Prijenos kompletne DALL-E 9 izlazne grupe od 2 slika vodi samo do više DALL-E 2 izlaznih grupa, jer je mrežasta struktura najjača značajka. Odvajanje i učitavanje prve slike (iz ovu objavu na Twitteru od 8. lipnja 2022., s računa 'Weird Dall-E Generations') uzrokuje da se Google fiksira na košarkašku loptu na slici, odvodeći pretraživanje temeljeno na slikama u semantičku slijepu ulicu. Za isto pretraživanje temeljeno na slikama, čini se da Yandex barem radi neku stvarnu dekonstrukciju temeljenu na pikselima i podudaranje značajki.

Iako je veća vjerojatnost da će Yandex od Google pretraživanja koristiti stvarni značajke (tj. slika je izvedena/izračunata značajke, ne nužno crte lica ljudi) i Vizualni (a ne semantičke) karakteristike poslane slike za pronalaženje sličnih slika, imaju sve tražilice temeljene na slikama neka vrsta agende ili prakse što može otežati prepoznavanje instanci izvor>generiran plagijat putem web pretraživanja.

Osim toga, podaci o obuci za generativni model možda neće biti javno dostupni u cijelosti, što dodatno otežava forenzičko ispitivanje izvornosti generiranih slika.

Zanimljivo, izvođenje web-pretrage temeljene na slikama na jednoj od sintetičkih slika koje je Google predstavio na posvećeno Imagen mjesto ne nalazi apsolutno ništa usporedivo s predmetom slike, u smislu stvarnog gledanja slike i nepristranog traženja sličnih slika. Umjesto toga, semantički fiksirani kao i uvijek, rezultati pretraživanja Google slika za ovu Imagen sliku neće dopustiti čisto web-pretraživanje slike temeljeno na slikama bez dodavanja pojmova za pretraživanje 'imagen google' kao dodatnog (i ograničavajućeg) parametra:

Yandex, naprotiv, pronalazi mnoštvo sličnih (ili barem vizualno povezanih) slika iz stvarnog svijeta iz amaterske umjetničke zajednice:

Općenito, bilo bi bolje kada bi se novost ili originalnost izlaza sustava za sintezu slike mogla na neki način izmjeriti, bez potrebe za izdvajanjem značajki iz svake moguće slike okrenute webu na internetu u vrijeme kada je model treniran, ili u nejavnim skupovima podataka koji možda koriste materijal zaštićen autorskim pravima.

U vezi s ovim problemom, istraživači s Kim Jaechul Graduate School of AI pri Korejskom naprednom institutu za znanost i tehnologiju (KAIST AI) surađivali su s globalnom tvrtkom za ICT i pretraživanje NAVER Corp kako bi razvili Ocjena rijetkosti koji mogu pomoći u prepoznavanju originalnijih kreacija sustava za sintezu slike.

Slike su ovdje generirane preko StyleGAN-FFHQ. S lijeva na desno, stupci pokazuju najgore do najbolje rezultate. Možemo vidjeti da metrika 'Trik s skraćivanjem' (vidi dolje) i metrika realizma imaju vlastite ciljeve, dok nova ocjena 'Rijetkost' (gornji red) traži kohezivne, ali originalne slike (a ne samo kohezivne slike). Izvor: https://arxiv.org/pdf/2206.08549.pdf

Slike su ovdje generirane putem StyleGAN-FFHQ. S lijeva na desno, stupci pokazuju najgore do najbolje rezultate. Možemo vidjeti da metrika 'Trik s skraćivanjem' (vidi dolje) i metrika realizma imaju svoje vlastite ciljeve, dok nova ocjena 'Rijetkost' (gornji red) traži kohezivne, ali originalne slike (a ne samo kohezivne slike). Budući da u ovom članku postoje ograničenja veličine slike, pogledajte izvorni dokument za bolje detalje i razlučivost. Izvor: https://arxiv.org/pdf/2206.08549.pdf

Novo papir naslovljen je Ocjena rijetkosti: Nova metrika za procjenu neuobičajenosti sintetiziranih slika, a dolazi od tri istraživača na KAIST-u i tri iz NAVER Corp.

Izvan 'jeftinog trika'

Među prethodnim metrikama koje novi dokument želi poboljšati je 'Trik skraćivanja' predloženo u 2019 u suradnji između britanskog Sveučilišta Heriot-Watt i Googleovog DeepMinda.

Trik skraćivanja u biti koristi drugačiju latentnu distribuciju za uzorkovanje od one koja se koristila za obuku generativnog modela.

Istraživači koji su razvili ovu metodu bili su iznenađeni što je uspjela, ali priznaju u izvornom radu da smanjuje raznolikost generiranih rezultata. Bez obzira na to, trik skraćivanja postao je učinkovit i popularan, u kontekstu onoga što bi se vjerojatno moglo ponovno opisati kao 'jeftini trik' za dobivanje rezultata autentičnog izgleda koji zapravo ne asimiliraju sve mogućnosti sadržane u podacima i mogu nalikuju izvornim podacima više nego što se želi.

Što se tiče trika skraćivanja, autori novog rada primjećuju:

'[To] nije namijenjeno stvaranju rijetkih uzoraka u skupovima podataka za obuku, već stabilnijoj sintetizaciji tipičnih slika. Pretpostavljamo da će postojeći generativni modeli moći proizvesti uzorke bogatije distribucijom stvarnih podataka ako se generator može potaknuti da učinkovito proizvodi rijetke uzorke.'

Od opće tendencije oslanjanja na tradicionalne metrike kao što je Frechetova početna udaljenost (FID, koja naišla na žestoke kritike u prosincu 2021.), inception score (IS) i Kernel Inception Distance (KID) kao 'pokazatelji napretka' tijekom obuke generativnog modela, autori dalje komentiraju*:

'Ova shema učenja navodi generator da ne sintetizira mnogo rijetke uzorke koji su jedinstveni i imaju jake karakteristike koje ne čine veliki udio stvarne distribucije slike. Primjeri rijetkih uzoraka iz javnih skupova podataka uključuju ljude s raznim priborom FFHQ, bijele životinje u AFHQ-ui neuobičajene statue u Metfaces.

'Sposobnost generiranja rijetkih uzoraka važna je ne samo zato što je povezana s rubnom sposobnošću generativnih modela, već i zato što jedinstvenost igra važnu ulogu u kreativnim aplikacijama kao što su virtualni ljudi.

'Međutim, kvalitativni rezultati nekoliko nedavnih studija rijetko sadrže ove rijetke primjere. Pretpostavljamo da priroda kontradiktorne sheme učenja prisiljava distribuciju generirane slike sličnu onoj skupa podataka za obuku. Stoga, slike s jasnom individualnošću ili rijetkošću zauzimaju samo mali dio u slikama sintetiziranim od strane modela.'

Tehnika

Nova ocjena rijetkosti istraživača prilagođava ideju predstavljenu u ranije djela - korištenje K-najbliži susjedi (KNN) za predstavljanje nizova originalnih (obuka) i sintetičkih (izlaz) podataka u sustavu za sintezu slike.

Što se tiče ove nove metode analize, autori tvrde:

'Pretpostavljamo da bi obični uzorci bili bliži jedni drugima, dok bi jedinstveni i rijetki uzorci bili rijetko smješteni u prostoru značajki.'

Gornja slika rezultata prikazuje najmanje udaljenosti najbližeg susjeda (NND) preko najveće, u StyleGAN arhitekturi obučenoj na FFHQ.

'Za sve skupove podataka, uzorci s najmanjim NND-ovima pokazuju reprezentativne i tipične slike. Naprotiv, uzorci s najvećim NND-ovima imaju jaku individualnost i značajno se razlikuju od tipičnih slika s najmanjim NND-ovima.'

U teoriji, korištenjem ove nove metrike kao diskriminatora, ili barem njegovim uključivanjem u složeniju arhitekturu diskriminatora, generativni sustav mogao bi se odmaknuti od čiste imitacije prema inventivnijem algoritmu, dok bi se zadržala bitna kohezija koncepata koji mogu biti ključni za izradu autentične slike (tj 'čovjek', 'žena', 'automobil', 'crkva', Itd.).

Usporedbe i eksperimenti

U testovima su istraživači proveli usporedbu performansi Rarity Score-a u odnosu na Trickation Trick i NVIDIA-in 2019. Rezultat realizma, i otkrili da u različitim okvirima i skupovima podataka pristup može individualizirati 'jedinstvene' rezultate.

Iako su rezultati predstavljeni u radu preopširni da bi se ovdje uključili, čini se da su istraživači pokazali sposobnost nove metode da identificira rijetkost i na izvornim (stvarnim) i na generiranim (lažnim) slikama u generativnom postupku:

Odaberite primjere iz opsežnih vizualnih rezultata reproduciranih u radu (pogledajte gornji izvorni URL za više pojedinosti). S lijeve strane, pravi primjeri iz FFHQ-a koji imaju vrlo malo bliskih susjeda (tj. novi su i neobični) u izvornom skupu podataka; s desne strane, lažne slike koje je generirao StyleGAN, a koje je nova metrika identificirala kao istinski nove. Budući da u ovom članku postoje ograničenja veličine slike, pogledajte izvorni dokument za bolje detalje i razlučivost.

Nova metrika ocjene rijetkosti ne samo da dopušta mogućnost identificiranja 'novog' generativnog izlaza u jednoj arhitekturi, već također, tvrde istraživači, dopušta usporedbe između generativnih modela različitih i različitih arhitektura (npr. autoenkoder, VAE, GAN, itd.). ).

Rad primjećuje da se Ocjena rijetkosti razlikuje od prethodne metrike koncentriranjem na sposobnost generativnog okvira za stvaranje jedinstvenih i rijetkih slika, za razliku od 'tradicionalnih' metrika, koje ispituju (prilično kratkovidnije) raznolikost između generacija tijekom uvježbavanja modela.

Izvan ograničenih zadataka

Iako su istraživači novog rada proveli testove na okvirima ograničene domene (kao što su kombinacije generator/set podataka osmišljene za specifičnu proizvodnju slika ljudi ili mačaka, na primjer), ocjena rijetkosti može se potencijalno primijeniti na bilo koji proizvoljan postupak sinteze slike gdje poželjno je identificirati generirane primjere koji koriste distribucije izvedene iz obučenih podataka, umjesto povećanja autentičnosti (i smanjenja raznolikosti) umetanjem stranih latentnih distribucija ili oslanjanjem na druge 'prečace' koji kompromitiraju novost u korist autentičnosti.

U stvari, takva metrika potencijalno bi mogla razlikovati istinski nove izlazne instance u sustavima kao što je DALL-E serija, korištenjem identificirane udaljenosti između očitog 'outlier' rezultata, podataka obuke i rezultata sličnih upita ili ulaza (tj. slike -temeljeni upiti).

U praksi, i u nedostatku jasnog razumijevanja u kojoj je mjeri sustav uistinu asimilirao vizualne i semantičke koncepte (često ometeno ograničenim znanjem o podacima obuke), ovo bi mogla biti održiva metoda za prepoznavanje pravog 'trenutka inspiracija' u generativnom sustavu – točka u kojoj je odgovarajući broj ulaznih koncepata i podataka rezultirao nečim istinski inventivnim, umjesto nečim pretjerano izvedenim ili bliskim izvornim podacima.

* Moje konverzije umetnutih citata autora u hiperveze.

Prvi put objavljeno 20. lipnja 2022.

Sljedeći

Nova metoda pomaže samovozećim automobilima u stvaranju 'uspomena'

Ne propustite

Inženjeri izrađuju AI čip koji se može složiti i rekonfigurirati

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai