Artificiell intelligens
Hur man vet nÀr bildsyntessystem producerar genuint "original" material

En ny studie frÄn Sydkorea har föreslagit en metod för att avgöra om system för bildsyntes producerar genuint nya bilder, eller "mindre" varianter av trÀningsdata, vilket potentiellt motverkar syftet med sÄdana arkitekturer (som produktion av nya och originalbilder) .
Mycket ofta, föreslÄr tidningen, Àr det senare sant, eftersom de befintliga mÄtt som sÄdana system anvÀnder för att förbÀttra sin generativa kapacitet under utbildningens gÄng tvingas gynna bilder som Àr relativt nÀra (icke-falska) kÀllbilderna i datamÀngden .
NÀr allt kommer omkring, om en genererad bild Àr "visuellt nÀra" kÀlldata, Àr den oundvikligen sannolikt bÀttre för "Àkthet" Àn "originalitet", eftersom den Àr "trogen" - om den Àr oinspirerad.
I en sektor som Àr alltför begynnande och oprövad för att dess juridiska konsekvenser Ànnu ska vara kÀnda, skulle detta kunna visa sig vara en viktig juridisk frÄga, om det visar sig att kommersialiserat syntetiskt bildinnehÄll inte skiljer sig tillrÀckligt frÄn det (ofta) upphovsrÀttsskyddade kÀllmaterialet som för nÀrvarande Àr fÄr genomsyra forskningssektorn i form av populÀra webbskrapade datamÀngder (potentialen för framtida intrÄngsansprÄk av denna typ har kommit till framtrÀdande ganska nyligen nÀr det gÀller Microsofts GitHub Co-Pilot AI).
NÀr det gÀller den allt mer sammanhÀngande och semantiskt robusta produktionen frÄn system som OpenAI:s DALL-E2, Googles Bild, och Kinas CogView slÀpper (liksom de lÀgre specificerade dall-e mini), det Àr vÀldigt fÄ post fact sÀtt att pÄ ett tillförlitligt sÀtt testa originaliteten hos en genererad bild.
Att söka efter nÄgra av de mest populÀra av de nya DALL-E 2-bilderna leder ofta bara till ytterligare instanser av samma bilder, beroende pÄ sökmotorn.

Att ladda upp en komplett DALL-E 9-utdatagrupp med 2 bilder leder bara till fler DALL-E 2-utdatagrupper, eftersom rutnÀtsstrukturen Àr den starkaste egenskapen. Separera och ladda upp den första bilden (frÄn detta Twitter-inlÀgg av den 8 juni 2022, frÄn kontot 'Weird Dall-E Generations') fÄr Google att fixera sig vid basketbollen pÄ bilden och tar den bildbaserade sökningen nerför en semantisk ÄtervÀndsgrÀnd. För samma bildbaserade sökning verkar Yandex Ätminstone göra lite faktisk pixelbaserad dekonstruktion och funktionsmatchning.
Ăven om Yandex Ă€r mer sannolikt Ă€n Google Sök att anvĂ€nda den faktiska pass (dvs en bild Ă€r hĂ€rledd/berĂ€knad pass, inte nödvĂ€ndigtvis ansiktsdrag hos mĂ€nniskor) och visuell (snarare Ă€n semantiska) egenskaper hos en inlĂ€mnad bild för att hitta liknande bilder, alla bildbaserade sökmotorer har antingen nĂ„gon form av agenda eller praxis som kan göra det svĂ„rt att identifiera instanser av kĂ€lla>genererad plagiat via webbsökningar.
Dessutom kan det hÀnda att trÀningsdata för en generativ modell inte Àr allmÀnt tillgÀnglig i sin helhet, vilket ytterligare hÀmmar rÀttsmedicinska undersökningar av originaliteten hos genererade bilder.
Intressant nog att utföra en bildbaserad webbsökning pÄ en av de syntetiska bilderna som presenterades av Google pÄ dess dedikerad Imagen-webbplats finner absolut ingenting som kan jÀmföras med bildens motiv, nÀr det gÀller att faktiskt titta pÄ bilden och opartiskt söka liknande bilder. Snarare, semantiskt fixerade som alltid, kommer Googles bildsökningsresultat för denna Imagen-bild inte att tillÄta en ren bildbaserad webbsökning av bilden utan att lÀgga till söktermerna 'imagen google' som en ytterligare (och begrÀnsande) parameter:
Yandex, omvÀnt, hittar en mÀngd liknande (eller Ätminstone visuellt relaterade) verkliga bilder frÄn den konstnÀrliga amatörgemenskapen:
Generellt sett vore det bÀttre om nyheten eller originaliteten hos utdata frÄn bildsyntessystem pÄ nÄgot sÀtt kunde mÀtas, utan att man behöver extrahera sÀrdrag frÄn alla möjliga webbbilder pÄ internet vid den tidpunkt dÄ modellen trÀnades, eller i icke-offentliga datauppsÀttningar som kan anvÀnda upphovsrÀttsskyddat material.
Relaterat till denna frÄga har forskare frÄn Kim Jaechul Graduate School of AI vid Korea Advanced Institute of Science and Technology (KAIST AI) samarbetat med det globala ICT- och sökföretaget NAVER Corp för att utveckla en Rarity PoÀng som kan hjÀlpa till att identifiera de mer originella skapelserna av bildsyntessystem.

Bilder hÀr genereras via StyleGAN-FFHQ. FrÄn vÀnster till höger indikerar kolumnerna sÀmsta till bÀsta resultat. Vi kan se att "Truncation trick"-mÄttet (se nedan) och Realism-metriken har sina egna agendor, medan den nya "Rarity"-poÀngen (översta raden) söker efter sammanhÀngande men originella bilder (snarare Àn bara sammanhÀngande bilder). Eftersom det finns begrÀnsningar för bildstorlek i den hÀr artikeln, se kÀlldokumentet för bÀttre detaljer och upplösning. KÀlla: https://arxiv.org/pdf/2206.08549.pdf
Den nya papper har titeln Rarity Score: Ett nytt mÄtt för att utvÀrdera ovanligheten hos syntetiserade bilder, och kommer frÄn tre forskare vid KAIST och tre frÄn NAVER Corp.
Bortom det "billiga tricket"
Bland de tidigare mÀtvÀrdena som den nya tidningen försöker förbÀttra Àr "Truncation-tricket" föreslog i 2019 i ett samarbete mellan Storbritanniens Heriot-Watt University och Googles DeepMind.
Trunkeringstricket anvÀnder i huvudsak en annan latent fördelning för provtagning Àn vad som anvÀndes för att trÀna den generativa modellen.
Forskarna som utvecklade den hÀr metoden var förvÄnade över att den fungerade, men medger i originalartikeln att den minskar mÀngden genererad produktion. Icke desto mindre har trunkeringstricket blivit effektivt och populÀrt, i samband med vad som utan tvekan skulle kunna omskrivas som ett "billigt knep" för att erhÄlla autentiska resultat som inte riktigt assimilerar alla möjligheter som finns i data, och kan liknar kÀlldata mer Àn vad som önskas.
NÀr det gÀller trunkeringstricket observerar den nya tidningens författare:
"[Det] Àr inte avsett att generera sÀllsynta prover i trÀningsdatauppsÀttningar, utan snarare att syntetisera typiska bilder mer stabilt. Vi antar att befintliga generativa modeller kommer att kunna producera prover rikare i den verkliga datadistributionen om generatorn kan induceras att effektivt producera sÀllsynta prover.
Av den allmÀnna tendensen att förlita sig pÄ traditionella mÀtvÀrden som Frechet Inception Distance (FID, som fick hÄrd kritik i december 2021), startpoÀng (IS) och Kernel Inception Distance (KID) som "framstegsindikatorer" under utbildningen av en generativ modell, kommenterar författarna vidare*:
"Det hÀr inlÀrningsschemat leder till att generatorn inte syntetiserar mycket sÀllsynta prover som Àr unika och har starka egenskaper som inte stÄr för en stor del av den verkliga bildfördelningen. Exempel pÄ sÀllsynta prover frÄn offentliga datamÀngder inkluderar personer med olika tillbehör i FFHQ, vita djur i AFHQoch ovanliga statyer i Metfaces.
"FörmÄgan att generera sÀllsynta prover Àr viktig inte bara för att det Àr relaterat till de generativa modellernas kantkapacitet, utan ocksÄ för att unikhet spelar en viktig roll i de kreativa applikationerna som virtuella mÀnniskor.
"Men de kvalitativa resultaten frÄn flera nyare studier innehÄller sÀllan dessa sÀllsynta exempel. Vi gissar att arten av det kontradiktoriska inlÀrningsschemat tvingar genererad bilddistribution liknande den för en trÀningsdatauppsÀttning. SÄledes tar bilder med tydlig individualitet eller sÀllsynthet endast en liten del i bilder som syntetiseras av modellerna.'
Teknik
Forskarnas nya Rarity Score anpassar en idé som presenteras i tidigare fungerar - anvÀndningen av K-nÀrmaste grannar (KNN) för att representera arrayerna av Àkta (trÀnings) och syntetisk (output) data i ett bildsyntessystem.
BetrÀffande denna nya analysmetod hÀvdar författarna:
"Vi antar att vanliga prover skulle vara nÀrmare varandra medan unika och sÀllsynta prover skulle vara sparsamt placerade i funktionsutrymmet."
Resultatbilden ovan visar de minsta nÀrmaste grannavstÄnden (NNDs) över till de största, i en StyleGAN-arkitektur trÀnad pÄ FFHQ.
"För alla datauppsÀttningar visar prover med de minsta NND:erna representativa och typiska bilder. TvÀrtom, proverna med de största NND:erna har stark individualitet och skiljer sig vÀsentligt frÄn de typiska bilderna med de minsta NND:erna.'
I teorin, genom att anvÀnda detta nya mÄtt som en diskriminator, eller Ätminstone inkludera det i en mer komplex diskriminatorarkitektur, skulle ett generativt system kunna styras bort frÄn ren imitation mot en mer uppfinningsrik algoritm, samtidigt som man behÄller vÀsentlig sammanhÄllning av begrepp som kan vara kritiska för autentisk bildproduktion (dvs 'man', 'kvinna', 'bil', 'kyrka', Etc.).
JÀmförelser och experiment
I tester gjorde forskarna en jÀmförelse av Rarity Scores prestanda mot bÄde Truncation Trick och NVIDIAs 2019 Realism poÀng, och fann att över en mÀngd olika ramverk och datauppsÀttningar kan tillvÀgagÄngssÀttet individualisera "unika" resultat.
Ăven om resultaten som presenteras i artikeln Ă€r för omfattande för att inkludera hĂ€r, verkar forskarna ha visat förmĂ„gan hos den nya metoden att identifiera sĂ€llsynthet i bĂ„de kĂ€lla (verkliga) och genererade (falska) bilder i en generativ procedur:

VÀlj exempel frÄn de omfattande visuella resultaten som Äterges i tidningen (se kÀllans URL ovan för mer information). Till vÀnster, Àkta exempel frÄn FFHQ som har vÀldigt fÄ nÀra grannar (dvs. Àr nya och ovanliga) i den ursprungliga datamÀngden; till höger, falska bilder genererade av StyleGAN, som den nya metriken har identifierat som verkligt ny. Eftersom det finns begrÀnsningar för bildstorlek i den hÀr artikeln, se kÀlldokumentet för bÀttre detaljer och upplösning.
Det nya mÄttvÀrdet Rarity Score tillÄter inte bara möjligheten att identifiera "nya" generativa utdata i en enda arkitektur, utan Àven, hÀvdar forskarna, möjliggör jÀmförelser mellan generativa modeller av olika och varierande arkitekturer (t.ex. autoencoder, VAE, GAN, etc. ).
Artikeln noterar att Rarity Score skiljer sig frÄn tidigare mÀtvÀrden genom att koncentrera sig pÄ ett generativt ramverks förmÄga att skapa unika och sÀllsynta bilder, i motsats till "traditionella" mÀtvÀrden, som undersöker (ganska mer nÀrsynt) mÄngfalden mellan generationer under trÀningen av modellen.
Bortom begrÀnsade uppgifter
Ăven om den nya artikelns forskare har genomfört tester pĂ„ ramverk med begrĂ€nsade domĂ€ner (sĂ„som kombinationer av generator/dataset utformade för att specifikt producera bilder av mĂ€nniskor eller av katter, till exempel), kan sĂ€llsynthetspoĂ€ngen potentiellt tillĂ€mpas pĂ„ alla godtyckliga bildsyntesförfaranden dĂ€r det Ă€r önskvĂ€rt att identifiera genererade exempel som anvĂ€nder distributionerna som hĂ€rrör frĂ„n den trĂ€nade datan, istĂ€llet för att öka Ă€ktheten (och minska diversiteten) genom att lĂ€gga in frĂ€mmande latenta distributioner, eller förlita sig pĂ„ andra "genvĂ€gar" som Ă€ventyrar nyhet till förmĂ„n för autenticitet.
I sjÀlva verket skulle ett sÄdant mÄtt potentiellt kunna sÀrskilja verkligt nya utdatainstanser i system som DALL-E-serien, genom att anvÀnda identifierat avstÄnd mellan ett uppenbart "outlier"-resultat, trÀningsdata och resultat frÄn liknande uppmaningar eller ingÄngar (dvs. bild -baserade uppmaningar).
I praktiken, och i avsaknad av en tydlig förstĂ„else av i vilken utstrĂ€ckning systemet verkligen har assimilerat visuella och semantiska begrepp (ofta hindrat av begrĂ€nsad kunskap om trĂ€ningsdata), kan detta vara en gĂ„ngbar metod för att identifiera ett genuint ögonblick av inspirationâ i ett generativt system â punkten dĂ€r ett tillrĂ€ckligt antal indatakoncept och data har resulterat i nĂ„got verkligt uppfinningsrikt, istĂ€llet för nĂ„got alltför hĂ€rlett eller nĂ€ra kĂ€lldata.
* Mina omvandlingar av författarnas inline-citat till hyperlÀnkar.
Första gÄngen publicerad 20 juni 2022.