Kunstig intelligens
Hvordan vite når bildesyntesesystemer produserer genuint "originalt" materiale

En ny studie fra Sør-Korea har foreslått en metode for å avgjøre om bildesyntesesystemer produserer genuint nye bilder, eller "mindre" varianter av treningsdataene, og potensielt beseirer målet med slike arkitekturer (som produksjon av nye og originale bilder) .
Svært ofte, antyder avisen, er sistnevnte sant, fordi de eksisterende beregningene som slike systemer bruker for å forbedre sin generative kapasitet i løpet av opplæringen, blir tvunget til å favorisere bilder som er relativt nære (ikke-falske) kildebildene i datasettet .
Tross alt, hvis et generert bilde er "visuelt nært" kildedataene, er det uunngåelig sannsynlig å score bedre for "ekthet" enn "originalitet", siden det er "trofast" - hvis det ikke er inspirert.
I en sektor som er for begynnende og uprøvd til at dens juridiske konsekvenser ennå er kjent, kan dette vise seg å være et viktig juridisk spørsmål, hvis det viser seg at kommersialisert syntetisk bildeinnhold ikke skiller seg nok fra det (ofte) opphavsrettsbeskyttede kildematerialet som for øyeblikket er tillatt å perfuse forskningssektoren i form av populære nettskrapte datasett (potensialet for fremtidige krenkelseskrav av denne typen har blitt fremtredende ganske nylig i forhold til Microsofts GitHub Co-Pilot AI).
Når det gjelder den stadig mer sammenhengende og semantisk robuste produksjonen fra systemer som OpenAI DALL-E2, Googles Bilde, og Kinas CogView utgivelser (så vel som de lavere spesifiserte dall-e mini), er det svært få post fact måter å pålitelig teste for originaliteten til et generert bilde.
Faktisk vil søk etter noen av de mest populære av de nye DALL-E 2-bildene ofte bare føre til flere tilfeller av de samme bildene, avhengig av søkemotoren.

Opplasting av en komplett DALL-E 9-utgangsgruppe med 2 bilder fører bare til flere DALL-E 2-utdatagrupper, fordi rutenettstrukturen er den sterkeste funksjonen. Separering og opplasting av det første bildet (fra dette Twitter-innlegget av 8. juni 2022, fra 'Weird Dall-E Generations'-kontoen) får Google til å fiksere på basketballen på bildet, og tar det bildebaserte søket nedover en semantisk blindgate. For det samme bildebaserte søket ser det ut til at Yandex i det minste utfører noen faktisk pikselbasert dekonstruksjon og funksjonsmatching.
Selv om Yandex er mer sannsynlig enn Google Søk til å bruke den faktiske egenskaper (dvs. et bilde er utledet/kalkulert egenskaper, ikke nødvendigvis ansiktstrekk hos mennesker) og visuell (i stedet for semantiske) egenskaper ved et innsendt bilde for å finne lignende bilder, har alle bildebaserte søkemotorer enten en slags agenda eller praksis som kan gjøre det vanskelig å identifisere forekomster av kilde>generert plagiering via nettsøk.
I tillegg kan det hende at treningsdataene for en generativ modell ikke er offentlig tilgjengelig i sin helhet, noe som hindrer rettsmedisinske undersøkelser av originaliteten til genererte bilder.
Interessant nok, å utføre et bildebasert nettsøk på et av de syntetiske bildene som vises av Google på sin dedikert Imagen-side finner absolutt ingenting som kan sammenlignes med bildets motiv, når det gjelder å faktisk se på bildet og upartisk søke lignende bilder. Snarere, semantisk fiksert som alltid, vil ikke Googles bildesøkeresultater for dette Imagen-bildet tillate et rent bildebasert nettsøk av bildet uten å legge til søkeordet "imagen google" som en ekstra (og begrensende) parameter:
Yandex, omvendt, finner en mengde lignende (eller i det minste visuelt relaterte) bilder fra det kunstneriske amatørmiljøet:
Generelt ville det være bedre om nyheten eller originaliteten til produksjonen av bildesyntesesystemer på en eller annen måte kunne måles, uten å måtte trekke ut funksjoner fra alle mulige nettvendte bilder på internett på det tidspunktet modellen ble opplært, eller i ikke-offentlige datasett som kan bruke opphavsrettsbeskyttet materiale.
Relatert til dette problemet har forskere fra Kim Jaechul Graduate School of AI ved Korea Advanced Institute of Science and Technology (KAIST AI) samarbeidet med det globale IKT- og søkeselskapet NAVER Corp for å utvikle en Sjeldenhetspoeng som kan bidra til å identifisere de mer originale kreasjonene av bildesyntesesystemer.

Bilder her er generert via StyleGAN-FFHQ. Fra venstre til høyre viser kolonnene dårligst til best resultat. Vi kan se at "Truncation trick"-metrikken (se nedenfor) og Realism-metriken har sine egne agendaer, mens den nye "Rarity"-poengsummen (øverste rad) søker etter sammenhengende, men originale bilder (i stedet for bare sammenhengende bilder). Siden det er begrensninger for bildestørrelse i denne artikkelen, se kildeartikkelen for bedre detaljer og oppløsning. Kilde: https://arxiv.org/pdf/2206.08549.pdf
Den nye papir har tittelen Rarity Score: En ny beregning for å evaluere uvanligheten av syntetiserte bilder, og kommer fra tre forskere ved KAIST, og tre fra NAVER Corp.
Utover "Billig triks"
Blant de tidligere beregningene som det nye papiret forsøker å forbedre er "Trunkeringstrikset" foreslått i 2019 i et samarbeid mellom Storbritannias Heriot-Watt University og Googles DeepMind.
Trunkeringstrikset bruker i hovedsak en annen latent fordeling for prøvetaking enn det som ble brukt til å trene den generative modellen.
Forskerne som utviklet denne metoden var overrasket over at den fungerte, men innrømmer i den originale artikkelen at den reduserer variasjonen av generert produksjon. Ikke desto mindre har trunkeringstrikset blitt effektivt og populært, i sammenheng med det som uten tvil kan omskrives som et "billig triks" for å oppnå autentisk utseende resultater som egentlig ikke assimilerer alle mulighetene som ligger i dataene, og kan ligner kildedataene mer enn ønsket.
Når det gjelder trunkeringstrikset, observerer forfatterne av det nye papiret:
«[Det] er ikke ment å generere sjeldne prøver i treningsdatasett, men snarere å syntetisere typiske bilder mer stabilt. Vi antar at eksisterende generative modeller vil være i stand til å produsere prøver rikere i den reelle datadistribusjonen hvis generatoren kan induseres til å effektivt produsere sjeldne prøver.'
Av den generelle tendensen til å stole på tradisjonelle beregninger som Frechet Inception Distance (FID, som kom under intens kritikk i desember 2021), inception score (IS) og Kernel Inception Distance (KID) som "fremdriftsindikatorer" under opplæringen av en generativ modell, kommenterer forfatterne videre*:
«Dette læringsskjemaet fører til at generatoren ikke syntetiserer mye sjeldne prøver som er unike og har sterke egenskaper som ikke står for en stor andel av den virkelige bildedistribusjonen. Eksempler på sjeldne prøver fra offentlige datasett inkluderer personer med ulike tilbehør i FFHQ, hvite dyr i AFHQog uvanlige statuer i Metfaces.
"Evnen til å generere sjeldne prøver er viktig ikke bare fordi det er relatert til de generative modellenes kantevne, men også fordi unikhet spiller en viktig rolle i de kreative applikasjonene som virtuelle mennesker.
«De kvalitative resultatene fra flere nyere studier inneholder imidlertid sjelden disse sjeldne eksemplene. Vi antar at arten av det kontradiktoriske læringsopplegget tvinger generert bildedistribusjon som ligner på et treningsdatasett. Derfor tar bilder med tydelig individualitet eller sjeldenhet bare en liten del i bilder syntetisert av modellene.'
Teknikk
Forskernes nye Rarity Score tilpasser en idé presentert i tidligere virker - bruken av K-nærmeste naboer (KNN-er) for å representere matrisene av ekte (trenings) og syntetiske (utdata) data i et bildesyntesesystem.
Når det gjelder denne nye analysemetoden, hevder forfatterne:
"Vi antar at vanlige prøver vil være nærmere hverandre, mens unike og sjeldne prøver vil være tynt plassert i funksjonsrommet."
Resultatbildet ovenfor viser de minste nærmeste naboavstandene (NNDs) over til de største, i en StyleGAN-arkitektur trent på FFHQ.
«For alle datasett viser prøver med de minste NND-ene representative og typiske bilder. Tvert imot har prøvene med de største NNDene sterk individualitet og er vesentlig forskjellige fra de typiske bildene med de minste NNDene.'
I teorien, ved å bruke denne nye metrikken som en diskriminator, eller i det minste inkludere den i en mer kompleks diskriminatorarkitektur, kan et generativt system styres bort fra ren imitasjon mot en mer oppfinnsom algoritme, samtidig som man beholder essensiell sammenheng av konsepter som kan være kritiske. for autentisk bildeproduksjon (dvs 'Mann', 'kvinne', 'bil', 'kirke', Osv.).
Sammenligninger og eksperimenter
I tester gjennomførte forskerne en sammenligning av Rarity Scores ytelse mot både Truncation Trick og NVIDIAs 2019 Realismescore, og fant at på tvers av en rekke rammeverk og datasett, er tilnærmingen i stand til å individualisere 'unike' resultater.
Selv om resultatene i artikkelen er for omfattende til å inkludere her, ser forskerne ut til å ha demonstrert evnen til den nye metoden til å identifisere sjeldenhet i både kilde (ekte) og genererte (falske) bilder i en generativ prosedyre:

Velg eksempler fra de omfattende visuelle resultatene som er gjengitt i avisen (se kildenettadressen ovenfor for flere detaljer). Til venstre, ekte eksempler fra FFHQ som har svært få nære naboer (dvs. er nye og uvanlige) i det originale datasettet; til høyre, falske bilder generert av StyleGAN, som den nye metrikken har identifisert som virkelig nye. Siden det er begrensninger for bildestørrelse i denne artikkelen, se kildeartikkelen for bedre detaljer og oppløsning.
Den nye Rarity Score-metriken åpner ikke bare for muligheten for å identifisere "nye" generative utdata i en enkelt arkitektur, men tillater også, hevder forskerne, sammenligninger mellom generative modeller av forskjellige og varierende arkitekturer (dvs. autoencoder, VAE, GAN, etc. ).
Artikkelen bemerker at Rarity Score skiller seg fra tidligere beregninger ved å konsentrere seg om et generativt rammeverks evne til å lage unike og sjeldne bilder, i motsetning til "tradisjonelle" beregninger, som undersøker (ganske mer nærsynt) mangfoldet mellom generasjoner under opplæringen av modellen.
Utover begrensede oppgaver
Selv om den nye artikkelens forskere har utført tester på rammeverk med begrenset domene (som generator/datasett-kombinasjoner designet for å spesifikt produsere bilder av mennesker eller katter, for eksempel), kan Rarity Score potensielt brukes til enhver vilkårlig bildesynteseprosedyre der det er ønskelig å identifisere genererte eksempler som bruker distribusjonene hentet fra de trente dataene, i stedet for å øke autentisiteten (og redusere mangfoldet) ved å sette inn utenlandske latente distribusjoner, eller stole på andre "snarveier" som kompromitterer nyhet til fordel for autentisitet.
Faktisk kan en slik beregning potensielt skille virkelig nye utdataforekomster i systemer som DALL-E-serien, ved å bruke identifisert avstand mellom et tilsynelatende "outlier"-resultat, treningsdataene og resultater fra lignende meldinger eller innganger (dvs. bilde -baserte spørsmål).
I praksis, og i fravær av en klar forståelse av i hvilken grad systemet virkelig har assimilert visuelle og semantiske konsepter (ofte hindret av begrenset kunnskap om treningsdataene), kan dette være en levedyktig metode for å identifisere et ekte øyeblikk av inspirasjon' i et generativt system – punktet der et tilstrekkelig antall inndatakonsepter og data har resultert i noe genuint oppfinnsomt, i stedet for noe altfor avledet eller nær kildedataene.
* Mine konverteringer av forfatternes innebygde sitater til hyperkoblinger.
Først publisert 20. juni 2022.