Connect with us

Billede-syntese-sektoren har antaget en fejlbehæftet metode, ifølge forskning

Kunstig intelligens

Billede-syntese-sektoren har antaget en fejlbehæftet metode, ifølge forskning

mm

2021 har været et år med uhørt fremgang og en hektisk publikationsfrekvens i billedsyntese-sektoren, der har budt på en strøm af nye innovationer og forbedringer i teknologier, der kan reproducere menneskelige personligheder gennem neural rendering, deepfakes og en række nye tilgange.

Men forskere fra Tyskland påstår nu, at standarden, der bruges til at automatisk bedømme billedernes realisme, er dødeligt fejlbehæftet, og at de hundredvis, ja endda tusindvis af forskere verden over, der afhænger af den for at reducere omkostningerne ved dyre menneskebaserede resultatevalueringer, måske er på vej ned ad en blind alley.

For at demonstrere, hvordan standarden, Fréchet Inception Distance (FID), ikke måler op til menneskelige standarder for at evaluere billeder, udrustede forskerne deres egne GANs, optimeret til FID (nu en almindelig metode). De fandt, at FID følger sine egne besættelser, baseret på underliggende kode med en meget anderledes opgave end billedsyntese, og at det rutinemæssigt ikke opnår en ‘menneskelig’ standard for diskrimination:

FID-scores (lavere er bedre) for billeder genereret af forskellige modeller ved hjælp af standarddatasets og arkitekturer. Forskerne bag den nye artikel stiller spørgsmålet 'Ville du være enig i disse rangeringer?'. Kilde: https://openreview.net/pdf?id=mLG96UpmbYz

FID-scores (lavere er bedre) for billeder genereret af forskellige modeller ved hjælp af standarddatasets og arkitekturer. Forskerne bag den nye artikel stiller spørgsmålet ‘Ville du være enig i disse rangeringer?’. Kilde: https://openreview.net/pdf?id=mLG96UpmbYz

Ud over påstanden om, at FID ikke er egnede til sin tilsigtede opgave, foreslår artiklen yderligere, at ‘åbenlyse’ løsninger, såsom at skifte ud det interne motor for konkurrerende motorer, blot vil udskifte én sæt af fordomme med et andet. Forfatterne foreslår, at det nu er op til nye forskningsinitiativer at udvikle bedre metoder til at vurdere ‘ægthed’ i syntetisk genererede billeder.

Artiklen paper hedder Internaliserede fordomme i Fréchet Inception Distance og kommer fra Steffen Jung ved Max Planck Institute for Informatics at Saarland, og Margret Keuper, professor for Visual Computing ved University of Siegen.

Søgen efter et scoresystem for billedsyntese

Som den nye forskning bemærker, har fremgangen i billedsyntese-rammer, såsom GANs og encoder/decoder-arkitekturer, overhalet metoderne til at bedømme resultaterne af disse systemer. Ud over at være dyre og derfor vanskelige at skala, tilbyder menneskebaseret evaluering af output fra disse systemer ikke en empirisk og reproducerbar metode til vurdering.

Derfor er en række metrik-rammer dukket op, herunder Inception Score (IS), der er beskrevet i 2016 artiklen Improved Techniques for Training GANs, co-forfattet af GAN opfinder, Ian Goodfellow.

Diskrediteringen af IS-scoren som en bredt anvendelig metode til multiple GAN-netværk i 2018 ledte til den bredt anvendte FID i GAN billedsyntese-fællesskabet. Men ligesom Inception Score er FID baseret på Google’s Inception v3 billedklassifikationsnetværk (IV3).

Forfatterne af den nye artikel påstår, at Fréchet Inception Distance forplante skadelige fordomme i IV3, hvilket fører til utroværdig klassificering af billedkvalitet.

Da FID kan integreres i et maskinelæring-rammeværk som en diskriminator (en indbygget ‘dommer’, der afgør, om GAN er godt eller skal ‘prøve igen’), skal den nøjagtigt repræsentere standarderne, som et menneske ville anvende, når de vurderer billeder.

Fréchet Inception Distance

FID sammenligner, hvordan funktioner er fordelt over træningsdatasettet, der bruges til at oprette en GAN (eller lignende funktionalitet) model, og resultaterne af dette system.

Derfor, hvis en GAN-ramme er trænet på 10.000 billeder af (for eksempel) berømtheder, sammenligner FID de originale (ægte) billeder med de falske billeder, der er produceret af GAN’en. Jo lavere FID-scoren er, jo tættere er GAN’en kommet på ‘fotorealistiske’ billeder, ifølge FID’s kriterier.

Fra artiklen, resultater af en GAN trænet på FFHQ64, en undermængde af NVIDIA's meget populære FFHQ-dataset. Her, selvom FID-scoren er en dejlig lav 5,38, er resultaterne ikke tilfredsstillende eller overbevisende for den gennemsnitlige menneske.

Fra artiklen, resultater af en GAN trænet på FFHQ64, en undermængde af NVIDIA’s meget populære FFHQ-dataset. Her, selvom FID-scoren er en dejlig lav 5,38, er resultaterne ikke tilfredsstillende eller overbevisende for den gennemsnitlige menneske.

Problemet, som forfatterne påstår, er, at Inception v3, hvis antagelser driver Fréchet Inception Distance, ikke kigger i de rigtige steder – i hvert fald ikke, når det drejer sig om opgaven i sig.

Inception V3 er trænet på ImageNet objektgenkendelsesudfordring, en opgave, der kan siges at være i modsætning til, hvordan billedsyntesens mål har udviklet sig i de seneste år. IV3 udfordrer robustheden af en model ved at udføre dataforstærkning: det flipper billeder tilfældigt, beskærer dem til en tilfældig skala mellem 8-100%, ændrer aspektforholdet (i et område mellem 3/4 til 4/3) og tilfældigt indsprøjter farveforstyrrelser relateret til lysstyrke, mætning og kontrast.

Tysklandsbaserede forskere har fundet, at IV3 har en tendens til at favorisere udtrækning af kanter og teksturer frem for farve- og intensitetsinformation, hvilket ville være mere meningsfulde indeks for ægthed af syntetiske billeder, og at dens oprindelige formål med objektgenkendelse derfor er blevet inddraget i en upassende opgave. Forfatterne påstår*:

‘[Inception v3] har en fordom til at trække funktioner baseret på kanter og teksturer frem for farve- og intensitetsinformation. Dette stemmer overens med dens forstærkningsrørledning, der introducerer farveforstyrrelser, men holder højfrekvent information intakt (i modsætning til, for eksempel, forstærkning med Gaussisk blur).

‘Følgelig arver FID denne fordom. Når det bruges som rangeringsmetode, kan generative modeller, der reproducerer teksturer godt, blive foretrukket over modeller, der reproducerer farvefordelinger godt. ‘

Data og metode

For at teste deres hypotese trænede forfatterne to GAN-arkitekturer, DCGAN og SNGAN, på NVIDIA’s FFHQ-menneskeansigtsdataset, nedskaleret til 642 billedopløsning, med det afledte dataset kaldet FFHQ64.

Tre GAN-træningsprocedurer blev gennemført: GAN G+D, en standard diskriminatorbaseret netværk; GAN FID|G+D, hvor FID fungerer som en ekstra diskriminator; og GAN FID|G, hvor GAN’en er fuldstændigt drevet af den rullende FID-score.

Teknisk set bør FID-tab burde stabilisere træningen og potentielt endda kunne fuldstændigt erstatte diskriminatoren (som det gør i #3, GAN FID|G), mens det producerer menneskevenlige resultater.

I praksis er resultaterne dog anderledes, med – forfatterne formoder – FID-assisterede modeller ‘overfitting’ på de forkerte metrikker. Forskerne bemærker:

‘Vi formoder, at generatoren lærer at producere upassende funktioner for at matche træningsdatafordelingen. Denne observation bliver mere alvorlig i tilfældet af [GAN FID|G] . Her bemærker vi, at den manglende diskriminator fører til rumligt inkohærente funktionfordelinger. For eksempel [SNGAN FID|G] tilføjer primært enkelt øjne og alignerer ansigtstræk på en skræmmende måde.’

Eksempler på ansigter produceret af SNGAN FID|G.

Eksempler på ansigter produceret af SNGAN FID|G.

Forfatterne konkluderer*:

‘Medens menneskelige annotatorer sandsynligvis ville foretrække billeder produceret af SNGAN D+G over SNGAN FID|G (i tilfælde, hvor datafidelitet er foretrukket over kunst), ser vi, at dette ikke afspejles af FID. FID er ikke aligneret med menneskelig perception.

‘Vi argumenterer for, at diskriminative funktioner leveret af billedklassifikationsnetværk ikke er tilstrækkelige til at give grundlag for en meningsfuld metode.’

Ingen lette alternativer

Forfatterne fandt også, at udskiftning af Inception V3 med en lignende motor ikke lettet problemet. Ved at erstatte IV3 med ‘en omfattende valg af forskellige klassifikationsnetværk’, der blev testet mod ImageNet-C (en undermængde af ImageNet designet til at benchmark almindeligt genererede korruptioner og perturbationer i outputbilleder fra billedsyntese-rammer), kunne forskerne ikke væsentligt forbedre deres resultater:

[Forudindtagelser] i Inception v3 er også bredt til stede i andre klassifikationsnetværk. Derudover ser vi, at forskellige netværk ville producere forskellige rangeringer mellem korruptions typer.’

Forfatterne konkluderer artiklen med håbet om, at pågående forskning vil udvikle en ‘menneskealigneret og upartisk metode’ i stand til at muliggøre en fairere rang for billedgenerator-arkitekturer.

 

* Forfatterens betoning.

Offentliggjort første gang 2. december 2021, 13.00 GMT+2.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.