Connect with us

Artificiell intelligens

Bildsyntessectorn Har Antagit en Felaktig MÀtmetod, Forskning PÄstÄr

mm

2021 har varit ett år av utan motstycke framsteg och en febril publiceringshastighet i bildsyntessectorn, och erbjuder en ström av nya innovationer och förbättringar i teknologier som kan reproducera mänskliga personligheter genom neural rendering, deepfakes och en mängd nya tillvägagångssätt.

Men forskare från Tyskland hävdar nu att den standard som används för att automatiskt bedöma realismen i syntetiska bilder är dödligt felaktig; och att de hundratals, ja tusentals forskare runt om i världen som förlitar sig på den för att minska kostnaderna för dyra människobaserade resultatevalueringsmetoder kanske är på väg ner i en återvändsgränd.

För att demonstrera hur standarden, Fréchet Inception Distance (FID), inte lever upp till mänskliga standarder för att utvärdera bilder, distribuerade forskarna sina egna GANs, optimerade för FID (nu en vanlig mätmetod). De fann att FID följer sina egna besattheter, baserat på underliggande kod med ett helt annat syfte än bildsyntes, och att det rutinmässigt misslyckas med att uppnå en “mänsklig” standard för diskriminering:

FID-poÀng (lÀgre Àr bÀttre) för bilder genererade av olika modeller med hjÀlp av standarddataset och arkitekturer. Forskarna bakom den nya artikeln stÀller frÄgan 'Skulle du hÄlla med om dessa rankningar?'. KÀlla: https://openreview.net/pdf?id=mLG96UpmbYz

FID-poäng (lägre är bättre) för bilder genererade av olika modeller med hjälp av standarddataset och arkitekturer. Forskarna bakom den nya artikeln ställer frågan ‘Skulle du hålla med om dessa rankningar?’. Källa: https://openreview.net/pdf?id=mLG96UpmbYz

Utöver påståendet att FID inte är lämplig för sitt avsedda syfte, föreslår artikeln vidare att “uppenbara” lösningar, såsom att byta ut dess interna motor mot konkurrerande motorer, bara kommer att byta ut en uppsättning fördomar mot en annan. Författarna föreslår att det nu åligger nya forskningsinitiativ att utveckla bättre mätmetoder för att bedöma “autenticitet” i syntetiskt genererade foton.

Artikeln heter Internaliserade fördomar i Fréchet Inception Distance, och kommer från Steffen Jung vid Max Planck-institutet för datalogi vid Saarland, och Margret Keuper, professor i visuell datalogi vid universitetet i Siegen.

Sökandet efter ett poängsystem för bildsyntes

Som den nya forskningen påpekar, har framstegen inom bildsyntesramverk, såsom GANs och encoder/decoder-arkitekturer, överträffat metoderna för att bedöma resultaten från sådana system. Utöver att vara dyra och därmed svåra att skala, erbjuder den mänskliga utvärderingen av utdata från dessa system inte en empirisk och reproducerbar metod för bedömning.

Därför har ett antal mätmetodiska ramverk dykt upp, inklusive Inception Score (IS), som presenterades i 2016 års artikel Förbättrade tekniker för att träna GANs, skriven av GAN-uppfinnaren Ian Goodfellow.

Diskrediteringen av IS-poängen som en allmänt tillämplig mätmetod för flera GAN-nätverk 2018 ledde till den allmänna acceptansen av FID i GAN-bildsyntesgemenskapen. Men, liksom Inception Score, är FID baserat på Googles Inception v3-bildklassificeringsnätverk (IV3).

Författarna till den nya artikeln hävdar att Fréchet Inception Distance sprider skadliga fördomar i IV3, vilket leder till en opålitlig klassificering av bildkvalitet.

Eftersom FID kan införlivas i ett maskinlärningsramverk som en diskriminatör (en inbyggd “domare” som bestämmer om GAN fungerar bra eller bör “försöka igen”), måste den exakt representera de standarder som en människa skulle tillämpa när de utvärderar bilderna.

Fréchet Inception Distance

FID jämför hur funktioner fördelas över träningsdatasetet som används för att skapa en GAN-modell (eller liknande funktionalitet), och resultaten från det systemet.

Alltså, om en GAN-ramverk tränas på 10 000 bilder av (till exempel) kändisar, jämför FID de ursprungliga (verkliga) bilderna med de falska bilderna som genereras av GAN. Ju lägre FID-poäng, desto närmare har GAN kommit till “fotorealistiska” bilder, enligt FID-kriterierna.

FrÄn artikeln, resultat av en GAN som trÀnats pÄ FFHQ64, en undermÀngd av NVIDIAs mycket populÀra FFHQ-dataset. HÀr, trots att FID-poÀngen Àr en underbar lÄg 5,38, Àr resultaten inte tilltalande eller övertygande för en genomsnittlig mÀnniska.

Från artikeln, resultat av en GAN som tränats på FFHQ64, en undermängd av NVIDIAs mycket populära FFHQ-dataset. Här, trots att FID-poängen är en underbar låg 5,38, är resultaten inte tilltalande eller övertygande för en genomsnittlig människa.

Problemet, hävdar författarna, är att Inception v3, vars antaganden driver Fréchet Inception Distance, inte tittar på rätt platser – åtminstone inte när det gäller uppgiften i fråga.

Inception V3 är tränad på ImageNet-objekttigenkänningsutmaningen, en uppgift som är väsentligen i konflikt med hur bildsyntesmålen har utvecklats under de senaste åren. IV3 utmanar modellens robusthet genom att utföra dataförstärkning: den vrider bilderna slumpmässigt, beskär dem till en slumpmässig skala mellan 8-100%, ändrar bildförhållandet (i ett intervall från 3/4 till 4/3) och injicerar slumpmässiga färgförvrängningar relaterade till ljusstyrka, mättnad och kontrast.

Tysklandsbaserade forskare har funnit att IV3 har en tendens att föredra extrahering av kanter och texturer, snarare än färg- och intensitetsinformation, som skulle vara mer meningsfulla index för autenticitet för syntetiska bilder; och att dess ursprungliga syfte med objekttigenkänning har därför olämpligt övertagits för en olämplig uppgift. Författarna påstår*:

‘[Inception v3] har en fördom mot att extrahera funktioner baserat på kanter och texturer snarare än färg- och intensitetsinformation. Detta överensstämmer med dess förstärkningspipeline som introducerar färgförvrängningar, men behåller högfrekvensinformation intakt (till skillnad från, till exempel, förstärkning med Gaussisk oskärpa).

‘Följaktligen ärver FID denna fördom. När den används som rangordningsmätmetod, kan generativa modeller som reproducerar texturer väl föredras framför modeller som reproducerar färgfördelningar väl.’

Data och metod

För att testa sin hypotes, tränade författarna två GAN-arkitekturer, DCGAN och SNGAN, på NVIDIAs FFHQ-mänskligt ansiktsdataset, nedskalat till 642 bildupplösning, med det resulterande datasetet kallat FFHQ64.

Tre GAN-träningsförfaranden utfördes: GAN G+D, ett standard- diskriminatormodell; GAN FID|G+D, där FID fungerar som en ytterligare diskriminatör; och GAN FID|G, där GAN helt och hållet drivs av den rullande FID-poängen.

Tekniskt sett, noterar författarna, bör FID-förlust stabilisera träningsprocessen och potentiellt till och med kunna ersätta diskriminatoren (som den gör i #3, GAN FID|G), samtidigt som den producerar mänskligt tilltalande resultat.

I praktiken är resultaten ganska annorlunda, med – författarna hypotes – FID-assisterade modeller som “överanpassar” på fel mätmetoder. Forskarna noterar:

‘Vi hypoteserar att generatoren lär sig att producera olämpliga funktioner för att matcha träningsdatadistributionen. Detta observation blir mer allvarlig i fallet med [GAN FID|G] . Här märker vi att den saknade diskriminatoren leder till rumsligt inkonsekventa funktionella distributioner. Till exempel [SNGAN FID|G] lägger till mestadels enstaka ögon och justerar ansiktsdrag på ett skrämmande sätt.’

Exempel pÄ ansikten producerade av SNGAN FID|G.

Exempel på ansikten producerade av SNGAN FID|G.

Författarna drar slutsatsen*:

‘Medan mänskliga annotatorer säkert skulle föredra bilder producerade av SNGAN D+G över SNGAN FID|G (i fall där datafidelitet föredras framför konst), ser vi att detta inte återspeglas av FID. FID är alltså inte anpassad till mänsklig perception.

‘Vi hävdar att diskriminativa funktioner som tillhandahålls av bildklassificeringsnätverk inte är tillräckliga för att ge grunden för en meningsfull mätmetod.’

Inga lätta alternativ

Författarna fann också att att byta ut Inception V3 mot en liknande motor inte löste problemet. Genom att ersätta IV3 med “ett omfattande urval av olika klassificeringsnätverk”, som testades mot ImageNet-C (en undermängd av ImageNet utformad för att utvärdera vanligt genererade korruptioner och störningar i utdata från bildsyntesramverk), kunde forskarna inte väsentligt förbättra sina resultat:

[Fördomar] som finns i Inception v3 finns också i stor utsträckning i andra klassificeringsnätverk. Dessutom ser vi att olika nätverk skulle producera olika rankningar mellan korruptionstyper.’

Författarna avslutar artikeln med förhoppningen att pågående forskning kommer att utveckla en “mänskligt anpassad och obiased mätmetod” som kan möjliggöra en rättvisare rankning för bildgeneratorarkitekturer.

 

* Författarnas betoning.

Publicerad första gången 2:a december 2021, 13.00 GMT+2.

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.