Andersons vinkel

Djupinlärningsmodeller kan ha svårt att känna igen AI-genererade bilder

Publicerad 1 september 2022

Uppdaterad 23 maj 2026

Martin Anderson

Fynd från en ny artikel indikerar att state-of-the-art-AI är betydligt mindre kapabel att känna igen och tolka AI-syntetiserade bilder än människor, vilket kan vara ett problem i en kommande klimat där maskinlärningsmodeller alltmer tränas på syntetiska data, och där det inte nödvändigtvis kommer att vara känt om datan är “verklig” eller inte.

Här ser vi resnext101_32x8d_wsl-prediktionsmodellen kämpa i ‘bagel’-kategorin. I testerna ansågs en igenkänningsfel ha inträffat om det centrala målordet (i det här fallet ‘bagel’) inte var med i de fem bästa förutsagda resultaten. Källa: https://arxiv.org/pdf/2208.10760.pdf

Den nya forskningen testade två kategorier av datorseende-baserade igenkänningsramverk: objektigenkänning och visuell frågebesvarande (VQA).

Till vänster, lyckade och misslyckade inferenser från ett objektigenkänningsystem; till höger, VQA-uppgifter utformade för att undersöka AI-förståelse av scener och bilder på ett mer utforskande och betydelsefullt sätt. Källor: https://arxiv.org/pdf/2105.05312.pdf och https://arxiv.org/pdf/1505.00468.pdf

Av de tio state-of-the-art-modellerna som testades på curerade dataset genererade av bildsyntesramverken DALL-E 2 och Midjourney, var den bäst presterande modellen i stånd till att uppnå endast 60% och 80% topp-5-noggrannhet över de två testtyperna, medan ImageNet, som tränats på icke-syntetiska, verkliga data, kan uppnå 91% respektive 99% i samma kategorier, medan människors prestation vanligtvis är betydligt högre.

Med avseende på problem kring distributionsförskjutning (även kallat “Modelldrift”, där förutsägelsemodeller upplever minskad prediktiv kapacitet när de flyttas från träningsdata till “verkliga” data), skriver artikeln:

‘Människor kan känna igen de genererade bilderna och svara på frågor om dem lätt. Vi drar slutsatsen att a) djupa modeller har svårt att förstå det genererade innehållet, och kan göra bättre efter finjustering, och b) det finns en stor distributionsförskjutning mellan de genererade bilderna och de verkliga fotografierna. Distributionsförskjutningen verkar vara kategoriberoende.’

Med tanke på den volym av syntetiska bilder som redan översvämmar internet i kölvattnet av förra veckans öppen källkodspublicering av den kraftfulla Stable Diffusion-latent diffusionsyntesmodellen, uppstår möjligheten naturligt att när “falska” bilder flödar in i branschstandarddataset som Common Crawl, kan variationer i noggrannhet över åren påverkas av “overkliga” bilder.

Även om syntetisk data har hyllats som den potentiella räddaren av datorseende-forskningssektorn, som ofta lider av brist på resurser och budgetar för hyperskale-curation, är den nya strömmen av Stable Diffusion-bilder (samt den allmänna ökningen av syntetiska bilder sedan framkomsten och kommersialiseringen av DALL-E 2) osannolikt att alla komma med användbara etiketter, annoteringar och hashtaggar som skiljer dem som “falska” vid den tidpunkt då giriga maskinseendesystem skrapar dem från internet.

Hastigheten i utvecklingen av öppen källkods-bildsyntesramverk har märkbart överträffat vår förmåga att kategorisera bilder från dessa system, vilket lett till ett ökat intresse för “falsk bild”-detekteringssystem, liknande deepfake-detekteringssystem, men med uppgiften att utvärdera hela bilder snarare än delar av ansikten.

Den nya artikeln heter How good are deep models in understanding the generated images och kommer från Ali Borji på San Francisco-maskinlärningsstartuppen Quintic AI.

Data

Studien föregick Stable Diffusion-utgåvan, och experimenten använder data genererad av DALL-E 2 och Midjourney över 17 kategorier, inklusive elefant, svamp, pizza, pretzel, tractor och kanin.

Exempel på de bilder som de testade igenkännings- och VQA-systemen utmanades att identifiera den viktigaste nyckelkonceptet.

Bilderna erhölls via webbsökningar och Twitter, och, i enlighet med DALL-E 2:s policys (åtminstone vid den tidpunkten), innehöll de inga bilder med människoansikten. Endast bilder av god kvalitet, som var igenkännliga för människor, valdes.

Två uppsättningar av bilder curerades, en för objektigenkänning och en för VQA-uppgifter.

Antalet bilder i varje testkategori för objektigenkänning.

Testning av objektigenkänning

För objektigenkänningstesterna testades tio modeller, alla tränade på ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, och ResNext_WSL.

Vissa av klasserna i de testade systemen var mer detaljerade än andra, vilket krävde tillämpning av genomsnittliga metoder. Till exempel innehåller ImageNet tre klasser relaterade till “klockor”, och det var nödvändigt att definiera någon form av godtycklig mått, där inklusionen av någon “klocka” av något slag i de fem bästa erhållna etiketterna för någon bild ansågs som en framgång i det fallet.

Modellprestanda över 17 kategorier.

Den bäst presterande modellen i denna runda var resnext101_32x8d_ws, som uppnådde nästan 60% för topp-1 (dvs. de gånger då dess första gissning var den korrekta konceptet i bilden) och 80% för topp-5 (dvs. det önskade konceptet var åtminstone med i modellens fem gissningar om bilden).

Författaren föreslår att denna modells goda prestanda beror på att den tränades för den svagt övervakade förutsägelsen av hashtaggar i sociala medieplattformar. Men dessa ledande resultat, noterar författaren, är betydligt lägre än vad ImageNet kan uppnå på verkliga data, dvs. 91% och 99%. Han föreslår att detta beror på en stor diskrepans mellan distributionen av ImageNet-bilder (som också skrapas från webben) och genererade bilder.

De fem svåraste kategorierna för systemet, i ordning av svårighet, var drake, sköldpadda, ekorre, solglasögon och hjälm. Artikeln noterar att drake-klassen ofta förväxlas med ballong, fallskärm och paraply, även om dessa distinktioner är trivialt enkla för mänskliga observatörer att individuera.

Vissa kategorier, inklusive drake och sköldpadda, orsakade universellt misslyckande över alla modeller, medan andra (särskilt pretzel och tractor) resulterade i nästan universellt framgång över de testade modellerna.

Polariserande kategorier: vissa av de målkategorier som valdes antingen lurade alla modellerna eller var ganska lätta för alla modellerna att identifiera.

Författarna postulerar att dessa fynd indikerar att alla objektigenkänningsmodeller kan dela liknande styrkor och svagheter.

Testning av visuell frågebesvarande

Därefter testade författaren VQA-modeller på öppna och fria VQA, med binära frågor (dvs. frågor som endast kan besvaras med “ja” eller “nej”). Artikeln noterar att nyligen state-of-the-art VQA-modeller kan uppnå 95% noggrannhet på VQA-v2-datasetet.

För denna testrunda curerade författaren 50 bilder och formulerade 241 frågor om dem, 132 av vilka hade positiva svar och 109 negativa. Den genomsnittliga frågelängden var 5,12 ord.

Denna runda använde OFA-modellen, en uppgifts- och modalitets-agnostisk ram för att testa uppgiftsfullständighet, och var nyligen den ledande poängsättaren i VQA-v2-test-std-uppsättningen. OFA uppnådde 77,27% noggrannhet på de genererade bilderna, jämfört med sin egen 94,7% poäng i VQA-v2-test-std-uppsättningen.

Exempel på frågor och resultat från VQA-delen av testerna. ‘GT” är ‘Ground Truth’, dvs. det korrekta svaret.

Artikelförfattaren föreslår att en del av orsaken kan vara att de genererade bilderna innehåller semantiska koncept som saknas i VQA-v2-datasetet, och att frågorna skrivna för VQA-testerna kan vara mer utmanande än den allmänna standarden för VQA-v2-frågor, även om han tror att den förra orsaken är mer sannolik.

LSD i dataströmmen?

Åsikt

Den nya spridningen av AI-syntetiserade bilder, som kan presentera omedelbara konjunktioner och abstraktioner av centrala koncept som inte existerar i naturen, och som skulle vara förbjudande tidskrävande att producera via konventionella metoder, kan presentera ett särskilt problem för svagt övervakade datainsamlingsystem, som kanske inte kan misslyckas på ett smidigt sätt – främst för att de inte var utformade för att hantera stora volymer av oetiketterad syntetisk data.

I sådana fall kan det finnas en risk att dessa system kommer att samla en viss procent “bisarra” syntetiska bilder i felaktiga kategorier enbart för att bilderna innehåller distinkta föremål som inte verkligen hör ihop.

‘Astronaut ridande på en häst’ har kanske blivit den mest emblematiska bilden för den nya generationen av bildsyntesystem – men dessa ‘overkliga’ relationer kan komma in i verkliga detekteringssystem om man inte är försiktig. Källa: https://twitter.com/openai/status/1511714545529614338?lang=en

Om detta inte kan förhindras i förbearbetningsstadiet före träning, kan sådana automatiserade pipelines leda till osannolika eller till och med groteska associationer som tränas in i maskinlärningsmodeller, vilket försämrar deras effektivitet och riskerar att föra in högnivåassociationer i nedströms-system och underkategorier.

Alternativt kan syntetiska bilder ha en “kylande effekt” på noggrannheten hos senare system, om nya eller reviderade arkitekturer skulle dyka upp som försöker ta hänsyn till ad hoc-syntetiska bilder, och som kastar för breda nät.

I båda fallen kan syntetiska bilder i den post-Stable Diffusion-eran visa sig vara ett huvudbry för datorseende-forskningssektorn, vars ansträngningar gjorde dessa konstiga skapelser och förmågor möjliga – inte minst för att de hotar sektorns förhoppning att insamling och curation av data kan bli mer automatiserad och mindre tidskrävande.

Publicerad första gången den 1 september 2022.

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

Djupinlärningsmodeller kan ha svårt att känna igen AI-genererade bilder

Data

Testning av objektigenkänning

Testning av visuell frågebesvarande

LSD i dataströmmen?

You may like