Kunstmatige intelligentie

Diepe leermodellen kunnen mogelijk worstelen om door AI gegenereerde afbeeldingen te herkennen

Published September 1, 2022

Updated April 5, 2026

Martin Anderson

Uit een nieuw artikel blijkt dat state-of-the-art AI aanzienlijk minder in staat is om door AI gegenereerde afbeeldingen te herkennen en te interpreteren dan mensen, wat een zorg kan zijn in een komende klimaat waarin machine learning-modellen steeds vaker worden getraind op synthetische gegevens, en waarbij het niet noodzakelijkerwijs bekend is of de gegevens ‘echt’ zijn of niet.

Hier zien we de resnext101_32x8d_wsl-predictiemodel worstelen in de ‘bagel’-categorie. In de tests werd een herkenningstekort geacht te hebben plaatsgevonden als het kerndoelwoord (in dit geval ‘bagel’) niet in de top vijf voorspelde resultaten was opgenomen. Bron: https://arxiv.org/pdf/2208.10760.pdf

Het nieuwe onderzoek testte twee categorieën van computer vision-gebaseerde herkenningssystemen: objectherkenning en visuele vraagbeantwoording (VQA).

Links, inferentiesuccessen en -mislukkingen van een objectherkenningssysteem; rechts, VQA-taken die zijn ontworpen om de AI-kennis van scènes en afbeeldingen op een meer exploratieve en significante manier te onderzoeken. Bronnen: https://arxiv.org/pdf/2105.05312.pdf en https://arxiv.org/pdf/1505.00468.pdf

Van de tien state-of-the-art-modellen die zijn getest op gecureerde datasets gegenereerd door de beeldsyntheseframeworks DALL-E 2 en Midjourney, kon het best presterende model slechts 60% en 80% top-5-nauwkeurigheid behalen over de twee soorten tests, terwijl ImageNet, getraind op niet-synthetische, werkelijke gegevens, respectievelijk 91% en 99% kan behalen in dezelfde categorieën, terwijl de prestaties van mensen typisch veel hoger zijn.

Het aanpakken van problemen rond verdelingsverschuiving (ook bekend als ‘Model Drift’, waarbij voorspellingsmodellen een vermindering van de voorspellingscapaciteit ervaren wanneer ze van trainingsgegevens naar ‘werkelijke’ gegevens worden overgezet), stelt het artikel:

Mensen kunnen de gegenereerde afbeeldingen herkennen en er gemakkelijk vragen over beantwoorden. We concluderen dat a) diepe modellen moeite hebben om de gegenereerde inhoud te begrijpen en mogelijk beter presteren na fine-tuning, en b) er een grote verdelingsverschuiving is tussen de gegenereerde afbeeldingen en de werkelijke foto’s. De verdelingsverschuiving lijkt categorie-afhankelijk te zijn.’

Gezien de hoeveelheid synthetische afbeeldingen die al op internet zijn verschenen als gevolg van de open-sourcing van de krachtige Stable Diffusion-latentdiffusiesynthesemodel, rijst de mogelijkheid dat als ‘nep’-afbeeldingen industrieel standaarddatasets zoals Common Crawl overspoelen, variaties in nauwkeurigheid over de jaren aanzienlijk kunnen worden beïnvloed door ‘onwerkelijke’ afbeeldingen.

Hoewel synthetische gegevens zijn geprezen als de potentiële redder van de computer vision-onderzoekssector, die vaak te maken heeft met een gebrek aan middelen en budgetten voor hyperschaalcuratie, is de nieuwe stroom van Stable Diffusion-afbeeldingen (evenals de algemene toename van synthetische afbeeldingen sinds de invoering en commercialisering van DALL-E 2) onwaarschijnlijk allemaal te komen met handige labels, annotaties en hashtags die ze als ‘nep’ kenmerken op het moment dat machine vision-systemen ze van internet scrapen.

De snelheid van ontwikkeling in open source-beeldsyntheseframeworks heeft de mogelijkheid om afbeeldingen van deze systemen te categoriseren, aanzienlijk overtroffen, wat heeft geleid tot groeiende interesse in ‘nep-afbeelding’-detectiesystemen, vergelijkbaar met deepfake-detectiesystemen, maar belast met het evalueren van hele afbeeldingen in plaats van delen van gezichten.

Het nieuwe artikel heeft als titel Hoe goed zijn diepe modellen in het begrijpen van gegenereerde afbeeldingen?, en komt van Ali Borji van het San Francisco-machine learning-startup Quintic AI.

Gegevens

De studie gaat vooraf aan de release van Stable Diffusion, en de experimenten gebruiken gegevens gegenereerd door DALL-E 2 en Midjourney over 17 categorieën, waaronder olifant, paddestoel, pizza, pretzel, tractor en konijn.

Voorbeelden van de afbeeldingen waaruit de geteste herkenningssystemen en VQA-systemen de meest belangrijke sleutelconcepten moesten identificeren.

Afbeeldingen werden verkregen via webzoekopdrachten en via Twitter, en, in overeenstemming met het beleid van DALL-E 2 (tenminste, op dat moment), bevatten ze geen afbeeldingen met menselijke gezichten. Alleen afbeeldingen van goede kwaliteit, herkenbaar voor mensen, werden geselecteerd.

Twee sets afbeeldingen werden gecureerd, een voor de objectherkenningstaken en een voor de VQA-taken.

Het aantal afbeeldingen in elke geteste categorie voor objectherkenning.

Testen van objectherkenning

Voor de objectherkenningstests werden tien modellen getest, allemaal getraind op ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, en ResNext_WSL.

Sommige van de klassen in de geteste systemen waren fijner dan andere, waardoor het noodzakelijk was om gemiddelde benaderingen toe te passen. Bijvoorbeeld, ImageNet bevat drie klassen die betrekking hebben op ‘klokken’, en het was noodzakelijk om een soort arbitrere metric te definiëren, waarbij de opname van elke ‘klok’ van elk type in de top vijf verkregen labels voor elke afbeelding werd beschouwd als een succes in dat geval.

Per-model-prestaties over 17 categorieën.

Het best presterende model in deze ronde was resnext101_32x8d_ws, dat bijna 60% behaalde voor top-1 (d.w.z. de keren waarin zijn voorkeursvoorspelling uit vijf gokken de correcte concept was dat in de afbeelding werd belichaamd), en 80% voor top-vijf (d.w.z. het gewenste concept werd ten minste ergens in de vijf gokken van het model over de afbeelding genoemd).

De auteur suggereert dat de goede prestaties van dit model te wijten zijn aan het feit dat het was getraind voor de zwak-gesuperviseerde voorspelling van hashtags op sociale medianetwerken. Echter, deze leidende resultaten, merkt de auteur op, zijn aanzienlijk lager dan wat ImageNet kan bereiken op werkelijke gegevens, d.w.z. 91% en 99%. Hij suggereert dat dit te wijten is aan een groot verschil tussen de verdeling van ImageNet-afbeeldingen (die ook van het web zijn gescraped) en gegenereerde afbeeldingen.

De vijf moeilijkste categorieën voor het systeem, in volgorde van moeilijkheid, waren vlieger, schildpad, eekhoorn, zonnebril en helm. Het artikel merkt op dat de vlieger-klasse vaak wordt verward met ballon, parachute en paraplu, hoewel deze onderscheidingen triviaal eenvoudig zijn voor menselijke waarnemers om te onderscheiden.

Bepaalde categorieën, waaronder vlieger en schildpad, veroorzaakten universele mislukking over alle modellen, terwijl anderen (met name pretzel en tractor) resulteerden in bijna universele succes over de geteste modellen.

Polariserende categorieën: sommige van de doelcategorieën die zijn gekozen, hebben ofwel alle modellen voor de gek gehouden, ofwel waren ze redelijk eenvoudig voor alle modellen om te identificeren.

De auteurs postuleren dat deze bevindingen aangeven dat alle objectherkenningmodellen mogelijk vergelijkbare sterke en zwakke punten delen.

Testen van visuele vraagbeantwoording

Vervolgens testte de auteur VQA-modellen op open-ended en free-form VQA, met binaire vragen (d.w.z. vragen waarop het antwoord alleen ‘ja’ of ‘nee’ kan zijn). Het artikel merkt op dat recente state-of-the-art VQA-modellen in staat zijn om 95% nauwkeurigheid te bereiken op de VQA-v2-dataset.

Voor deze testronde curateerde de auteur 50 afbeeldingen en formuleerde 241 vragen erover, waarvan 132 positieve antwoorden hadden en 109 negatieve. De gemiddelde vraaglengte was 5,12 woorden.

Deze ronde gebruikte het OFA-model, een taak-agnostisch en modality-agnostisch framework om de taakvolledigheid te testen, en was onlangs de leider in de VQA-v2-test-std-set. OFA scoorde 77,27% nauwkeurigheid op de gegenereerde afbeeldingen, vergeleken met zijn eigen 94,7% score in de VQA-v2-test-std-set.

Voorbeeldvragen en -resultaten uit de VQA-sectie van de tests. ‘GT” is ‘Ground Truth’, d.w.z. het correcte antwoord.

Het artikel suggereert dat een deel van de reden kan zijn dat de gegenereerde afbeeldingen semantische concepten bevatten die afwezig zijn in de VQA-v2-dataset, en dat de vragen die zijn geschreven voor de VQA-tests mogelijk moeilijker zijn dan de algemene standaard van VQA-v2-vragen, hoewel hij gelooft dat de eerste reden waarschijnlijker is.

LSD in de datastroom?

Opinie

De nieuwe proliferatie van AI-gegenereerde beelden, die onmiddellijke conjuncties en abstracties van kernconcepten kunnen presenteren die niet in de natuur voorkomen, en die prohibitief tijdrovend zouden zijn om via conventionele methoden te produceren, kan een speciaal probleem vormen voor zwak-gesuperviseerde dataverzamelingsystemen, die mogelijk niet in staat zijn om op een nette manier te falen – grotendeels omdat ze niet zijn ontworpen om grote hoeveelheden ongelabelde synthetische gegevens te verwerken.

In dergelijke gevallen kan er een risico bestaan dat deze systemen een percentage ‘bizarre’ synthetische afbeeldingen naar verkeerde klassen zullen leiden, alleen omdat de afbeeldingen distincte objecten bevatten die niet echt bij elkaar horen.

‘Astronaut die een paard berijdt’ is misschien het meest emblematische visuele voor de nieuwe generatie van beeldsyntheseframeworks – maar deze ‘onwerkelijke’ relaties kunnen in werkelijke detectiesystemen terechtkomen, tenzij er voorzorgsmaatregelen worden genomen. Bron: https://twitter.com/openai/status/1511714545529614338?lang=en

Tenzij dit kan worden voorkomen in het voorverwerkingsstadium vóór de training, kunnen dergelijke geautomatiseerde pijpleidingen leiden tot onwaarschijnlijke of zelfs groteske associaties die in machine learning-systemen worden getraind, waardoor hun effectiviteit wordt aangetast, en het risico bestaat dat hoge associaties in downstream-systemen en subklassen en categorieën worden doorgegeven.

Alternatief kunnen disjuncte synthetische afbeeldingen een ‘verkoelend effect’ hebben op de nauwkeurigheid van latere systemen, in het geval dat nieuwe of gewijzigde architectuur zou ontstaan die probeert rekening te houden met ad-hoc-synthetische beelden, en te breed een net werpt.

In beide gevallen kunnen synthetische beelden in de post-Stable Diffusion-tijdperk een hoofdpijn worden voor de computer vision-onderzoekssector, wiens inspanningen deze vreemde creaties en mogelijkheden mogelijk hebben gemaakt – niet in de laatste plaats omdat het de hoop van de sector in gevaar brengt dat de verzameling en curatie van gegevens uiteindelijk veel meer geautomatiseerd kan worden dan het nu is, en veel minder duur en tijdrovend.

Eerst gepubliceerd op 1 september 2022.

Related Topics:image synthesis research Synthesis AI synthetic data

Martin Anderson

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.

Unite.AI

Diepe leermodellen kunnen mogelijk worstelen om door AI gegenereerde afbeeldingen te herkennen

Gegevens

Testen van objectherkenning

Testen van visuele vraagbeantwoording

LSD in de datastroom?

You may like