Artificial Intelligence
Een detectiesysteem voor Pure Image Synthesis Frameworks zoals DALL-E 2

Nieuw onderzoek van de University of California in Berkeley biedt een methode om te bepalen of output van de nieuwe generatie frameworks voor beeldsynthese – zoals Open AI's DALL-E2, en die van Google Beeld en Onderdelen – kan worden gedetecteerd als 'niet-echt' door geometrie, schaduwen en reflecties te bestuderen die verschijnen in de gesynthetiseerde beelden.
Bij het bestuderen van afbeeldingen gegenereerd door tekstprompts in DALL-E 2, hebben de onderzoekers ontdekt dat ondanks het indrukwekkende realisme waartoe de architectuur in staat is, er een aantal hardnekkige inconsistenties optreden met betrekking tot de weergave van globaal perspectief, het creëren en plaatsen van schaduwen, en vooral met betrekking tot de weergave van gereflecteerde objecten.
In de krant staat:
'[Geometrische] structuren, slagschaduwen en reflecties in gespiegelde oppervlakken komen niet volledig overeen met de verwachte perspectiefgeometrie van natuurlijke scènes. Geometrische structuren en schaduwen zijn over het algemeen lokaal consistent, maar globaal inconsistent.
'Reflecties daarentegen worden vaak ongeloofwaardig weergegeven, vermoedelijk omdat ze minder voorkomen in de trainingsbeelddataset.'

Een gebrek aan consistente intersecties tussen het gerenderde object en de weergave van zijn reflectie is momenteel een betrouwbare manier om een ​​DALL-E 2-beeld te detecteren, volgens de nieuwe studie. Bron: https://arxiv.org/pdf/2206.14617.pdf
Het artikel vertegenwoordigt een vroeg uitstapje naar wat uiteindelijk een opmerkelijk onderdeel van de onderzoeksgemeenschap op het gebied van computervisie zou kunnen worden: detectie van beeldsynthese.
Sinds de komst van deepfakes in 2017 deepfake detectie (voornamelijk van auto-encoder uitvoer van pakketten zoals DeepFaceLab en gezicht wisselen) is een geworden actief en competitief academische richting, met verschillende papers en methodologieën gericht op de zich ontwikkelende 'vertellen' van gesynthetiseerde gezichten in echte videobeelden.
Echter, tot de zeer recente opkomst van op hyperschaal getrainde systemen voor het genereren van afbeeldingen, was de uitvoer van tekstpromptsystemen zoals CLIP vormde geen bedreiging voor de status quo van 'fotorealiteit'. De auteurs van het nieuwe artikel zijn van mening dat dit op het punt staat te veranderen en dat zelfs de inconsistenties die ze hebben ontdekt in de uitvoer van DALL-E 2 niet veel zullen uitmaken voor het potentieel van uitvoerafbeeldingen om kijkers te misleiden.
De auteurs stellen*:
'[Dergelijke] mislukkingen doen er misschien niet zoveel toe voor het menselijke visuele systeem, waarvan is vastgesteld dat het verrassend onbekwaam is in bepaalde geometrische beoordelingen, waaronder inconsistenties in verlichting, schaduwen, reflecties, kijkpositieen perspectief vervorming.'
Verdwijnende geloofwaardigheid
Het eerste forensische onderzoek van de auteurs van DALL-E 2-output heeft betrekking op perspectiefprojectie – de manier waarop de positionering van rechte randen in nabije objecten en texturen uniform moet oplossen in een 'verdwijnpunt'.

Links lossen evenwijdige lijnen op hetzelfde vlak op tot een gemeenschappelijk verdwijnpunt; rechts definiëren meerdere verdwijnpunten op dezelfde en evenwijdige vlakken een verdwijnlijn (weergegeven in rood).
Om de consistentie van DALL-E 2 in dit opzicht te testen, gebruikten de auteurs DALL-E 2 om 25 gesynthetiseerde afbeeldingen van keukens te genereren – een vertrouwde ruimte die, zelfs in goed ingerichte woningen, meestal beperkt genoeg is om meerdere mogelijke verdwijnpunten te bieden voor een scala aan objecten en texturen.
Uitvoer van de prompt onderzoeken 'een foto van een keuken met een tegelvloer', ontdekten de onderzoekers dat ondanks een over het algemeen overtuigende weergave in elk geval (afgezien van enkele vreemde, kleinere artefacten die geen verband houden met perspectief), de afgebeelde objecten nooit correct lijken samen te komen.
De auteurs merken op dat hoewel elke reeks parallelle lijnen van het tegelpatroon consistent is en elkaar kruisen op een enkel verdwijnpunt (blauw in de afbeelding hieronder), het verdwijnpunt voor het aanrechtblad (cyaan) het niet eens is met beide verdwijnlijnen (rood ) en het verdwijnpunt afgeleid van de tegels.
De auteurs merken op dat zelfs als het aanrechtblad niet evenwijdig was aan de tegels, het cyaan verdwijnpunt zou moeten oplossen in de (rode) verdwijnlijn die wordt gedefinieerd door de verdwijnpunten van de vloertegels.
In de krant staat:
'Hoewel het perspectief in deze beelden - indrukwekkend - lokaal consistent is, is het niet wereldwijd consistent. Ditzelfde patroon werd gevonden in elk van de 25 gesynthetiseerde keukenafbeeldingen.'
Schaduw forensisch onderzoek
Zoals iedereen die ooit met ray-tracing te maken heeft gehad weet, hebben schaduwen ook potentiële verdwijnpunten, wat duidt op verlichting met één of meerdere bronnen. Voor buitenschaduwen in fel zonlicht zou men verwachten dat schaduwen over alle facetten van een afbeelding consequent oplossen in de enkele lichtbron (de zon).
Net als bij het vorige experiment creëerden de onderzoekers 25 DALL-E 2-afbeeldingen met de prompt 'drie kubussen op een stoep gefotografeerd op een zonnige dag', evenals nog eens 25 met de prompt ''drie kubussen op een stoep gefotografeerd op een bewolkte dag'.

In de bovenste rij afbeeldingen gemaakt op basis van de prompt van de onderzoekers 'drie kubussen op een trottoir gefotografeerd op een bewolkte dag'; in de onderste rij afbeeldingen gemaakt op basis van de prompt 'drie kubussen op een trottoir gefotografeerd op een zonnige dag'.
De onderzoekers merken op dat DALL-E 2 bij het weergeven van bewolkte omstandigheden in staat is om de meer diffuse geassocieerde schaduwen op een overtuigende en plausibele manier weer te geven, misschien niet in de laatste plaats omdat dit type schaduw waarschijnlijk meer voorkomt in de datasetbeelden waarop de raamwerk is getraind.
Sommige van de 'zonnige' foto's, ontdekten de auteurs, waren echter niet consistent met een scène verlicht door een enkele lichtbron.
Voor de bovenstaande afbeelding zijn de generaties voor de duidelijkheid geconverteerd naar grijstinten en tonen ze elk object met zijn eigen speciale 'zon'.
Hoewel de gemiddelde kijker dergelijke anomalieën misschien niet opmerkt, hadden sommige van de gegenereerde afbeeldingen meer duidelijke voorbeelden van 'schaduwfalen':
Hoewel sommige schaduwen gewoon op de verkeerde plaats zitten, komen veel ervan, interessant genoeg, overeen met het soort visuele discrepantie dat wordt geproduceerd in CGI-modellering wanneer de samplefrequentie voor een virtueel licht te laag is.
Reflecties in DALL-E 2
De meest vernietigende resultaten in termen van forensische analyse kwamen toen de auteurs het vermogen van DALL-E 2 testten om sterk reflecterende oppervlakken te creëren, wat ook een lastige berekening is bij CGI ray-tracing en andere traditionele weergave-algoritmen.
Voor dit experiment produceerden de auteurs 25 DALL-E 2-afbeeldingen met de prompt 'een foto van een speelgoeddinosaurus en zijn weerspiegeling in een make-upspiegel'.
In alle gevallen, melden de auteurs, was het spiegelbeeld van het gerenderde speelgoed op de een of andere manier losgekoppeld van het aspect en karakter van de 'echte' speelgoeddinosaurus. De auteurs stellen dat het probleem bestand was tegen variaties in de tekstprompt en dat het een fundamentele zwakte in het systeem lijkt te zijn.
Er lijkt een logica te zitten in sommige fouten - het eerste en derde voorbeeld in de bovenste rij lijken een dinosaurus te tonen die gedupliceerd heel goed, maar niet gespiegeld.
De auteurs geven commentaar:
'In tegenstelling tot de slagschaduwen en geometrische structuren in de vorige paragrafen, worstelt DALL·E-2 met het synthetiseren van plausibele reflecties, vermoedelijk omdat dergelijke reflecties minder vaak voorkomen in de trainingsbeelddataset.'
Storingen als deze kunnen worden verholpen in toekomstige tekst-naar-beeld-modellen die in staat zijn om de algehele semantische logica van hun uitvoer effectiever te beoordelen, en die in staat zullen zijn om abstracte fysieke regels op te leggen aan scènes die tot op zekere hoogte zijn samengesteld uit woordrelevante kenmerken in de latente ruimte van het systeem.
In het licht van een groeiende trend naar steeds grotere synthese-architecturen concluderen de auteurs:
'[Het] kan slechts een kwestie van tijd zijn voordat engine's voor verf-voor-tekst-synthese leren om afbeeldingen weer te geven met volledige perspectiefconsistentie. Tot die tijd kunnen geometrische forensische analyses echter nuttig zijn bij het analyseren van deze beelden.'
* Mijn conversie van de inline citaten van de auteurs naar hyperlinks.
Voor het eerst gepubliceerd op 30 juni 2022.