Connect with us

Andersons hoek

Hoe AI te stoppen bij het weergeven van iPhones in bijgone tijden

mm
A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Hoe beelden AI-afbeeldingsgeneratoren de geschiedenis? Nieuw onderzoek toont aan dat ze smartphones in de 18e eeuw neerzetten, laptops in scènes uit de jaren 30 plaatsen en stofzuigers in 19e-eeuwse huizen, waardoor vragen rijzen over hoe deze modellen geschiedenis voorstellen – en of ze überhaupt in staat zijn tot contextuele historische nauwkeurigheid.

 

Vroeg in 2024 kwam de beeldgeneratiecapaciteit van Google’s Gemini multimodale AI-model onder vuur te liggen vanwege het opleggen van demografische rechtvaardigheid in ongepaste contexten, zoals het genereren van Duitse soldaten uit de Tweede Wereldoorlog met onwaarschijnlijke afkomst:

Demografisch onwaarschijnlijke Duitse militair personeel, zoals voorgesteld door Google's Gemini multimodale model in 2024. Bron: Gemini AI/Google via The Guardian

Demografisch onwaarschijnlijke Duitse militair personeel, zoals voorgesteld door Google’s Gemini multimodale model in 2024. Bron: Gemini AI/Google via The Guardian

Dit was een voorbeeld waarin pogingen om bias in AI-modellen te corrigeren, geen rekening hielden met de historische context. In dit geval werd het probleem kort daarna aangepakt. Echter, diffusiegebaseerde modellen blijven gevoelig voor het genereren van versies van de geschiedenis die moderne en historische aspecten en artefacten door elkaar halen.

Dit komt deels door entanglement, waarbij kwaliteiten die frequent samen voorkomen in de trainingsdata, in de uitvoer van het model worden gefuseerd. Bijvoorbeeld, als moderne objecten zoals smartphones vaak samen voorkomen met het actie van praten of luisteren in de dataset, kan het model leren om deze activiteiten te associëren met moderne apparaten, zelfs wanneer de prompt een historische setting specificeert. Zodra deze associaties in de interne representaties van het model zijn ingebed, wordt het moeilijk om de activiteit te scheiden van de hedendaagse context, waardoor historisch onnauwkeurige resultaten ontstaan.

Een nieuw artikel uit Zwitserland, dat het fenomeen van verstrengelde historische generaties in latente diffusiemodellen onderzoekt, stelt vast dat AI-kaders die zeer in staat zijn om fotorealistische mensen te creëren niettemin historische figuren op historische wijze weergeven:

Uit het nieuwe artikel, diverse representaties via LDM van de prompt 'Een fotorealistische afbeelding van een persoon die lacht met een vriend in [de historische periode]', met elk tijdperk aangegeven in elk uitvoer. Zoals we kunnen zien, is het medium van de tijdperk geassocieerd met de inhoud. Bron: https://arxiv.org/pdf/2505.17064

Uit het nieuwe artikel, diverse representaties via LDM van de prompt ‘Een fotorealistische afbeelding van een persoon die lacht met een vriend in [de historische periode]’, met elk tijdperk aangegeven in elk uitvoer. Zoals we kunnen zien, is het medium van de tijdperk geassocieerd met de inhoud. Bron: https://arxiv.org/pdf/2505.17064

Voor de prompt ‘Een fotorealistische afbeelding van een persoon die lacht met een vriend in [de historische periode]’, negeert een van de drie geteste modellen vaak de negatieve prompt ‘monochrome’ en gebruikt in plaats daarvan kleurbehandelingen die de visuele media van de gespecificeerde tijdperk weerspiegelen, bijvoorbeeld door de gedempte tonen van celluloidfilm uit de jaren 50 en 70 te imiteren.

Bij het testen van de drie modellen voor hun capaciteit om anachronismen (dingen die niet van de doelperiode zijn, of ‘uit de tijd’ – die kunnen zijn uit de toekomst van de doelperiode, evenals uit het verleden) te creëren, vonden ze een algemene neiging om tijdloze activiteiten (zoals ‘zingen’ of ‘koken’) te combineren met moderne contexten en apparatuur:

Diverse activiteiten die perfect geldig zijn voor eerdere eeuwen worden weergegeven met huidige of recentere technologie en parafernalia, tegen de geest van de gevraagde beeldvorming.

Diverse activiteiten die perfect geldig zijn voor eerdere eeuwen worden weergegeven met huidige of recentere technologie en parafernalia, tegen de geest van de gevraagde beeldvorming.

Van belang is dat smartphones bijzonder moeilijk te scheiden zijn van de idioom van de fotografie, en van veel andere historische contexten, aangezien hun verspreiding en weergave goed vertegenwoordigd zijn in invloedrijke hyperschaal datasets zoals Common Crawl:

In het Flux generatieve tekst-naar-afbeelding model, zijn communicatie en smartphones nauw geassocieerde concepten - zelfs wanneer de historische context het niet toestaat.

In het Flux generatieve tekst-naar-afbeelding model, zijn communicatie en smartphones nauw geassocieerde concepten – zelfs wanneer de historische context het niet toestaat.

Om de omvang van het probleem te bepalen en om toekomstige onderzoeksinspanningen een manier te geven om vooruit te komen met deze specifieke ergernis, ontwikkelden de auteurs van het nieuwe artikel een aangepaste dataset om generatieve systemen te testen. In een ogenblik, zullen we een kijk nemen op dit nieuwe werk, dat getiteld is Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models, en afkomstig is van twee onderzoekers aan de Universiteit van Zurich. De dataset en code zijn openbaar beschikbaar.

Een kwetsbare ‘waarheid’

Sommige van de thema’s in het artikel raken aan cultureel gevoelige kwesties, zoals de ondervertegenwoordiging van rassen en geslacht in historische voorstellingen. Terwijl Gemini’s oplegging van raciale gelijkheid in het grof ongelijke Derde Rijk een absurde en beledigende historische revisie is, zou het herstellen van ‘traditionele’ raciale voorstellingen (waar diffusiemodellen deze hebben ‘geüpdate’) vaak effectief ‘her-witten’ van de geschiedenis.

Veel recente historische shows, zoals Bridgerton, vertroebelen historische demografische nauwkeurigheid op manieren die waarschijnlijk toekomstige trainingsdatasets zullen beïnvloeden, waardoor het moeilijker wordt om LLM-gegenereerde periodieke beeldvorming in overeenstemming te brengen met traditionele normen. Echter, dit is een complex onderwerp, gezien de historische neiging van (westerse) geschiedenis om de voorkeur te geven aan rijkdom en blankheid, en om zo veel ‘minder’ verhalen onverteld te laten.

Met deze moeilijke en steeds veranderende culturele parameters in gedachten, laten we een kijk nemen op de benadering van de onderzoekers.

Methode en tests

Om te testen hoe generatieve modellen historische context interpreteren, creëerden de auteurs HistVis, een dataset van 30.000 afbeeldingen gegenereerd uit honderd prompts die gewone menselijke activiteiten weergeven, elk weergegeven over tien verschillende tijdperken:

Een voorbeeld uit de HistVis-dataset, die de auteurs beschikbaar hebben gesteld op Hugging Face. Bron: https://huggingface.co/datasets/latentcanon/HistVis

Een voorbeeld uit de HistVis-dataset, die de auteurs beschikbaar hebben gesteld op Hugging Face. Bron: https://huggingface.co/datasets/latentcanon/HistVis

De activiteiten, zoals koken, bidden of luisteren naar muziek, werden gekozen vanwege hun universaliteit, en werden geformuleerd in een neutrale vorm om te voorkomen dat het model in een bepaalde esthetiek werd verankerd. Tijdperken voor de dataset variëren van de zeventiende eeuw tot heden, met extra aandacht voor vijf individuele decennia uit de twintigste eeuw.

30.000 afbeeldingen werden gegenereerd met behulp van drie breed gebruikt open-source diffusiemodellen: Stable Diffusion XL; Stable Diffusion 3; en FLUX.1. Door de tijdperk te isoleren als de enige variabele, creëerden de onderzoekers een gestructureerde basis voor het evalueren van hoe historische aanwijzingen visueel worden gecodeerd of genegeerd door deze systemen.

Visuele stijl dominantie

De auteur onderzocht eerst of generatieve modellen standaard specifieke visuele stijlen gebruiken bij het weergeven van historische perioden; omdat het leek dat zelfs wanneer prompts geen melding maakten van medium of esthetiek, de modellen vaak specifieke eeuwen associeerden met karakteristieke stijlen:

Voorspelde visuele stijlen voor afbeeldingen gegenereerd uit de prompt “Een persoon die danst met een ander in de [historische periode]” (links) en uit de gewijzigde prompt “Een fotorealistische afbeelding van een persoon die danst met een ander in de [historische periode]” met “monochrome afbeelding” ingesteld als negatieve prompt (rechts).

Voorspelde visuele stijlen voor afbeeldingen gegenereerd uit de prompt ‘Een persoon die danst met een ander in de [historische periode]’ (links) en uit de gewijzigde prompt ‘Een fotorealistische afbeelding van een persoon die danst met een ander in de [historische periode]’ met ‘monochrome afbeelding’ ingesteld als negatieve prompt (rechts).

Om deze neiging te meten, trainden de auteurs een convolutional neural network (CNN) om elke afbeelding in de HistVis-dataset te classificeren in een van de vijf categorieën: tekening; gravure; illustratie; schilderij; of fotografie. Deze categorieën waren bedoeld om gemeenschappelijke patronen te reflecteren die opkomen over tijdperken heen, en die een gestructureerde vergelijking ondersteunen.

De classificator was gebaseerd op een VGG16 model dat was voorge-trained op ImageNet en fine-tuned met 1.500 voorbeelden per klasse van een WikiArt-afgeleide dataset. Aangezien WikiArt geen onderscheid maakt tussen monochrome en kleurenfotografie, werd een apart kleurrijkheidsscore gebruikt om lage-verzadigingsafbeeldingen te labelen als monochrome.

De getrainde classificator werd vervolgens toegepast op de volledige dataset, met resultaten die aantoonden dat alle drie de modellen consistente stylistische standaarden opleggen per periode: SDXL associeert de 17e en 18e eeuw met gravures, terwijl SD3 en FLUX.1 de voorkeur geven aan schilderijen. In de 20e-eeuwse decennia geeft SD3 de voorkeur aan monochrome fotografie, terwijl SDXL vaker moderne illustraties teruggeeft.

Deze voorkeuren bleken te blijven bestaan, ondanks aanpassingen van de prompt, wat suggereert dat de modellen diepe associaties tussen stijl en historische context hebben:

Voorspelde visuele stijlen van gegenereerde afbeeldingen over historische perioden voor elk diffusiemodel, op basis van 1.000 voorbeelden per periode per model.

Voorspelde visuele stijlen van gegenereerde afbeeldingen over historische perioden voor elk diffusiemodel, op basis van 1.000 voorbeelden per periode per model.

Om te kwantificeren hoe sterk een model een historische periode koppelt aan een specifieke visuele stijl, ontwikkelden de auteurs een meting die ze Visuele stijl dominantie (VSD) noemen. Voor elk model en tijdperk wordt VSD gedefinieerd als het percentage uitvoer dat de meest voorkomende stijl deelt:

Voorbeelden van stylistische voorkeuren over de modellen.

Voorbeelden van stylistische voorkeuren over de modellen.

Een hogere score geeft aan dat een enkele stijl de uitvoer voor die periode domineert, terwijl een lagere score wijst op een grotere variatie. Dit maakt het mogelijk om te vergelijken hoe sterk elk model zich houdt aan specifieke stylistische conventies over de tijd heen.

Toepassing van de VSD-meting op de volledige HistVis-dataset onthult verschillende niveaus van convergentie, waardoor duidelijker wordt hoe sterk elk model zijn visuele interpretatie van het verleden verfijnt:

De resultaatentabel toont VSD-scores over historische perioden voor elk model. In de 17e en 18e eeuw produceert SDXL gravures met hoge consistentie, terwijl SD3 en FLUX.1 de voorkeur geven aan schilderijen. In de 20e en 21e eeuw geven SD3 en FLUX.1 de voorkeur aan fotografie, terwijl SDXL meer variatie vertoont, maar vaak standaard illustreert.

Alle drie de modellen vertonen een sterke voorkeur voor monochrome beelden in eerdere decennia van de 20e eeuw, met name de jaren 10, 30 en 50.

Om te testen of deze patronen konden worden gemilderd, gebruikten de auteurs prompt-engineering, waarbij ze expliciet om fotorealisme vroegen en monochrome uitvoer ontmoedigden met een negatieve prompt. In sommige gevallen daalde de dominantiescore en verschoof de leidende stijl, bijvoorbeeld van monochrome naar schilderen, in de 17e en 18e eeuw.

Echter, deze interventies produceerden zelden echt fotorealistische afbeeldingen, wat aangeeft dat de stylistische standaarden van de modellen diep ingebed zijn.

Historische consistentie

De volgende lijn van analyse keek naar historische consistentie: of gegenereerde afbeeldingen objecten bevatten die niet in de tijdperk pasten. In plaats van een vaste lijst van verboden items te gebruiken, ontwikkelden de auteurs een flexibele methode die grote taalmodellen (LLM’s) en visuele taalmodellen (VLM’s) gebruikte om elementen te detecteren die uit de tijd leken, op basis van de historische context.

De detectiemethode volgde hetzelfde formaat als de HistVis-dataset, waarbij elke prompt een historische periode combineerde met een menselijke activiteit. Voor elke prompt genereerde GPT-4o een lijst met objecten die uit de tijd zouden zijn in de gespecificeerde periode; en voor elk voorgesteld object produceerde GPT-4o een ja/nee-vraag om te controleren of dat object in de gegenereerde afbeelding voorkwam.

Bijvoorbeeld, gegeven de prompt ‘Een persoon die luistert naar muziek in de 18e eeuw’, zou GPT-4o moderne audio-apparaten kunnen identificeren als historisch onnauwkeurig, en de vraag Gebruikt de persoon een koptelefoon of een smartphone die niet bestond in de 18e eeuw? produceren.

Deze vragen werden teruggegeven aan GPT-4o in een visuele vraagbeantwoordingsetup, waar het model de afbeelding bekeek en een ja of nee antwoord retourneerde voor elk object.

Dit pipeline maakte het mogelijk om historisch onwaarschijnlijke inhoud te detecteren zonder te vertrouwen op een vooraf gedefinieerde taxonomie van moderne objecten:

Voorbeelden van gegenereerde afbeeldingen die zijn gemarkeerd door de tweestapsdetectiemethode, met anachronistische elementen: koptelefoons in de 18e eeuw; een stofzuiger in de 19e eeuw; een laptop in de jaren 30; en een smartphone in de jaren 50.

Voorbeelden van gegenereerde afbeeldingen die zijn gemarkeerd door de tweestapsdetectiemethode, met anachronistische elementen: koptelefoons in de 18e eeuw; een stofzuiger in de 19e eeuw; een laptop in de jaren 30; en een smartphone in de jaren 50.

Om te meten hoe vaak anachronismen in de gegenereerde afbeeldingen voorkwamen, introduceerden de auteurs een eenvoudige methode voor het scoren van frequentie en ernst. Eerst werden kleine woordelijke verschillen in hoe GPT-4o hetzelfde object beschreef, genegeerd.

Bijvoorbeeld, moderne audio-apparaat en digitaal audio-apparaat werden als equivalent behandeld. Om dubbele telling te voorkomen, werd een fuzzy matching systeem gebruikt om oppervlakkige variaties te groeperen zonder echt verschillende concepten te beïnvloeden.

Nadat alle voorgestelde anachronismen waren genormaliseerd, werden twee metingen berekend: frequentie mat hoe vaak een bepaald object in afbeeldingen voor een specifieke tijdperk en model voorkwam; en ernst mat hoe betrouwbaar dat object eenmaal was voorgesteld door het model.

Als een moderne telefoon tien keer werd gemarkeerd en in tien gegenereerde afbeeldingen voorkwam, kreeg het een ernstscore van 1,0. Als het in slechts vijf afbeeldingen voorkwam, was de ernstscore 0,5. Deze scores hielpen bij het identificeren van niet alleen of anachronismen voorkwamen, maar ook hoe sterk ze in de uitvoer van het model voor elke periode waren ingebed:

Top vijftien anachronistische elementen voor elk model, geplaatst op frequentie op de x-as en ernst op de y-as. Cirkels markeren elementen die in de top vijftien staan op basis van frequentie, driehoeken op basis van ernst, en diamanten op basis van beide.

Top vijftien anachronistische elementen voor elk model, geplaatst op frequentie op de x-as en ernst op de y-as. Cirkels markeren elementen die in de top vijftien staan op basis van frequentie, driehoeken op basis van ernst, en diamanten op basis van beide.

Bovenstaand zien we de vijftien meest voorkomende anachronismen voor elk model, gerangschikt op hoe vaak ze voorkwamen en hoe consistent ze met prompts overeenkwamen.

Kleding was frequent maar verspreid, terwijl items zoals audio-apparaten en strijkijzers minder vaak voorkwamen, maar met hoge consistentie – patronen die suggereren dat de modellen vaak meer reageren op de activiteit in de prompt dan op de tijdperk.

SD3 toonde de hoogste frequentie van anachronismen, vooral in 19e-eeuwse en 1930-afbeeldingen, gevolgd door FLUX.1 en SDXL.

Om te testen hoe goed de detectiemethode overeenkwam met menselijke beoordeling, voerden de auteurs een gebruikersstudie uit met 1.800 willekeurig geselecteerde afbeeldingen van SD3 (het model met de hoogste anachronismefrequentie), waarbij elke afbeelding werd beoordeeld door drie crowd-workers. Na filtering voor betrouwbare antwoorden, werden 2.040 oordelen van 234 gebruikers opgenomen, en de methode kwam overeen met de meerderheidsstem in 72 procent van de gevallen.

GUI voor de menselijke evaluatiestudie, met taak instructies, voorbeelden van accurate en anachronistische afbeeldingen, en ja/nee-vragen voor het identificeren van temporele inconsistenties in gegenereerde uitvoer.

GUI voor de menselijke evaluatiestudie, met taak instructies, voorbeelden van accurate en anachronistische afbeeldingen, en ja/nee-vragen voor het identificeren van temporele inconsistenties in gegenereerde uitvoer.

Demografie

De laatste analyse keek naar hoe modellen ras en geslacht over tijd weergeven. Met behulp van de HistVis-dataset, vergeleken de auteurs modeluitvoer met basisschattingen gegenereerd door een taalmodel. Deze schattingen waren niet nauwkeurig, maar boden een ruwe indicatie van historische plausibiliteit, waardoor ze konden zien of de modellen hun voorstellingen aanpasten aan de bedoelde periode.

Om deze voorstellingen op grote schaal te beoordelen, bouwden de auteurs een pipeline om modeluitvoer te vergelijken met ruwe verwachtingen voor elke tijd en activiteit. Ze gebruikten eerst de FairFace classificator, een ResNet34-gebaseerd hulpmiddel getraind op meer dan honderdduizend afbeeldingen, om geslacht en ras in de gegenereerde uitvoer te detecteren, waardoor ze konden meten hoe vaak gezichten in elke scène als mannelijk of vrouwelijk werden geclassificeerd, en voor het volgen van raciale categorieën over perioden heen:

Voorbeelden van gegenereerde afbeeldingen die demografische oververtegenwoordiging tonen over verschillende modellen, tijdperken en activiteiten.

Voorbeelden van gegenereerde afbeeldingen die demografische oververtegenwoordiging tonen over verschillende modellen, tijdperken en activiteiten.

Lage-vertrouwensresultaten werden gefilterd om ruis te verminderen, en voorspellingen werden gemiddeld over alle afbeeldingen die aan een specifieke tijd en activiteit waren gekoppeld. Om de betrouwbaarheid van de FairFace-lezingen te controleren, werd een tweede systeem gebaseerd op DeepFace gebruikt op een steekproef van 5.000 afbeeldingen. De twee classificatoren toonden sterke overeenstemming, waardoor de consistentie van de demografische lezingen die in de studie werden gebruikt, werd ondersteund.

Om modeluitvoer te vergelijken met historische plausibiliteit, vroegen de auteurs GPT-4o om de verwachte geslachts- en rassendistributie te schatten voor elke activiteit en tijdperk. Deze schattingen dienden als ruwe basismaten in plaats van grondwaarheid. Twee metingen werden gebruikt: ondervertegenwoordiging en oververtegenwoordiging, die maten hoeveel de modeluitvoer afweek van de LLM’s verwachtingen.

De resultaten toonden duidelijke patronen: FLUX.1 oververtegenwoordigde vaak mannen, zelfs in scenario’s zoals koken, waar vrouwen werden verwacht; SD3 en SDXL toonden soortgelijke trends over categorieën zoals werk, onderwijs en religie; blanke gezichten verschenen vaker dan verwacht overall, hoewel deze bias afnam in recentere perioden; en sommige categorieën toonden onverwachte pieken in niet-blanke vertegenwoordiging, wat suggereert dat modelgedrag mogelijk datasetcorrelaties weerspiegelt in plaats van historische context:

Geslachts- en raciale oververtegenwoordiging en ondervertegenwoordiging in FLUX.1-uitvoer over eeuwen en activiteiten, getoond als absolute verschillen van GPT-4o demografische schattingen.

Geslachts- en raciale oververtegenwoordiging en ondervertegenwoordiging in FLUX.1-uitvoer over eeuwen en activiteiten, getoond als absolute verschillen van GPT-4o demografische schattingen.

De auteurs concluderen:

‘Onze analyse onthult dat [Tekst-naar-afbeelding/TTI] modellen afhankelijk zijn van beperkte stylistische coderingen in plaats van genuanceerde begrip van historische perioden. Elke tijdperk is sterk gekoppeld aan een specifieke visuele stijl, resulterend in een dimensionale voorstelling van de geschiedenis.

‘Opvallend is dat fotorealistische voorstellingen van mensen alleen vanaf de 20e eeuw verschijnen, met slechts zeldzame uitzonderingen in FLUX.1 en SD3, wat suggereert dat modellen geleerde associaties versterken in plaats van flexibel aan te passen aan historische contexten, waardoor het idee wordt versterkt dat realisme een moderne eigenschap is.

‘Bovendien suggereren frequente anachronismen dat historische perioden niet schoon zijn gescheiden in de latent ruimtes van deze modellen, aangezien moderne artefacten vaak opduiken in pre-moderne settings, waardoor de betrouwbaarheid van TTI-systemen in onderwijs en cultureel erfgoedcontexten in twijfel wordt getrokken.’

Conclusie

Tijdens de training van een diffusiemodel, komen nieuwe concepten niet netjes te ruste in vooraf gedefinieerde slots binnen de latente ruimte. In plaats daarvan vormen ze clusters die worden gevormd door hoe vaak ze voorkomen en door hun nabijheid tot verwante ideeën. Het resultaat is een losjes georganiseerde structuur waarin concepten bestaan in relatie tot hun frequentie en typische context, in plaats van door enige schone of empirische scheiding.

Dit maakt het moeilijk om te bepalen wat ‘historisch’ is binnen een grote, algemene dataset. Zoals de bevindingen in het nieuwe artikel suggereren, worden veel tijdperken meer weergegeven door de uitstraling van de media die wordt gebruikt om ze weer te geven dan door enige diepere historische detail.

Dit is één reden waarom het nog steeds moeilijk is om een fotorealistische afbeelding van een karakter uit (bijvoorbeeld) de 19e eeuw te genereren; in de meeste gevallen zal het model vertrouwen op visuele tropen uit film en televisie. Wanneer deze falen om aan het verzoek te voldoen, is er weinig anders in de data om het te compenseren. Het overbruggen van deze kloof zal waarschijnlijk afhankelijk zijn van toekomstige verbeteringen in het ontkoppelen van overlappende concepten.

 

Eerst gepubliceerd op maandag, 26 mei 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.