Andersons vinkel

Hvordan stoppe AI fra å avbilde iPhones i gamle epoker

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Hvordan bilder AI-bildegenereringer seg fortiden? Ny forskning indikerer at de plasserer smarttelefoner i 1700-tallet, setter inn bærbare datamaskiner i 1930-årenes scener og plasserer støvsugere i 1800-tallets hjem, og setter spørsmål ved hvordan disse modellene forestiller seg historien – og om de er i stand til å gi kontekstuell historisk nøyaktighet overhode.

Tidlig i 2024 kom bildeskapelsesegenskapene til Google’s Gemini multimodale AI-modell under kritikk for å påtvinge demografisk rettferdighet i upassende sammenhenger, som for eksempel å generere tyske soldater fra andre verdenskrig med usannsynlig opphav:

Demografisk usannsynlig tysk militærpersonell, som er forestilt av Google’s Gemini multimodale modell i 2024. Kilde: Gemini AI/Google via The Guardian

Dette var et eksempel der forsøk på å rette opp bias i AI-modeller ikke tok hensyn til en historisk kontekst. I dette tilfelle ble problemet løst kort tid etter. Men difusjonsbaserte modeller er fortsatt utsatt for å generere versjoner av historien som forvirrer moderne og historiske aspekter og artefakter.

Dette skyldes delvis entanglement, hvor kvaliteter som ofte opptrer sammen i treningsdata blir fusjonert i modellens utdata. For eksempel, hvis moderne objekter som smarttelefoner ofte opptrer sammen med handlingen å snakke eller lytte i datasettet, kan modellen lære å assosiere disse aktivitetene med moderne enheter, selv når prompten spesifiserer en historisk setting. Når disse assosiasjonene er innbygget i modellens interne representasjoner, blir det vanskelig å skille aktivitetene fra deres samtidige kontekst, noe som fører til historisk uakkurate resultater.

En ny artikkel fra Sveits, som undersøker fenomenet med sammenflettede historiske generasjoner i latente difusjonsmodeller, observerer at AI-rammeverk som er svært dyktige til å lage fotorealistiske mennesker likevel foretrekker å avbilde historiske skikkelser på historiske måter:

Fra den nye artikkelen, diverse representasjoner via LDM av prompten ‘En fotorealistisk bilde av en person som ler med en venn i [den historiske perioden]’, med hver periode indikert i hver utdata. Som vi kan se, har mediumet for epoken blitt assosiert med innholdet. Kilde: https://arxiv.org/pdf/2505.17064

For prompten ‘En fotorealistisk bilde av en person som ler med en venn i [den historiske perioden]’, ignorerte en av de tre testede modellene ofte den negative prompten ‘monokrom’ og brukte i stedet fargebehandlinger som reflekterer den visuelle mediet i den spesifiserte epoken, for eksempel ved å etterligne de dæmpede tonene fra celluloidfilmen fra 1950- og 1970-årene.

Ved å teste de tre modellene for deres evne til å lage anakronismer (ting som ikke er fra målperioden, eller ‘ute av tid’ – som kan være fra målperiodens framtid så vel som dens fortid), fant de en generell tendens til å sammenflette tidløse aktiviteter (som ‘sang’ eller ‘matlaging’) med moderne kontekster og utstyr:

Diverse aktiviteter som er fullstendig gyldige for tidligere århundrer er avbildet med nåværende eller mer nylig teknologi og utstyr, mot ånden av den forespurte bildet.

Det er verdt å merke seg at smarttelefoner er særlig vanskelige å skille fra idiomene til fotografi, og fra mange andre historiske sammenhenger, siden deres utbredelse og avbildning er godt representert i influerende hyperskale-datasett som Common Crawl:

I Flux generative tekst-til-bilde-modell, er kommunikasjon og smarttelefoner tett assosiert konsepter – selv når historisk kontekst ikke tillater det.

For å bestemme omfanget av problemet, og å gi fremtidige forskningsinnsats en måte å gå videre med dette spesielle problemet, utviklet artikkelforfatterne et spesialdatasett mot å teste generative systemer. I et øyeblikk, skal vi se på dette nye arbeidet, som heter Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models, og kommer fra to forskere ved Universitetet i Zürich. Datasettet og koden er offentlig tilgjengelig.

En skjør ‘sannhet’

Noen av temaene i artikkelen berører kulturelt sensitive emner, som underrepresentasjon av raser og kjønn i historiske representasjoner. Mens Gemini’s påtvinging av rase likhet i det grovt ulike Tredje Rike er en absurd og fornærmende historisk revisjon, ville gjenoppretting av ‘tradisjonelle’ rase representasjoner (hvor difusjonsmodeller har ‘oppdatert’ disse) ofte effektivt ‘re-whitewash’ historien.

Mange nylige suksessfulle historiske show, som Bridgerton, blander historisk demografisk nøyaktighet på måter som sannsynligvis vil påvirke fremtidige treningsdatasett, og kompliserer forsøk på å sammenligne LLM-generert periodebilde med tradisjonelle standarder. Men dette er et komplekst tema, gitt den historiske tendensen til (vestlige) historie til å favorisere rikdom og hvithet, og å la mange ‘mindre’ historier ufortalte.

Med tanke på disse vanskelige og skiftende kulturelle parameterne, la oss se på forskernes nye tilnærming.

Metode og tester

For å teste hvordan generative modeller tolker historisk kontekst, skapte forfatterne HistVis, et datasett på 30 000 bilder produsert fra hundre prompter som avbildet vanlige menneskelige aktiviteter, hver gjengitt over ti distinkte tidsperioder:

Et eksempel fra HistVis-datasettet, som forfatterne har gjort tilgjengelig på Hugging Face. Kilde: https://huggingface.co/datasets/latentcanon/HistVis

Aktivitetene, som for eksempel matlaging, bønn eller lytting til musikk, ble valgt for deres universalitet, og ble formulert i en nøytral format for å unngå å feste modellen i en bestemt estetikk. Tidsperioder for datasettet går fra det syttende århundre til nåtiden, med tillegg på fem enkelt tiår fra det tjueførste århundre.

30 000 bilder ble generert ved hjelp av tre vidt brukte åpne kildekode-difusjonsmodeller: Stable Diffusion XL; Stable Diffusion 3; og FLUX.1. Ved å isolere tidsperioden som den eneste variabelen, skapte forskerne en strukturert basis for å evaluere hvordan historiske hint blir visuelt kodet eller ignorert av disse systemene.

Visuell stil dominans

Forfatterne undersøkte først om generative modeller standardiserer bestemte visuelle stiler når de avbilder historiske perioder; fordi det syntes at selv når promptene ikke inneholdt noen omtale av medium eller estetikk, ville modellene ofte assosiere bestemte århundrer med karakteristiske stiler:

Forventede visuelle stiler for bilder generert fra prompten ‘En person som danser med en annen i [den historiske perioden]’ (venstre) og fra den modifiserte prompten ‘En fotorealistisk bilde av en person som danser med en annen i [den historiske perioden]’ med ‘monokromt bilde’ satt som en negativ prompt (høyre).

For å måle denne tendensen, trenet forfatterne en convolutional neural network (CNN) til å klassifisere hvert bilde i HistVis-datasettet i en av fem kategorier: tegning; gravering; illustrasjon; maleri; eller fotografi. Disse kategoriene var ment å reflektere vanlige mønster som oppstår over tidsperioder, og som støtter strukturert sammenligning.

Klassifiseringen var basert på en VGG16-modell som var forhåndstrener på ImageNet og fine-tuned med 1 500 eksempler per klasse fra et WikiArt-derivert datasett. Da WikiArt ikke skille monokromt fra fargefotografi, ble en fargefullhetsscore brukt til å merke lav-saturerte bilder som monokrome.

Den trenede klassifiseringen ble deretter brukt på hele datasettet, med resultater som viste at alle tre modellene påfører konsistente stilstandarder etter periode: SDXL assosierer 1700- og 1800-tallet med graveringer, mens SD3 og FLUX.1 tenderer mot maleri. I tiårene fra det tjueførste århundre favoriserer SD3 monokromt fotografi, mens SDXL ofte returnerer moderne illustrasjoner.

Disse preferansene ble funnet å vedvare til tross for prompt-justeringer, noe som tyder på at modellene koder innarbeidede lenker mellom stil og historisk kontekst.

Forventede visuelle stiler for genererte bilder over historiske perioder for hver difusjonsmodell, basert på 1 000 prøver per periode per modell.

For å kvantifisere hvor sterkt en modell kobler en historisk periode til en bestemt visuell stil, utviklet forfatterne en metrikk de kaller Visuell stil dominans (VSD). For hver modell og tidsperiode er VSD definert som andelen av utdata som er forventet å dele den mest vanlige stilen:

Eksempler på stil-bias over modellene.

En høyere score indikerer at en enkelt stil dominerer utdataene for den perioden, mens en lavere score peker på større variasjon. Dette gjør det mulig å sammenligne hvordan hver modell holder seg til bestemte stil-konvensjoner over tid.

Applisert på hele HistVis-datasettet, viser VSD-metrikken ulike nivåer av konvergens, og hjelper med å klargjøre hvor sterkt hver modell snevrer sin visuelle tolkning av fortiden:

Resultattabellen ovenfor viser VSD-poeng over historiske perioder for hver modell. I 1700- og 1800-tallet tenderer SDXL å produsere graveringer med høy konsistens, mens SD3 og FLUX.1 favoriserer maleri. I tiårene fra det tjueførste århundre favoriserer SD3 monokromt fotografi, mens SDXL viser mer variasjon, men ofte standardiserer til illustrasjoner.

Alle tre modellene viser en sterk preferanse for monokromt bilde i tidlige tiår fra det tjueførste århundre, spesielt 1910-årene, 1930-årene og 1950-årene.

For å teste om disse mønsterne kunne mildnes, brukte forfatterne prompt-engineering, og uttrykkelig ba om fotorealistikk og frarådet monokromt utdata ved hjelp av en negativ prompt. I noen tilfeller ble dominanspoengene redusert, og den ledende stilen skiftet, for eksempel fra monokromt til maleri, i 1700- og 1800-tallet.

Men disse inngrepene produserte sjeldent virkelig fotorealistiske bilder, noe som indikerer at modellenes stil-standarder er dypt innarbeidede.

Historisk konsistens

Den neste linjen med analyse så på historisk konsistens: om genererte bilder inneholdt objekter som ikke passet til tidsperioden. I stedet for å bruke en fast liste over forbudte elementer, utviklet forfatterne en fleksibel metode som utnyttet store språkmodeller (LLM) og visuell-språk-modeller (VLM) til å spore elementer som syntes å være utenfor konteksten, basert på den historiske konteksten.

Detekteringsmetoden fulgte samme format som HistVis-datasettet, hvor hver prompt kombinerte en historisk periode med en menneskelig aktivitet. For hver prompt genererte GPT-4o en liste over objekter som ville være utenfor tid i den spesifiserte perioden; og for hvert foreslått objekt produserte GPT-4o et ja- eller nei-spørsmål som skulle sjekke om det objektet dukket opp i det genererte bildet.

For eksempel, gitt prompten ‘En person som lytter til musikk i 1700-tallet’, kunne GPT-4o identifisere moderne lydenheter som historisk uakkurate, og produsere spørsmålet Er personen bruker hodetelefoner eller en smarttelefon som ikke eksisterte i 1700-tallet?.

Disse spørsmålene ble sendt tilbake til GPT-4o i en visuell spørsmål-svar-oppsetting, hvor modellen gjennomgikk bildet og returnerte et ja eller nei-svar for hvert objekt.

Dette røret gjorde det mulig å detektere historisk implausibelt innhold uten å stole på noen forhåndsbestemt taksonomi over moderne objekter:

Eksempler på genererte bilder merket av den to-trinns detekteringsmetoden, som viser anakronistiske elementer: hodetelefoner i 1700-tallet; en støvsuger i 1800-tallet; en bærbar datamaskin i 1930-årene; og en smarttelefon i 1950-årene.

For å måle hvor ofte anakronismer dukket opp i de genererte bildene, introduserte forfatterne en enkel metode for å score frekvens og alvorlighet. Først tok de hensyn til mindre ordvalgsforskjeller i hvordan GPT-4o beskrev det samme objektet.

For eksempel ble moderne lydenhet og digital lydenhet behandlet som ekvivalente. For å unngå dobbelttelling, ble et fuzzy matching system brukt til å gruppere disse overflatenivå-forskjellene uten å påvirke virkelig distinkte konsepter.

Når alle foreslåtte anakronismer var normalisert, ble to metrikker beregnet: frekvens målte hvor ofte et gitt objekt dukket opp i bilder for en bestemt tidsperiode og modell; og alvorlighet målte hvor pålitelig det objektet dukket opp en gang det var foreslått av modellen.

Hvis en moderne telefon ble merket ti ganger og dukket opp i ti genererte bilder, fikk den en alvorlighetspoeng på 1,0. Hvis den dukket opp i bare fem, var alvorlighetspoenget 0,5. Disse poengene hjalp med å identifisere ikke bare om anakronismer forekom, men også hvor sterkt de var innarbeidede i modellens utdata for hver periode:

Topp femten anakronistiske elementer for hver modell, plottet etter frekvens på x-aksen og alvorlighet på y-aksen. Sirkler markerer elementer rangert i topp femten etter frekvens, trekanter etter alvorlighet, og diamanter etter begge.

Ovenfor ser vi de femten mest vanlige anakronismene for hver modell, rangert etter hvor ofte de dukket opp og hvor konsekvent de matchet promptene.

Klede var hyppige men spredte, mens objekter som lydenheter og strykejern dukket opp mindre ofte, men med høy konsekvens – mønster som tyder på at modellene ofte responderer mer på aktiviteten i prompten enn på tidsperioden.

SD3 viste den høyeste raten av anakronismer, spesielt i 1800-tallets og 1930-årenes bilder, fulgt av FLUX.1 og SDXL.

For å teste hvor godt detekteringsmetoden matchet menneskelig dømmekraft, gjennomførte forfatterne en brukerstudie med 1 800 tilfeldig utvalgte bilder fra SD3 (modellen med den høyeste anakronismen-raten), hvor hvert bilde ble vurdert av tre crowd-arbeidere. Etter å ha filtrert for pålitelige svar, ble 2 040 dømminger fra 234 brukere inkludert, og metoden var enig med flertallet i 72 prosent av tilfellene.

GUI for den menneskelige evalueringstudien, som viser oppgaveinstruksjoner, eksempler på nøyaktige og anakronistiske bilder, og ja/nei-spørsmål for å identifisere temporale inkonsistenser i genererte utdata.

Demografi

Den siste analysen så på hvordan modellene avbilder rase og kjønn over tid. Ved å bruke HistVis-datasettet, sammenlignet forfatterne modellutdata med basisestimat generert av en språkmodell. Disse estimatene var ikke nøyaktige, men tilbød en omtrentlig forestilling av historisk plausibilitet, og hjalp med å avsløre om modellene tilpasset avbildninger til den ønskede perioden.

For å vurdere disse avbildningene i stor skala, bygget forfatterne en pipeline som sammenlignet modellgenererte demografi med basisforventninger generert av en språkmodell. De brukte først FairFace-klassifiseringen, en ResNet34-basert verktøy trent på over hundre tusen bilder, til å detektere kjønn og rase i de genererte utdataene, og muliggjorde måling av hvor ofte ansikter i hver scene ble klassifisert som mann eller kvinne, og for å spore rasekategorier over perioder.

Eksempler på genererte bilder som viser demografisk overrepresentasjon over forskjellige modeller, tidsperioder og aktiviteter.

Lav-konfidens-resultater ble filtrert ut for å redusere støy, og prediksjoner ble gjennomsnittlig over alle bilder knyttet til en bestemt tid og aktivitet. For å sjekke påliteligheten av FairFace-lesningene, ble et annet system basert på DeepFace brukt på en prøve på 5 000 bilder. De to klassifiseringsverktøyene viste sterk enighet, og støttet konsistensen av de demografiske lesningene brukt i studien.

For å sammenligne modellutdata med historisk plausibilitet, ba forfatterne GPT-4o om å estimere den forventede kjønns- og rasefordelingen for hver aktivitet og tidsperiode. Disse estimatene tjente som omtrentlige baselinjer fremfor noen form for sannhet. To metrikker ble deretter brukt: underrepresentasjon og overrepresentasjon, som målte hvor mye modellutdataene avvik fra LLM-estimater.

Resultatene viste klare mønster: FLUX.1 overrepresenterte ofte menn, selv i scenarier som matlaging, hvor kvinner var forventet; SD3 og SDXL viste lignende trender over kategorier som arbeid, utdanning og religion; hvite ansikter dukket opp mer enn forventet totalt sett, selv om denne biasen avtok i nyere perioder; og noen kategorier viste uventede økninger i ikke-hvite representasjoner, noe som tyder på at modellatferd kan reflektere datasett-korrelasjoner fremfor historisk kontekst:

Kjønns- og raseoverrepresentasjon og underrepresentasjon i FLUX.1-utdata over århundrer og aktiviteter, vist som absolutte forskjeller fra GPT-4o-demografiske estimeringer.

Forfatterne konkluderer:

‘Vår analyse avslører at [Tekst-til-bilde/TTI]-modeller stoler på begrensede stil-kodinger fremfor nuanserte forståelser av historiske perioder. Hver epoke er sterkt knyttet til en bestemt visuell stil, noe som resulterer i todimensjonale skildringer av historien.

‘Merkbart er at fotorealistiske avbildninger av mennesker kun dukker opp fra det tjueførste århundre og utover, med bare sjeldne unntak i FLUX.1 og SD3, noe som tyder på at modellene forsterker innlærte assosiasjoner fremfor å tilpasse seg historiske kontekster fleksibelt, og videreformerer forestillingen om at realisme er en moderne egenskap.

‘I tillegg indikerer hyppige anakronismer at historiske perioder ikke er renset skilt i de latente rommene til disse modellene, ettersom moderne artefakter ofte dukker opp i før-moderne sammenhenger, og undergraver påliteligheten av TTI-systemer i utdannings- og kulturarvssammenhenger.’

Konklusjon

Under treningen av en difusjonsmodell, setter nye konsepter seg ikke nøyaktig inn i forhåndsbestemte hull i det latente rommet. I stedet danner de kluster som formasjonert av hvor ofte de opptrer og av deres nærhet til relaterte ideer. Resultatet er en løst organisert struktur hvor konsepter eksisterer i forhold til deres frekvens og typisk kontekst, fremfor noen ren eller empirisk skille.

Dette gjør det vanskelig å isolere hva som teller som ‘historisk’ innenfor et stort, generelt datasett. Som funnene i den nye artikkelen antyder, blir mange tidsperioder representert mer av utseendet til mediet som brukes til å avbilde dem enn av noen dypere historisk detalj.

Dette er en av grunnene til at det fortsatt er vanskelig å generere et fotorealistisk bilde av en skikkelse fra (for eksempel) 1800-tallet; i de fleste tilfeller vil modellen stole på visuelle tropier hentet fra film og TV. Når disse feiler i å matche forespørselen, er det lite annet i dataene som kan kompensere. Å brokke denne gapet vil sannsynligvis avhenge av fremtidige forbedringer i å skille sammenflettede konsepter.

Først publisert mandag, 26. mai 2025