Andersons vinkel

Hur man stoppar AI från att avbilda iPhones i förflutna epoker

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Hur avbildar AI-bildgenererare det förflutna? Ny forskning visar att de lägger till smartphones i 1700-talet, infogar bärbara datorer i 1930-talets scener och placerar dammsugare i 1800-talets hem, vilket väcker frågor om hur dessa modeller föreställer sig historien – och om de över huvud taget är kapabla till kontextuell historisk exakthet.

I början av 2024 kritiserades Google’s Gemini multimodala AI-modells bildgenereringsförmåga för att påtvinga demografisk rättvisa i olämpliga sammanhang, såsom att generera WWII-tyska soldater med osannolika ursprung:

Demografiskt osannolika tyska militärpersonal, som avbildats av Google’s Gemini multimodala modell 2024. Källa: Gemini AI/Google via The Guardian

Detta var ett exempel där försök att åtgärda bias i AI-modeller inte tog hänsyn till ett historiskt sammanhang. I detta fall åtgärdades problemet kort därefter. Men diffusionsbaserade modeller förblir benägna att generera versioner av historien som förvirrar moderna och historiska aspekter och artefakter.

Detta beror delvis på sammanflätning, där egenskaper som ofta förekommer tillsammans i träningsdata blir sammanflätade i modellens utdata. Till exempel, om moderna föremål som smartphones ofta förekommer tillsammans med handlingen att tala eller lyssna i datamängden, kan modellen lära sig att associera dessa handlingar med moderna enheter, även när prompten specificerar ett historiskt sammanhang. När dessa associationer är inbäddade i modellens inre representationer, blir det svårt att separera handlingen från dess samtida sammanhang, vilket leder till historiskt inkorrekta resultat.

En ny rapport från Schweiz, som undersöker fenomenet med sammanflätade historiska generationer i latenta diffusionsmodeller, observerar att AI-ramverk som är mycket kapabla att skapa fotorealistiska människor ändå föredrar att avbilda historiska figurer på historiska sätt:

Från den nya rapporten, olika representationer via LDM av prompten ‘En fotorealistisk bild av en person som skrattar med en vän i [den historiska perioden]’, med varje period indikerad i varje utdata. Som vi kan se, har mediet för epoken blivit associerat med innehållet. Källa: https://arxiv.org/pdf/2505.17064

För prompten ‘En fotorealistisk bild av en person som skrattar med en vän i [den historiska perioden]’, ignorerar en av de tre testade modellerna ofta den negativa prompten ‘monokrom’ och använder istället färgbehandlingar som reflekterar det visuella mediet för den angivna epoken, till exempel genom att efterhärma de dämpade tonerna från celluloidfilm från 1950- och 1970-talen.

Vid testning av de tre modellerna för deras förmåga att skapa anakronismer (saker som inte tillhör målperioden, eller ‘ur tiden’ – som kan vara från målperiodens framtid såväl som dess förflutna), fann de en allmän benägenhet att sammanfoga tidlösa aktiviteter (såsom ‘sång’ eller ‘matlagning’) med moderna sammanhang och utrustning:

Olika aktiviteter som är fullständigt giltiga för tidigare århundraden avbildas med nuvarande eller senare teknologi och utrustning, mot den avsedda bildens anda.

Av särskild betydelse är att smartphones är särskilt svåra att separera från fotografins idiom och från många andra historiska sammanhang, eftersom deras spridning och avbildning är väl representerad i inflytelserika hyperskale-datasets som Common Crawl:

I den generativa text-till-bild-modellen Flux, är kommunikation och smartphones tätt associerade begrepp – även när historiskt sammanhang inte tillåter det.

För att bestämma omfattningen av problemet och ge framtida forskningsinsatser en väg framåt med denna särskilda båg, utvecklade rapportens författare en specialanpassad dataset för att testa generativa system. I ett ögonblick, ska vi titta på detta nya arbete, som heter Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models, och kommer från två forskare vid Universitetet i Zürich. Datamängden och koden är offentligt tillgängliga.

En skör ‘sanning’

Några av temana i rapporten berör kulturellt känsliga frågor, såsom underrepresentering av raser och kön i historiska representationer. Medan Geminis påtvingande av raslig jämlikhet i det grovt ojämlika Tredje riket är en absurd och kränkande historisk revision, skulle återställande av ‘traditionella’ rasliga representationer (där diffusionsmodeller har ‘uppdaterat’ dessa) ofta i praktiken ‘om-vita’ historien.

Många nyliga framgångsrika historiska shower, såsom Bridgerton, suddar ut historisk demografisk exakthet på sätt som sannolikt kommer att påverka framtida träningsdataset, vilket komplicerar ansträngningar att anpassa LLM-genererad periodbild till traditionella standarder. Men detta är ett komplext ämne, med tanke på den historiska tendensen att (västerländsk) historia favoriserar rikedom och vithet, och att lämna så många ‘mindre’ berättelser obeskrivna.

Med tanke på dessa knepiga och ständigt föränderliga kulturella parametrar, låt oss titta på forskarnas nya tillvägagångssätt.

Metod och tester

För att testa hur generativa modeller tolkar historiskt sammanhang, skapade författarna HistVis, en dataset på 30 000 bilder producerade från hundra prompter som avbildar vanliga mänskliga aktiviteter, var och en återgiven över tio olika tidsperioder:

Ett urval från HistVis-datasetet, som författarna har gjort tillgängligt på Hugging Face. Källa: https://huggingface.co/datasets/latentcanon/HistVis

Aktiviteterna, såsom matlagning, bön eller lyssnande på musik, valdes för deras universalitet, och formulerades på ett neutralt sätt för att undvika att ankra modellen i någon särskild estetik. Tidsperioder för datasetet sträcker sig från 1600-talet till nutid, med tillagt fokus på fem enskilda decennier från 1900-talet.

30 000 bilder genererades med hjälp av tre allmänt använda öppen källkods-diffusionsmodeller: Stable Diffusion XL; Stable Diffusion 3; och FLUX.1. Genom att isolera tidsperioden som den enda variabeln, skapade forskarna en strukturerad grund för att utvärdera hur historiska signaler är visuellt kodade eller ignorerade av dessa system.

Visuell stil-dominans

Författarna undersökte initialt om generativa modeller som standard använder specifika visuella stilar när de avbildar historiska perioder; eftersom det tycktes att även när prompter inte innehöll någon nämnande av medium eller estetik, modellerna ofta associerade särskilda århundraden med karakteristiska stilar:

Förutsagda visuella stilar för bilder genererade från prompten ‘En person som dansar med en annan i [den historiska perioden]’ (vänster) och från den modifierade prompten ‘En fotorealistisk bild av en person som dansar med en annan i [den historiska perioden]’ med ‘monokrom bild’ som negativ prompt (höger).

För att mäta denna tendens, tränade författarna en konvolutionsneuronal nätverk (CNN) för att klassificera varje bild i HistVis-datasetet i en av fem kategorier: teckning; gravyr; illustration; målning; eller fotografi. Dessa kategorier var avsedda att reflektera vanliga mönster som uppstår över tidsperioder och som stöder strukturerad jämförelse.

Klassificeringen baserades på en VGG16-modell som förtränats på ImageNet och finjusterats med 1 500 exempel per klass från ett WikiArt-baserat dataset. Eftersom WikiArt inte skiljer på monokrom och färgfotografi, användes en färgrikedomspoäng för att märka låg-satureringsbilder som monokroma.

Den tränade klassificeringen applicerades sedan på hela datasetet, med resultaten som visade att alla tre modellerna påtvingar konsekventa stilstandarder per period: SDXL associerar 1600- och 1700-talen med gravyrer, medan SD3 och FLUX.1 tenderar mot målningar. I 1900- och 2000-talets decennier favoriserar SD3 monokrom fotografi, medan SDXL ofta returnerar moderna illustrationer.

Dessa preferenser visade sig bestå trots promptjusteringar, vilket tyder på att modellerna kodar in djupt rotade länkar mellan stil och historiskt sammanhang.

Förutsagda visuella stilar för genererade bilder över historiska perioder för varje diffusionsmodell, baserat på 1 000 prover per period per modell.

För att kvantifiera hur starkt en modell länkar en historisk period till en särskild visuell stil, utvecklade författarna en metric som de kallar Visuell stil-dominans (VSD). För varje modell och tidsperiod definieras VSD som andelen utdata som förutsägs dela den vanligaste stilen:

Exempel på stilistiska fördomar över modellerna.

En högre poäng indikerar att en enda stil dominerar utdata för den perioden, medan en lägre poäng pekar på större variation. Detta gör det möjligt att jämföra hur starkt varje modell följer specifika stilkonventioner över tiden.

Tillämpat på hela HistVis-datasetet, visar VSD-metoden skiftande grad av konvergens, vilket hjälper till att förtydliga hur starkt varje modell begränsar sin visuella tolkning av det förflutna:

Resultattabellen ovan visar VSD-poäng över historiska perioder för varje modell. I 1600- och 1700-talen tenderar SDXL att producera gravyrer med hög konsekvens, medan SD3 och FLUX.1 favoriserar målningar. I 1900- och 2000-talets decennier skiftar SD3 och FLUX.1 mot fotografi, medan SDXL visar mer variation, men ofta standardiserar till illustration.

Alla tre modellerna visar en stark preferens för monokrom bild i tidigare decennier av 1900-talet, särskilt 1910-, 1930- och 1950-talen.

För att testa om dessa mönster kunde mildras, använde författarna prompt-teknik, och uttryckligen begärde fotorealism och avskräckte monokrom utdata med en negativ prompt. I vissa fall minskade dominanspoängen, och den ledande stilen skiftade, till exempel från monokrom till målning, i 1600- och 1700-talen.

Men dessa ingrepp producerade sällan genuint fotorealistiska bilder, vilket tyder på att modellernas stilstandarder är djupt inbäddade.

Historisk konsekvens

Den nästa analyslinjen undersökte historisk konsekvens: om genererade bilder innehöll föremål som inte passade tidsperioden. Istället för att använda en fast lista över förbjudna föremål, utvecklade författarna en flexibel metod som utnyttjade stora språkmodeller (LLM) och vision-språk-modeller (VLM) för att upptäcka element som tycktes vara ur plats, baserat på det historiska sammanhanget.

Upptäcktsmetoden följde samma format som HistVis-datasetet, där varje prompt kombinerade en historisk period med en mänsklig aktivitet. För varje prompt genererade GPT-4o en lista över föremål som skulle vara ur plats i den angivna tidsperioden; och för varje föreslaget föremål producerade GPT-4o ett ja eller nej-fråga för att kontrollera om det föremålet förekom i den genererade bilden.

Till exempel, givet prompten ‘En person som lyssnar på musik i 1700-talet’, kunde GPT-4o identifiera moderna ljudenheter som historiskt inkorrekta, och producera frågan Använder personen hörlurar eller en smartphone som inte existerade i 1700-talet?.

Dessa frågor skickades tillbaka till GPT-4o i en visuell fråge-svarssättning, där modellen granskade bilden och returnerade ett ja eller nej-svar för varje. Detta pipeline-möjliggjorde upptäckt av historiskt inkorrekta innehåll utan att förlita sig på någon fördefinierad taxonomi av moderna föremål:

Exempel på genererade bilder som flaggats av den två-stegs-upptäcktsmetoden, visande anakronistiska element: hörlurar i 1700-talet; en dammsugare i 1800-talet; en bärbar dator i 1930-talet; och en smartphone i 1950-talet.

För att mäta hur ofta anakronismer förekom i de genererade bilderna, introducerade författarna en enkel metod för att poängsätta frekvens och allvarlighetsgrad. Först tog de hänsyn till mindre ordvalsförändringar i hur GPT-4o beskrev samma föremål.

Till exempel behandlades moderna ljudenheter och digitala ljudenheter som ekvivalenta. För att undvika dubbelräkning, användes ett fuzzy matchningssystem för att gruppera dessa ytliga variationer utan att påverka genuint distinkta koncept.

När alla föreslagna anakronismer var normaliserade, beräknades två metoder: frekvens mätte hur ofta ett visst föremål förekom i bilder för en specifik tidsperiod och modell; och allvarlighetsgrad mätte hur tillförlitligt det föremålet förekom en gång det hade föreslagits av modellen.

Om en modern telefon flaggades tio gånger och förekom i tio genererade bilder, fick den en allvarlighetsgradspoäng på 1,0. Om den förekom i endast fem, var allvarlighetsgradspoängen 0,5. Dessa poäng hjälpte till att identifiera inte bara om anakronismer förekom, utan också hur starkt de var inbäddade i modellens utdata för varje period:

De femton mest anakronistiska elementen för varje modell, plottade efter frekvens på x-axeln och allvarlighetsgrad på y-axeln. Cirklar markerar element som rankades i topp-15 efter frekvens, trianglar efter allvarlighetsgrad, och diamanter efter båda.

Ovan ser vi de femton vanligaste anakronismerna för varje modell, rankade efter hur ofta de förekom och hur konsekvent de matchade prompter.

Kläder var vanliga men spridda, medan föremål som ljudenheter och strykjärn förekom mindre ofta, men med hög konsekvens – mönster som tyder på att modellerna ofta svarar på aktiviteten i prompten mer än tidsperioden.

SD3 visade den högsta frekvensen av anakronismer, särskilt i 1800-talets och 1930-talets bilder, följt av FLUX.1 och SDXL.

För att testa hur väl upptäcktsmetoden matchade mänsklig bedömning, genomförde författarna en användarstudie med 1 800 slumpmässigt valda bilder från SD3 (modellen med den högsta anakronismfrekvensen), med varje bild bedömd av tre crowd-arbetare. Efter filtrering för tillförlitliga svar, ingick 2 040 bedömningar från 234 användare, och metoden överensstämde med majoritetsrösten i 72 procent av fallen.

GUI för den mänskliga utvärderingsstudien, som visar uppgiftsinstruktioner, exempel på korrekta och anakronistiska bilder, och ja/nej-frågor för att identifiera temporala inkonsekvenser i genererade utdata.

Demografiska aspekter

Den sista analysen undersökte hur modellerna avbildar ras och kön över tiden. Med hjälp av HistVis-datasetet, jämförde författarna modellutdata med baslinjeuppskattningar genererade av en språkmodell. Dessa uppskattningar var inte exakta, men erbjöd en ungefärlig känsla av historisk plausibilitet, vilket hjälpte till att avslöja om modellerna anpassade avbildningar till den avsedda perioden.

För att utvärdera dessa avbildningar i stor skala, byggde författarna en pipeline som jämförde modellgenererade demografiska data med råa uppskattningar. De använde först FairFace-klassificeringen, en ResNet34-baserad verktyg tränad på över 100 000 bilder, för att upptäcka kön och ras i de genererade utdata, vilket möjliggjorde mätning av hur ofta ansikten i varje scen klassificerades som manliga eller kvinnliga, och för att spåra rasliga kategorier över perioder:

Exempel på genererade bilder som visar demografisk överrepresentation över olika modeller, tidsperioder och aktiviteter.

Lågkonfidensresultat filtrerades bort för att minska brus, och förutsägelserna genomsnittliges över alla bilder kopplade till en specifik tidsperiod och aktivitet. För att kontrollera tillförlitligheten hos FairFace-läsningarna, användes ett andra system baserat på DeepFace på ett urval av 5 000 bilder. De två klassificeringarna visade stark överensstämmelse, vilket stöder konsekvensen hos de demografiska läsningarna som användes i studien.

För att jämföra modellutdata med historisk plausibilitet, bad författarna GPT-4o att uppskatta den förväntade kön- och rasfördelningen för varje aktivitet och tidsperiod. Dessa uppskattningar fungerade som råa baslinjer snarare än sanning. Två metoder användes: underrepresentation och överrepresentation, som mätte hur mycket modellens utdata avvek från LLM:s förväntningar.

Resultaten visade tydliga mönster: FLUX.1 tenderade ofta att överrepresentera män, även i scenarier som matlagning, där kvinnor förväntades; SD3 och SDXL visade liknande trender över kategorier som arbete, utbildning och religion; vita ansikten förekom mer än förväntat totalt sett, men denna bias minskade i senare perioder; och vissa kategorier visade oväntade toppar i icke-vita representationer, vilket tyder på att modellbeteende kan reflektera dataset-sammanhang snarare än historiskt sammanhang:

Kön och raslig överrepresentation och underrepresentation i FLUX.1-utdata över århundraden och aktiviteter, visade som absoluta skillnader från GPT-4o-demografiska uppskattningar.

Författarna slutsats:

‘Vår analys visar att [Text-till-bild/TTI]-modeller förlitar sig på begränsade stilistiska kodningar snarare än nyanserade förståelser av historiska perioder. Varje epok är starkt kopplad till en specifik visuell stil, vilket resulterar i en-dimensionella avbildningar av historien.

‘Notabelt är att fotorealistiska avbildningar av människor endast förekommer från 1900-talet och framåt, med endast sällsynta undantag i FLUX.1 och SD3, vilket tyder på att modellerna förstärker inlärda associationer snarare än anpassar sig flexibelt till historiska sammanhang, och därmed befäster föreställningen att realism är en modern egenskap.

‘Dessutom tyder frekventa anakronismer på att historiska perioder inte är renodlat separerade i dessa modellers latenta utrymmen, eftersom moderna artefakter ofta dyker upp i förmoderniska miljöer, vilket undergräver tillförlitligheten hos TTI-system i utbildnings- och kulturarvssammanhang.’

Slutsats

Under träningsprocessen för en diffusionsmodell, bosätter sig nya koncept inte i fördefinierade fack i det latenta utrymmet. Istället bildar de kluster som formas av hur ofta de förekommer och av deras närhet till relaterade idéer. Resultatet är en löst organiserad struktur där koncept existerar i relation till deras frekvens och typiska sammanhang, snarare än genom någon ren eller empirisk separation.

Detta gör det svårt att isolera vad som räknas som ‘historiskt’ inom ett stort, allmänt ändamål-dataset. Som de nya rapportens fynd antyder, representeras många tidsperioder mer av utseendet på mediet som används för att avbilda dem, snarare än av någon djupare historisk detalj.

Detta är en anledning till att det förblir svårt att generera en fotorealistisk bild av en figur från (till exempel) 1800-talet; i de flesta fall kommer modellen att förlita sig på visuella klichéer från film och television. När dessa misslyckas med att matcha begäran, finns det lite annat i datat som kan kompensera. Att överbrygga denna klyfta kommer sannolikt att bero på framtida förbättringar i att separera överlappande koncept.

Publicerad första gången måndagen den 26 maj 2025