Andersons vinkel
Hur man stoppar AI som avbildar iPhones i svunna tider

Hur avbildar AI-bildgeneratorer det förflutna? Ny forskning tyder pĂ„ att de placerar smartphones i 18-talet, bĂ€rbara datorer i 1930-talsscener och dammsugare i 19-talshem, vilket vĂ€cker frĂ„gor om hur dessa modeller avbildar historia â och om de överhuvudtaget Ă€r kapabla till kontextuell historisk noggrannhet.
Tidigt 2024, bildgenereringsmöjligheterna hos Googles tvillingarna den multimodala AI-modellen kritiserades för att ha infört demografisk rÀttvisa i olÀmpliga sammanhang, som att generera tyska soldater frÄn andra vÀrldskriget med osannolikt ursprung:

Demografiskt osannolik tysk militÀrpersonal, enligt Googles Gemini-multimodala modell Är 2024. KÀlla: Gemini AI/Google via The Guardian
Detta var ett exempel dÀr försök att ÄtgÀrda förspÀnning I AI-modeller tog man inte hÀnsyn till ett historiskt sammanhang. I det hÀr fallet ÄtgÀrdades problemet kort dÀrefter. Emellertid diffusionsbaserad modeller Àr fortfarande benÀgna att generera versioner av historien som förvÀxlar moderna och historiska aspekter och artefakter.
Detta beror delvis pÄ intrassling, dÀr egenskaper som ofta förekommer tillsammans i trÀningsdata sammansmÀlter i modellens utdata. Om till exempel moderna objekt som smartphones ofta förekommer samtidigt som man pratar eller lyssnar i datamÀngden, kan modellen lÀra sig att associera dessa aktiviteter med moderna enheter, Àven nÀr prompten anger en historisk miljö. NÀr dessa associationer Àr inbÀddade i modellens interna representationer, blir det svÄrt att separera aktiviteten frÄn dess samtida kontext, vilket leder till historiskt felaktiga resultat.
En ny artikel frÄn Schweiz, som undersöker fenomenet med sammanflÀtade historiska generationer i latenta diffusionsmodeller, observerar att AI-ramverk som Àr ganska kapabel att skapa fotorealistiska mÀnniskor föredrar ÀndÄ att skildra historiska personer pÄ historiska sÀtt:
![FrÄn den nya artikeln, olika representationer via LDM av prompten 'En fotorealistisk bild av en person som skrattar med en vÀn i [den historiska perioden]', med varje period angiven i varje utdata. Som vi kan se har erans medium blivit associerat med innehÄllet. KÀlla: https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
FrÄn den nya artikeln, olika representationer via LDM av prompten 'En fotorealistisk bild av en person som skrattar med en vÀn i [den historiska perioden]', med varje period angiven i varje utdata. Som vi kan se har erans medium blivit associerat med innehÄllet. KÀlla: https://arxiv.org/pdf/2505.17064
Vid testning av de tre modellernas förmĂ„ga att skapa anakronismer (saker som inte Ă€r frĂ„n mĂ„lperioden, eller 'förutom tid' â som kan vara frĂ„n mĂ„lperiodens framtida sĂ„vĂ€l som dess förflutna), fann de en allmĂ€n benĂ€genhet att sammanblanda tidlösa aktiviteter (som "sĂ„ng" eller "matlagning") med moderna sammanhang och utrustning:

Olika aktiviteter som Àr helt giltiga för tidigare Ärhundraden avbildas med aktuell eller nyare teknologi och tillbehör, emot andan i den begÀrda bildsprÄket.
Det Àr vÀrt att notera att smartphones Àr sÀrskilt svÄra att separera frÄn fotografiets idiom, och frÄn mÄnga andra historiska sammanhang, eftersom deras spridning och avbildning Àr vÀl representerad i inflytelserika hyperskaliga datamÀngder som Vanlig genomsökning:

I Flux generativa text-till-bild-modell Ă€r kommunikation och smartphones nĂ€ra förknippade begrepp â Ă€ven nĂ€r det historiska sammanhanget inte tillĂ„ter det.
För att faststĂ€lla problemets omfattning och för att ge framtida forskningsinsatser en vĂ€g framĂ„t med just detta problem, utvecklade författarna till den nya artikeln en skrĂ€ddarsydd datamĂ€ngd mot vilken generativa system kan testas. Om en stund ska vi titta pĂ„ detta. nytt jobb, som heter Syntetisk historia: UtvĂ€rdering av visuella representationer av det förflutna i diffusionsmodeller, och kommer frĂ„n tvĂ„ forskare vid ZĂŒrichs universitet. Datasetet och koden Ă€r offentligt tillgĂ€ngliga.
En brÀcklig 'sanning'
NÄgra av teman i rapporten berör kulturellt kÀnsliga frÄgor, sÄsom underrepresentation av raser och kön i historiska representationer. Medan Gemini införande av rasjÀmlikhet i det grovt orÀttvisa Tredje riket Àr en absurd och förolÀmpande historisk revision, skulle ÄterstÀllandet av "traditionella" rasrepresentationer (dÀr diffusionsmodeller har "uppdaterat" dessa) ofta effektivt "ÄtermÄla" historien.
MÄnga historiska succéprogram pÄ senare tid, som till exempel bridgerton, sudda ut historisk demografisk noggrannhet pÄ sÀtt som sannolikt kommer att pÄverka framtida trÀningsdataset, vilket komplicerar anstrÀngningarna att anpassa LLM-genererade periodbilder till traditionella standarder. Detta Àr dock ett komplext Àmne, med tanke pÄ historisk tendens av (vÀsterlÀndsk) historia för att gynna rikedom och vithet, och att lÀmna sÄ mÄnga "mindre" berÀttelser oberÀttade.
Med tanke pÄ dessa knepiga och stÀndigt förÀnderliga kulturella parametrar, lÄt oss ta en titt pÄ forskarnas nya tillvÀgagÄngssÀtt.
Metod och tester
För att testa hur generativa modeller tolkar historisk kontext skapade författarna HistVis, en datauppsÀttning med 30,000 XNUMX bilder producerade frÄn hundra uppmaningar som visar vanliga mÀnskliga aktiviteter, var och en renderad över tio distinkta tidsperioder:

Ett exempel frÄn HistVis-datasetet, som författarna har gjort tillgÀngligt pÄ Hugging Face. KÀlla: https://huggingface.co/datasets/latentcanon/HistVis
Aktiviteterna, som till exempel kokning, bön- or lyssnar pÄ musik, valdes för sin universalitet och formulerades i ett neutralt format för att undvika att förankra modellen i nÄgon sÀrskild estetik. Tidsperioder för datamÀngden strÀcker sig frÄn 1600-talet till nutid, med extra fokus pÄ fem enskilda decennier frÄn 1900-talet.
30,000 XNUMX bilder genererades med hjÀlp av tre allmÀnt anvÀnda diffusionsmodeller med öppen kÀllkod: Stabil Diffusion XL; Stabil diffusion 3; Och FLUX.1Genom att isolera tidsperioden som enda variabel skapade forskarna en strukturerad grund för att utvÀrdera hur historiska signaler visuellt kodas eller ignoreras av dessa system.
Visuell stildominans
Författaren undersökte inledningsvis om generativa modeller som standard anvÀnder specifika visuella stilar nÀr de avbildade historiska perioder; eftersom det verkade som att Àven nÀr uppmaningarna inte nÀmnde nÄgot om medium eller estetik, associerade modellerna ofta specifika Ärhundraden med karakteristiska stilar:
![FörutspÄdda visuella stilar för bilder genererade frÄn prompten "En person som dansar med en annan under [historisk period]" (vÀnster) och frÄn den modifierade prompten "En fotorealistisk bild av en person som dansar med en annan under [historisk period]" med "monokrom bild" instÀlld som negativ prompt (höger).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
FörutspÄdda visuella stilar för bilder genererade frÄn prompten "En person som dansar med en annan under den [historiska perioden]" (vÀnster) och frÄn den modifierade prompten "En fotorealistisk bild av en person som dansar med en annan under den [historiska perioden]" med "monokrom bild" instÀlld som en negativ prompt (höger).
Klassificeraren baserades pÄ en VGG16 modell förtrÀnad pÄ IMAGEnet och finstÀmd med 1,500 XNUMX exempel per klass frÄn en WikiArt-hÀrledd datauppsÀttning. Eftersom WikiArt inte skiljer pÄ monokrom fotografering frÄn fÀrgfotografering, en separat fÀrggrannhetspoÀng anvÀndes för att mÀrka bilder med lÄg mÀttnad som monokroma.
Den trÀnade klassificeraren tillÀmpades sedan pÄ hela datamÀngden, och resultaten visade att alla tre modellerna tillÀmpar konsekventa stilistiska standardvÀrden per period: SDXL associerar 17- och 18-talen med gravyrer, medan SD3 och FLUX.1 tenderar mot mÄlningar. Under 3-talets decennier föredrar SDXNUMX monokrom fotografi, medan SDXL ofta anvÀnder moderna illustrationer.
Dessa preferenser visade sig bestÄ trots snabba justeringar, vilket tyder pÄ att modellerna kodar för djupt rotade kopplingar mellan stil och historiskt sammanhang.

FörutspÄdda visuella stilar för genererade bilder över historiska perioder för varje diffusionsmodell, baserat pÄ 1,000 XNUMX sampel per period per modell.
Att kvantifiera hur starkt en modell kopplar en historisk period till en viss visuell stil, utvecklade författarna ett mÄtt som de kallar Visuell stildominans (VSD). För varje modell och tidsperiod definieras VSD som andelen utdata som förvÀntas dela den vanligaste stilen:

Exempel pÄ stilistiska bias mellan modellerna.
En högre poÀng indikerar att en enda stil dominerar resultaten för den perioden, medan en lÀgre poÀng pekar pÄ större variation. Detta gör det möjligt att jÀmföra hur noggrant varje modell följer specifika stilistiska konventioner över tid.
TillÀmpat pÄ hela HistVis-datasetet avslöjar VSD-metriken olika nivÄer av konvergens, vilket hjÀlper till att klargöra hur starkt varje modell begrÀnsar sin visuella tolkning av det förflutna:
Resultattabellen ovan visar VSD-poÀng över historiska perioder för varje modell. Under 17- och 18-talen tenderar SDXL att producera gravyrer med hög konsistens, medan SD3 och FLUX.1 föredrar mÄleri. Under 20- och 21-talen övergÄr SD3 och FLUX.1 till fotografi, medan SDXL visar mer variation, men ofta övergÄr till illustration.
Alla tre modellerna visar en stark preferens för monokroma bilder under 20-talets tidigare decennier, sÀrskilt 1910-, 1930- och 1950-talen.
För att testa om dessa mönster kunde mildras anvÀnde författarna snabb ingenjörskonst, vilket uttryckligen begÀr fotorealism och avrÄder frÄn svartvit utskrift med hjÀlp av en negativ prompt. I vissa fall minskade dominanspoÀngen, och den ledande stilen skiftade till exempel frÄn svartvitt till mÄlning, pÄ 17- och 18-talen.
Dessa ingrepp producerade dock sÀllan genuint fotorealistiska bilder, vilket tyder pÄ att modellernas stilistiska standardvÀrden Àr djupt inbÀddade.
Historisk konsekvens
NÀsta analysrad tittade pÄ historisk konsistens: huruvida genererade bilder inkluderade objekt som inte passade in i tidsperioden. IstÀllet för att anvÀnda en fast lista över förbjudna objekt utvecklade författarna en flexibel metod som utnyttjade stora sprÄkmodeller (LLM) och vision-sprÄkmodeller (VLM) för att upptÀcka element som verkade malplacerade, baserat pÄ det historiska sammanhanget.
Detektionsmetoden följde samma format som HistVis-datasetet, dÀr varje prompt kombinerade en historisk period med en mÀnsklig aktivitet. För varje prompt genererade GPT-4o en lista över objekt som skulle vara felplacerade under den angivna tidsperioden; och för varje föreslaget objekt producerade GPT-4o en ja-eller-nej frÄga utformad för att kontrollera om objektet fanns med i den genererade bilden.
Till exempel, med tanke pÄ uppmaningen En person som lyssnar pÄ musik pÄ 18-talet, GPT-4o kan identifiera moderna ljudenheter som historiskt felaktiga, och skapa frÄgan AnvÀnder personen hörlurar eller en smartphone som inte fanns pÄ 18-talet?.
Dessa frÄgor skickades tillbaka till GPT-4o i en visuell frÄgesvarsuppstÀllning, dÀr modellen granskade bilden och returnerade en ja or Nej svar för varje. Denna pipeline möjliggjorde detektering av historiskt osannolikt innehÄll utan att förlita sig pÄ nÄgon fördefinierad taxonomi för moderna objekt:

Exempel pÄ genererade bilder som flaggats med tvÄstegsmetoden för detektering, som visar anakronistiska element: hörlurar pÄ 18-talet; en dammsugare pÄ 19-talet; en bÀrbar dator pÄ 1930-talet; och en smartphone pÄ 1950-talet.
För att mÀta hur ofta anakronismer förekom i de genererade bilderna introducerade författarna en enkel metod för att poÀngsÀtta frekvens och allvarlighetsgrad. Först tog de hÀnsyn till mindre skillnader i formuleringarna i hur GPT-4o beskrev samma objekt.
Till exempel behandlades moderna ljudenheter och digitala ljudenheter som likvÀrdiga. För att undvika dubbelrÀkning, en fuzzy matchningssystem anvÀndes för att gruppera dessa ytliga variationer utan att pÄverka verkligt distinkta koncept.
NÀr alla föreslagna anakronismer hade normaliserats berÀknades tvÄ mÀtvÀrden: frekvens mÀtte hur ofta ett givet objekt förekom i bilder under en specifik tidsperiod och modell; och strÀnghet mÀtte hur tillförlitligt objektet verkade nÀr det vÀl hade föreslagits av modellen.
Om en modern telefon flaggades tio gÄnger och förekom i tio genererade bilder fick den en allvarlighetspoÀng pÄ 1.0. Om den bara förekom i fem var allvarlighetspoÀngen 0.5. Dessa poÀng hjÀlpte till att identifiera inte bara om anakronismer förekom, utan hur djupt de var inbÀddade i modellens utdata för varje period:

De femton mest anakronistiska elementen för varje modell, ritade efter frekvens pÄ x-axeln och allvarlighetsgrad pÄ y-axeln. Cirklar markerar element som rankas bland de femton mest efter frekvens, trianglar efter allvarlighetsgrad och diamanter efter bÄda.
Ovan ser vi de femton vanligaste anakronismerna för varje modell, rangordnade efter hur ofta de förekom och hur konsekvent de matchade uppmaningarna.
KlĂ€der var frekventa men utspridda, medan föremĂ„l som ljudenheter och strykutrustning förekom mer sĂ€llan, men med hög konsistens â mönster som tyder pĂ„ att modellerna ofta reagerar pĂ„ aktivitet i prompten mer Ă€n tidsperioden.
SD3 visade den högsta andelen anakronismer, sÀrskilt i bilder frÄn 19-talet och 1930-talet, följt av FLUX.1 och SDXL.
För att testa hur vÀl detekteringsmetoden matchade mÀnsklig bedömning genomförde författarna en anvÀndarstudie med 1,800 3 slumpmÀssigt utvalda bilder frÄn SD2,040 (modellen med den högsta anakronismfrekvensen), dÀr varje bild betygsattes av tre anvÀndare. Efter filtrering för tillförlitliga svar inkluderades 234 72 bedömningar frÄn XNUMX anvÀndare, och metoden överensstÀmde med majoriteten i XNUMX procent av fallen.

GUI för den mÀnskliga utvÀrderingsstudien, som visar uppgiftsinstruktioner, exempel pÄ korrekta och anakronistiska bilder och ja-nej-frÄgor för att identifiera tidsmÀssiga inkonsekvenser i genererade utdata.
Demografi
Den slutliga analysen undersökte hur modeller avbildar ras och kön över tid. Med hjÀlp av HistVis-datasetet jÀmförde författarna modellresultat med baslinjeuppskattningar genererade av en sprÄkmodell. Dessa uppskattningar var inte exakta men gav en grov uppfattning om historisk rimlighet, vilket hjÀlpte till att avslöja om modellerna anpassade avbildningarna till den avsedda perioden.
För att bedöma dessa avbildningar i stor skala, byggde författarna en pipeline som jÀmförde modellgenererade demografiska data med ungefÀrliga förvÀntningar för varje tidpunkt och aktivitet. De anvÀnde först FairFace klassificerare, en ResNet34-baserat verktyg trÀnat pÄ över hundratusen bilder, för att upptÀcka kön och ras i de genererade resultaten, vilket möjliggör mÀtning av hur ofta ansikten i varje scen klassificerades som mÀn eller kvinnor, och för spÄrning av raskategorier över perioder.

Exempel pÄ genererade bilder som visar demografisk överrepresentation över olika modeller, tidsperioder och aktiviteter.
Resultat med lÄg tillförlitlighet filtrerades bort för att minska brus, och förutsÀgelserna medelvÀrdesbildades över alla bilder kopplade till en specifik tid och aktivitet. För att kontrollera tillförlitligheten hos FairFace-avlÀsningarna anvÀndes ett andra system baserat pÄ deepface anvÀndes pÄ ett urval av 5,000 XNUMX bilder. De tvÄ klassificeringsenheterna visade stark överensstÀmmelse, vilket stöder konsistensen i de demografiska avlÀsningar som anvÀndes i studien.
För att jÀmföra modellresultat med historisk rimlighet bad författarna GPT-4o att uppskatta den förvÀntade köns- och etnicitetsfördelningen för varje aktivitet och tidsperiod. Dessa uppskattningar fungerade som grova baslinjer snarare Àn verklighetsförankring. TvÄ mÀtvÀrden anvÀndes sedan: underrepresentation och överrepresentation, som mÀter hur mycket modellens utdata avvek frÄn LLM:s förvÀntningar.
Resultaten visade tydliga mönster: FLUX.1 överrepresenterade ofta mÀn, Àven i scenarier som kokning, dÀr kvinnor förvÀntades; SD3 och SDXL visade liknande trender inom olika kategorier som arbete, utbildning och religionVita ansikten förekom mer Àn vÀntat totalt sett, Àven om denna bias minskade under senare tid; och vissa kategorier uppvisade ovÀntade toppar i icke-vit representation, vilket tyder pÄ att modellbeteendet kan Äterspegla korrelationer mellan dataset snarare Àn historiskt sammanhang:

Ăverrepresentation och underrepresentation av kön och etnicitet i FLUX.1-resultat över Ă„rhundraden och aktiviteter, visade som absoluta skillnader frĂ„n GPT-4o-demografiska uppskattningar.
Författarna sluter till:
VÄr analys visar att [Text-till-bild/TTI]-modeller förlitar sig pÄ begrÀnsade stilistiska kodningar snarare Àn nyanserade förstÄelser av historiska perioder. Varje era Àr starkt knuten till en specifik visuell stil, vilket resulterar i endimensionella skildringar av historien.
'Det Àr vÀrt att notera att fotorealistiska avbildningar av mÀnniskor först förekommer frÄn 20-talet och framÄt, med endast sÀllsynta undantag i FLUX.1 och SD3, vilket tyder pÄ att modeller förstÀrker inlÀrda associationer snarare Àn att flexibelt anpassa sig till historiska sammanhang, vilket vidmakthÄller uppfattningen att realism Àr ett modernt drag.'
"Dessutom tyder frekventa anakronismer pÄ att historiska perioder inte Àr tydligt separerade i dessa modellers latenta utrymmen, eftersom moderna artefakter ofta framtrÀder i förmoderna miljöer, vilket undergrÀver TTI-systemens tillförlitlighet i utbildnings- och kulturarvskontexter."
Slutsats
Under trÀningen av en diffusionsmodell placeras nya koncept inte prydligt i fördefinierade platser inom det latenta utrymmet. IstÀllet bildar de kluster som formas av hur ofta de förekommer och av deras nÀrhet till relaterade idéer. Resultatet Àr en löst organiserad struktur dÀr koncept existerar i relation till deras frekvens och typiska sammanhang, snarare Àn genom nÄgon ren eller empirisk separation.
Detta gör det svÄrt att isolera vad som rÀknas som "historiskt" inom en stor, allmÀngiltig datamÀngd. Som resultaten i den nya artikeln antyder representeras mÄnga tidsperioder mer av se av de medier som anvÀnds för att skildra dem Àn genom nÄgra djupare historiska detaljer.
Detta Àr en anledning till att det fortfarande Àr svÄrt att generera en fotorealistisk bild av en karaktÀr frÄn (till exempel) 2025-talet med 19 Ärs kvalitet. I de flesta fall förlitar sig modellen pÄ visuella troper hÀmtade frÄn film och tv. NÀr dessa inte uppfyller kraven finns det inte mycket annat i data som kan kompensera. Att överbrygga denna klyfta kommer sannolikt att bero pÄ framtida förbÀttringar av att reda ut överlappande koncept.
Först publicerad mÄndag 26 maj 2025