Andersonův úhel
Jak zastavit zobrazování iPhonů v minulých dobách pomocí umělé inteligence

Jak generátory obrazů s umělou inteligencí zobrazují minulost? Nový výzkum naznačuje, že vkládají chytré telefony do 18. století, vkládají notebooky do scén 1930. let a umisťují vysavače do domů 19. století, což vyvolává otázky o tom, jak si tyto modely představují historii – a zda jsou vůbec schopny kontextové historické přesnosti.
Začátkem roku 2024 se funkce generování obrázků od Googlu Blíženci multimodální model umělé inteligence se setkal s kritikou za vnucování demografická spravedlnost v nevhodných kontextech, například generování německých vojáků z druhé světové války s nepravděpodobným původem:

Demograficky nepravděpodobný německý vojenský personál, jak ho předpokládá multimodální model Gemini od Googlu v roce 2024. Zdroj: Gemini AI/Google přes Guardian
Toto byl příklad snahy o nápravu předsudek v modelech umělé inteligence nezohledňovaly historický kontext. V tomto případě byl problém řešen krátce poté. Nicméně difúzně založené modely mají tendenci generovat verze historie, které pletou moderní a historické aspekty a artefakty.
Částečně je to proto zapletení, kde se vlastnosti, které se v trénovacích datech často objevují společně, slučují ve výstupu modelu. Pokud se například moderní objekty, jako jsou chytré telefony, v datové sadě často vyskytují současně s aktem mluvení nebo poslechu, model se může naučit spojovat tyto aktivity s moderními zařízeními, i když výzva specifikuje historické prostředí. Jakmile jsou tyto asociace zakotveny ve výstupech modelu interní reprezentace, je obtížné oddělit aktivitu od jejího současného kontextu, což vede k historicky nepřesným výsledkům.
Nová studie ze Švýcarska, zkoumající fenomén propletených historických generací v modelech latentní difúze, poznamenává, že rámce umělé inteligence, které jsou docela schopný vytvářet fotorealistické lidi přesto raději zobrazují historické postavy historickým způsobem:
![Z nového článku vyplývají rozmanité reprezentace pomocí LDM prompt „Fotorealistický obraz osoby smějící se s přítelem v [historickém období]“, přičemž každé období je uvedeno v každém výstupu. Jak vidíme, médium dané éry se spojilo s obsahem. Zdroj: https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
Z nového článku vyplývají rozmanité reprezentace pomocí LDM prompt „Fotorealistický obraz osoby smějící se s přítelem v [historickém období]“, přičemž každé období je uvedeno v každém výstupu. Jak vidíme, médium dané éry se spojilo s obsahem. Zdroj: https://arxiv.org/pdf/2505.17064
Při testování schopnosti těchto tří modelů vytvářet anachronismy (věci, které nespadají do cílového období nebo jsou „mimo čas“ – což může být z cílového období budoucnost stejně jako jeho minulost), zjistili obecnou tendenci spojovat nadčasové činnosti (jako je „zpěv“ nebo „vaření“) s moderními kontexty a vybavením:

Různorodé aktivity, které jsou dokonale platné pro předchozí století, jsou zobrazeny pomocí současné nebo novější technologie a vybavení, což je v rozporu s duchem požadované obraznosti.
Je třeba poznamenat, že chytré telefony je obzvláště obtížné oddělit od idiomu fotografie a od mnoha dalších historických kontextů, protože jejich šíření a zobrazení je dobře zastoupeno ve vlivných hyperscale datových sadách, jako je Společné procházení:

V generativním modelu převodu textu do obrazu od Fluxu jsou komunikace a chytré telefony úzce spjaté pojmy – i když to historický kontext nedovoluje.
Aby autoři nového článku určili rozsah problému a poskytli budoucímu výzkumu cestu vpřed s tímto konkrétním problémem, vyvinuli na míru vytvořenou datovou sadu, na které budou testovány generativní systémy. Za chvíli se na to podíváme. nová práce, který má název Syntetická historie: Hodnocení vizuálních reprezentací minulosti v difúzních modelecha pochází od dvou výzkumníků z Univerzity v Curychu. Datová sada a kód jsou veřejně dostupné.
Křehká „pravda“
Některá témata v dokumentu se dotýkají kulturně citlivých otázek, jako je například nedostatečné zastoupení ras a pohlaví v historických reprezentacích. Zatímco Geminiho vnucování rasové rovnosti v hrubě nespravedlivé Třetí říši je absurdní a urážlivou historickou revizí, obnovení „tradičních“ rasových reprezentací (tam, kde je difúzní modely „aktualizovaly“) by často fakticky „přezakrývalo“ historii.
Mnoho nedávných hitů historických pořadů, jako například Bridgerton, rozmazávají historickou demografickou přesnost způsoby, které by mohly ovlivnit budoucí trénovací datové sady, a komplikují tak úsilí o sladění dobových snímků generovaných LLM s tradičními standardy. Jedná se však o složité téma vzhledem k tomu, že historická tendence (západní) historie upřednostňovala bohatství a bělost a nechala tolik „méně významných“ příběhů nevyřčených.
S ohledem na tyto složité a neustále se měnící kulturní parametry se podívejme na nový přístup výzkumníků.
Metoda a testy
Aby autoři otestovali, jak generativní modely interpretují historický kontext, vytvořili HistVis, datová sada 30,000 XNUMX obrázků vytvořených ze stovky výzev zobrazujících běžné lidské činnosti, přičemž každá z nich byla vykreslena v deseti různých časových obdobích:

Ukázka z datové sady HistVis, kterou autoři zpřístupnili na Hugging Face. Zdroj: https://huggingface.co/datasets/latentcanon/HistVis
Aktivity, jako například vaření, modlí se or poslouchání hudby, byly vybrány pro svou univerzálnost a formulovány v neutrálním formátu, aby se zabránilo ukotvení modelu v jakékoli konkrétní estetice. Časová období pro datovou sadu sahají od sedmnáctého století do současnosti, s dodatečným zaměřením na pět jednotlivých desetiletí dvacátého století.
30,000 XNUMX obrázků bylo vygenerováno pomocí tří široce používaných difúzních modelů s otevřeným zdrojovým kódem: Stabilní difúze XL; Stabilní difúze 3A FLUX.1Izolací časového období jako jediné proměnné vědci vytvořili strukturovaný základ pro vyhodnocení toho, jak tyto systémy vizuálně kódují nebo ignorují historické signály.
Dominance vizuálního stylu
Autor nejprve zkoumal, zda generativní modely standardně odpovídají specifickým vizuální styly při zobrazování historických období; protože se zdálo, že i když náměty neobsahovaly žádnou zmínku o médiu nebo estetice, modely si často spojovaly konkrétní století s charakteristickými styly:
![Předpovězené vizuální styly pro obrázky generované z výzvy „Osoba tančící s jinou osobou v [historickém období]“ (vlevo) a z upravené výzvy „Fotorealistický obrázek osoby tančící s jinou osobou v [historickém období]“ s negativní výzvou „monochromatický obrázek“ (vpravo).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
Předpovězené vizuální styly pro obrázky generované z výzvy „Osoba tančící s jinou osobou v [historickém období]“ (vlevo) a z upravené výzvy „Fotorealistický obrázek osoby tančící s jinou osobou v [historickém období]“ s negativní výzvou „monochromatický obrázek“ (vpravo).
Klasifikátor byl založen na VGG16 model předem trénovaný na IMAGEnet si vyladěný s 1,500 XNUMX příklady na hodinu z WikiArtdatový soubor odvozený od -. Vzhledem k tomu, že WikiArt nerozlišuje černobílou a barevnou fotografii, samostatný skóre barevnosti se používal k označení obrázků s nízkou saturací jako monochromatických.
Trénovaný klasifikátor byl poté aplikován na celou datovou sadu, přičemž výsledky ukázaly, že všechny tři modely ukládají konzistentní stylistické výchozí hodnoty podle období: SDXL spojuje 17. a 18. století s rytinami, zatímco SD3 a FLUX.1 se přiklánějí k malbám. Ve dvacátém století SD3 upřednostňuje černobílou fotografii, zatímco SDXL často vrací moderní ilustrace.
Bylo zjištěno, že tyto preference přetrvávají i přes rychlé úpravy, což naznačuje, že modely kódují zakořeněné vazby mezi stylem a historickým kontextem.

Předpovězené vizuální styly generovaných obrázků napříč historickými obdobími pro každý difuzní model, založené na 1,000 XNUMX vzorkech na období a model.
Kvantifikovat, jak silně model propojuje historické období s konkrétním vizuální stylAutoři vyvinuli metriku, kterou nazvali Dominance vizuálního stylu (VSD). Pro každý model a časové období je VSD definováno jako podíl výstupů, u kterých se předpokládá, že sdílejí nejběžnější styl:

Příklady stylistických odchylek napříč modely.
Vyšší skóre naznačuje, že v daném období dominuje jeden styl, zatímco nižší skóre ukazuje na větší variabilitu. To umožňuje porovnat, jak přesně se každý model v průběhu času drží specifických stylistických konvencí.
Aplikovaná na kompletní datovou sadu HistVis, metrika VSD odhaluje různé úrovně konvergence, což pomáhá objasnit, jak silně každý model zužuje svou vizuální interpretaci minulosti:
Výše uvedená tabulka výsledků ukazuje skóre VSD napříč historickými obdobími pro každý model. V 17. a 18. století SDXL obvykle produkuje rytiny s vysokou konzistencí, zatímco SD3 a FLUX.1 upřednostňují malbu. Ve 20. a 21. století se SD3 a FLUX.1 posouvají směrem k fotografii, zatímco SDXL vykazuje větší variabilitu, ale často se standardně zaměřuje na ilustraci.
Všechny tři modely prokazují silnou preferenci černobílého zobrazování v dřívějších desetiletích 20. století, zejména v 1910., 1930. a 1950. letech XNUMX. století.
Aby autoři otestovali, zda by se tyto vzorce daly zmírnit, použili rychlé inženýrství, explicitně požadující fotorealismus a odrazující od černobílého výstupu pomocí negativní výzvy. V některých případech se skóre dominance snížilo a hlavní styl se například posunul z černobílého na malba, v 17. a 18. století.
Tyto zásahy však jen zřídka vedly k skutečně fotorealistickým snímkům, což naznačuje, že stylistické nedostatky modelů jsou hluboce zakořeněny.
Historická konzistentnost
Další linie analýzy se zaměřila na historická konzistencezda generované obrázky obsahovaly objekty, které neodpovídaly danému časovému období. Namísto použití pevného seznamu zakázaných položek autoři vyvinuli flexibilní metodu, která využívala modely velkých jazyků (LLM) a modelů vizuální-jazykové gramatiky (VLM) k identifikaci prvků, které se na základě historického kontextu zdály být nepatřičné.
Metoda detekce se řídila stejným formátem jako datová sada HistVis, kde každý podnět kombinoval historické období s lidskou činností. Pro každý podnět GPT-4o vygeneroval seznam objektů, které by v daném časovém období byly na jiném místě; a pro každý navrhovaný objekt GPT-4o vytvořil... ano-nebo-ne otázka určená k ověření, zda se daný objekt objevil ve vygenerovaném obrázku.
Například vzhledem k výzvě „Člověk poslouchající hudbu v 18. století“, GPT-4o by mohl identifikovat moderní audio zařízení jako historicky nepřesné a vyvolávají otázku Používá daná osoba sluchátka nebo chytrý telefon, který v 18. století neexistoval?.
Tyto otázky byly předány zpět do GPT-4o ve vizuálním nastavení otázek a odpovědí, kde model zkontroloval obrázek a vrátil ano or Ne odpověď pro každý z nich. Tento kanál umožnil detekci historicky nepravděpodobného obsahu bez spoléhání se na jakoukoli předem definovanou taxonomii moderních objektů:

Příklady generovaných obrázků označených dvoustupňovou detekční metodou, které ukazují anachronické prvky: sluchátka v 18. století; vysavač v 19. století; notebook ve 1930. letech 1950. století; a chytrý telefon v XNUMX. letech XNUMX. století.
Aby autoři zjistili, jak často se anachronismy objevovaly v generovaných obrázcích, zavedli jednoduchou metodu pro hodnocení četnosti a závažnosti. Nejprve zohlednili drobné rozdíly ve formulacích v tom, jak GPT-4o popisoval stejný objekt.
Například moderní audio zařízení a digitální audio zařízení byly považovány za ekvivalentní. Aby se zabránilo dvojímu započítání, fuzzy párovací systém byl použit k seskupení těchto povrchových variací, aniž by to ovlivnilo skutečně odlišné koncepty.
Jakmile byly všechny navrhované anachronismy normalizovány, byly vypočítány dvě metriky: frekvence měřilo, jak často se daný objekt objevoval na snímcích v daném časovém období a modelu; a vážnost změřil, jak spolehlivě se daný objekt jevil poté, co jej model navrhl.
Pokud byl moderní telefon desetkrát označen a objevil se v deseti generovaných obrázcích, získal skóre závažnosti 1.0. Pokud se objevil pouze v pěti obrázcích, skóre závažnosti bylo 0.5. Tato skóre pomohla identifikovat nejen to, zda se vyskytly anachronismy, ale i to, jak pevně byly zakotveny ve výstupu modelu pro každé období:

Patnáct nejčastějších anachronických prvků pro každý model, vynesených podle frekvence na ose x a závažnosti na ose y. Kruhy označují prvky seřazené v první patnáctce podle frekvence, trojúhelníky podle závažnosti a kosočtverce podle obou.
Výše vidíme patnáct nejběžnějších anachronismů pro každý model, seřazených podle toho, jak často se objevovaly a jak konzistentně odpovídaly výzvám.
Oblečení se vyskytovalo často, ale roztroušeně, zatímco předměty jako audiozařízení a žehlicí potřeby se objevovaly méně často, ale s vysokou konzistencí – vzorce, které naznačují, že modelky často reagují na aktivita v promptu více než dané časové období.
SD3 vykazoval nejvyšší míru anachronismů, zejména u snímků z 19. století a 1930. let 1. století, následovaný FLUX.XNUMX a SDXL.
Aby autoři otestovali, jak dobře metoda detekce odpovídá lidskému úsudku, provedli uživatelskou studii s 1,800 3 náhodně vybranými obrázky z SD2,040 (model s nejvyšší mírou anachronismu), přičemž každý obrázek ohodnotili tři uživatelé crowdworkerů. Po filtrování spolehlivých odpovědí bylo zahrnuto 234 72 hodnocení od XNUMX uživatelů a metoda souhlasila s většinou hlasů v XNUMX procentech případů.

Grafické uživatelské rozhraní pro studii hodnocení na lidech, zobrazující instrukce k úkolu, příklady přesných a anachronických obrázků a otázky typu ano/ne pro identifikaci časových nekonzistencí v generovaných výstupech.
Demografie
Závěrečná analýza se zaměřila na to, jak modely zobrazují rasu a pohlaví v čase. Autoři pomocí datové sady HistVis porovnali výstupy modelu s výchozími odhady generovanými jazykovým modelem. Tyto odhady nebyly přesné, ale nabízely hrubý obraz historické věrohodnosti a pomohly odhalit, zda modely přizpůsobily zobrazení zamýšlenému období.
Aby autoři mohli tyto zobrazení posoudit ve velkém měřítku, vytvořili databázi porovnávající demografické údaje generované modelem s hrubými očekáváními pro každý čas a aktivitu. Nejprve použili FairFace klasifikátor, a ResNet34Nástroj založený na technologii [projektovaný na více než sto tisících obrázcích], který detekuje pohlaví a rasu ve vygenerovaných výstupech a umožňuje měřit, jak často byly tváře v každé scéně klasifikovány jako mužské nebo ženské, a sledovat rasové kategorie napříč obdobími.

Příklady generovaných obrázků znázorňujících demografické nadměrné zastoupení napříč různými modely, časovými obdobími a aktivitami.
Výsledky s nízkou spolehlivostí byly odfiltrovány, aby se snížil šum, a predikce byly zprůměrovány ze všech snímků vázaných na konkrétní čas a aktivitu. Pro ověření spolehlivosti údajů FairFace byl použit druhý systém založený na deepface byl použit na vzorku 5,000 XNUMX obrázků. Oba klasifikátory vykazovaly silnou shodu, což podporuje konzistenci demografických údajů použitých ve studii.
Aby autoři porovnali výstupy modelu s historickou věrohodností, požádali GPT-4o o odhad očekávaného rozložení pohlaví a rasy pro každou aktivitu a časové období. Tyto odhady sloužily spíše jako hrubé výchozí hodnoty než jako reálný základ. Poté byly použity dvě metriky: nedostatečné zastoupení si nadměrné zastoupení, který měří, o kolik se výstupy modelu odchylovaly od očekávání LLM.
Výsledky ukázaly jasné vzorce: FLUX.1 často nadměrně zastoupeny muži, a to i v situacích, jako je vaření, kde se očekávaly ženy; SD3 a SDXL vykazovaly podobné trendy napříč kategoriemi, jako například práce, vzdělání si Náboženství; bílé tváře se celkově objevovaly více, než se očekávalo, ačkoli toto zkreslení v poslední době pokleslo; a některé kategorie vykazovaly neočekávané nárůsty v zastoupení nebílých osob, což naznačuje, že chování modelu může spíše odrážet korelace datových sad než historický kontext:

Nadměrné a nedostatečné zastoupení pohlaví a rasy ve výstupech FLUX.1 napříč staletími a aktivitami, zobrazené jako absolutní rozdíly od demografických odhadů GPT-4o.
Autoři uzavírají:
„Naše analýza ukazuje, že modely [Text-to-image/TTI] se spoléhají spíše na omezené stylistické kódování než na detailní chápání historických období. Každá éra je silně svázána se specifickým vizuálním stylem, což vede k jednorozměrnému zobrazení historie.“
„Je pozoruhodné, že fotorealistické zobrazení lidí se objevují až od 20. století, s jen vzácnými výjimkami ve FLUX.1 a SD3, což naznačuje, že modely spíše posilují naučené asociace, než aby se flexibilně přizpůsobovaly historickým kontextům, a tím udržují představu, že realismus je moderním rysem.“
„Časté anachronismy navíc naznačují, že historická období nejsou v latentních prostorech těchto modelů jasně oddělena, jelikož moderní artefakty se často objevují v předmoderním prostředí, což podkopává spolehlivost systémů TTI v kontextu vzdělávání a kulturního dědictví.“
Proč investovat do čističky vzduchu?
Během trénování difuzního modelu se nové koncepty neuspořádávají úhledně do předem definovaných slotů v latentním prostoru. Místo toho tvoří shluky formované četností jejich výskytu a blízkostí k souvisejícím myšlenkám. Výsledkem je volně organizovaná struktura, kde koncepty existují ve vztahu k jejich frekvenci a typickému kontextu, spíše než na základě nějakého čistého nebo empirického oddělení.
To ztěžuje oddělení toho, co se v rámci velkého, univerzálního souboru dat považuje za „historické“. Jak naznačují zjištění v novém článku, mnoho časových období je reprezentováno spíše pohled médií použitých k jejich zobrazení než jakýmkoli hlubším historickým detailem.
To je jeden z důvodů, proč je stále obtížné vytvořit fotorealistický obraz postavy (například) z 2025. století v kvalitě roku 19; ve většině případů se model spoléhá na vizuální tropy převzaté z filmu a televize. Pokud tyto neodpovídají požadavku, v datech není mnoho jiného, co by to kompenzovalo. Překlenutí této mezery bude pravděpodobně záviset na budoucím zlepšení v rozlišování překrývajících se konceptů.
Poprvé publikováno v pondělí 26. května 2025