Kąt Andersona
Jak powstrzymać sztuczną inteligencję przed przedstawianiem iPhone’ów w minionych epokach

Jak generatory obrazów AI przedstawiają przeszłość? Nowe badania wskazują, że przenoszą smartfony do XVIII wieku, wstawiają laptopy do scen z lat 18. XX wieku i umieszczają odkurzacze w domach z XIX wieku, co rodzi pytania o to, jak te modele wyobrażają sobie historię – i czy w ogóle są zdolne do kontekstowej dokładności historycznej.
Na początku 2024 roku możliwości generowania obrazów przez Google Gemini multimodalny model sztucznej inteligencji spotkał się z krytyką za narzucanie sprawiedliwość demograficzna w niewłaściwych kontekstach, takie jak generowanie niemieckich żołnierzy z II wojny światowej o mało prawdopodobnym pochodzeniu:

Demograficznie mało prawdopodobna liczba żołnierzy niemieckich, jak przewiduje multimodalny model Gemini firmy Google w 2024 r. Źródło: Gemini AI/Google za pośrednictwem The Guardian
To był przykład, w którym wysiłki mające na celu naprawienie szkody stronniczość w modelach AI nie uwzględniono kontekstu historycznego. W tym przypadku problem został rozwiązany wkrótce potem. Jednak oparty na dyfuzji modele nadal mają tendencję do generowania wersji historii, które mieszają współczesne i historyczne aspekty oraz artefakty.
Wynika to częściowo z powodu uwikłanie, gdzie cechy, które często pojawiają się razem w danych treningowych, zostają połączone w wynikach modelu. Na przykład, jeśli nowoczesne obiekty, takie jak smartfony, często współwystępują z czynnością mówienia lub słuchania w zestawie danych, model może nauczyć się kojarzyć te czynności z nowoczesnymi urządzeniami, nawet gdy monit określa historyczne ustawienie. Gdy te skojarzenia zostaną osadzone w modelu reprezentacje wewnętrzne, trudno jest oddzielić daną działalność od jej współczesnego kontekstu, co prowadzi do historycznie niedokładnych wyników.
W nowym artykule ze Szwajcarii, badającym zjawisko splątanych pokoleń historycznych w modelach dyfuzji ukrytej, zauważono, że ramy sztucznej inteligencji, które są całkiem zdolny do tworzenia fotorealistycznych postaci niemniej jednak wolą przedstawiać postacie historyczne w historyczny sposób:
![Z nowego artykułu, różne reprezentacje za pośrednictwem LDM podpowiedzi „Fotorealistyczny obraz osoby śmiejącej się z przyjacielem w [okresie historycznym]”, przy czym każdy okres jest wskazany w każdym wyjściu. Jak widać, medium epoki zostało powiązane z treścią. Źródło: https://arxiv.org/pdf/2505.17064](https://www.unite.ai/wp-content/uploads/2025/05/laughing-with-a-friend.jpg)
Z nowego artykułu, różne reprezentacje za pośrednictwem LDM podpowiedzi „Fotorealistyczny obraz osoby śmiejącej się z przyjacielem w [okresie historycznym]”, przy czym każdy okres jest wskazany w każdym wyjściu. Jak widać, medium epoki zostało powiązane z treścią. Źródło: https://arxiv.org/pdf/2505.17064
Testując trzy modele pod kątem ich zdolności do tworzenia anachronizmy (rzeczy, które nie należą do okresu docelowego lub są „poza czasem” – mogą pochodzić z okresu docelowego przyszłość jak i jego przeszłości), odkryli powszechną skłonność do łączenia ponadczasowych czynności (takich jak „śpiewanie” czy „gotowanie”) z nowoczesnymi kontekstami i sprzętem:

Różnorodne działania, które były w pełni aktualne w poprzednich stuleciach, przedstawiono przy użyciu współczesnej lub nowszej technologii i gadżetów, co jest sprzeczne z duchem żądanych obrazów.
Należy zauważyć, że smartfony są szczególnie trudne do oddzielenia od języka fotografii i wielu innych kontekstów historycznych, ponieważ ich rozprzestrzenianie się i przedstawianie jest dobrze reprezentowane w wpływowych zbiorach danych o dużej skali, takich jak Wspólne indeksowanie:

W generatywnym modelu Flux polegającym na przetwarzaniu tekstu na obraz komunikacja i smartfony są ściśle ze sobą powiązanymi koncepcjami – nawet jeśli kontekst historyczny na to nie pozwala.
Aby określić skalę problemu i dać przyszłym badaniom sposób na rozwiązanie tego konkretnego problemu, autorzy nowego artykułu opracowali specjalny zestaw danych, na którym można testować systemy generatywne. Za chwilę przyjrzymy się temu nowa praca, który jest zatytułowany Historia syntetyczna: ocena wizualnych reprezentacji przeszłości w modelach dyfuzyjnychi pochodzi od dwóch badaczy z Uniwersytetu w Zurychu. Zestaw danych i kod są publicznie dostępne.
Krucha „prawda”
Niektóre z tematów poruszanych w artykule dotyczą kwestii wrażliwych kulturowo, takich jak niedoreprezentacja ras i płeć w historycznych przedstawieniach. Podczas gdy narzucanie przez Gemini równości rasowej w rażąco niesprawiedliwej Trzeciej Rzeszy jest absurdalną i obraźliwą historyczną rewizją, przywracanie „tradycyjnych” przedstawień rasowych (gdzie modele dyfuzji je „uaktualniły”) często skutecznie „wybielałoby” historię.
Wiele ostatnich hitów historycznych, takich jak Bridgertona, rozmywają historyczną dokładność demograficzną w sposób, który prawdopodobnie wpłynie na przyszłe zestawy danych szkoleniowych, komplikując wysiłki na rzecz dostosowania obrazów okresowych generowanych przez LLM do tradycyjnych standardów. Jest to jednak złożony temat, biorąc pod uwagę tendencja historyczna (zachodniej) historii faworyzującej bogactwo i białą rasę, a pozostawiającej tak wiele „mniejszych” historii nieopowiedzianych.
Mając na uwadze te trudne i ciągle zmieniające się parametry kulturowe, przyjrzyjmy się nowemu podejściu badaczy.
Metoda i testy
Aby sprawdzić, w jaki sposób modele generatywne interpretują kontekst historyczny, autorzy stworzyli HistVis, zbiór danych składający się z 30,000 XNUMX obrazów wygenerowanych na podstawie stu podpowiedzi przedstawiających typowe ludzkie czynności, każdy z nich renderowany w dziesięciu różnych okresach czasu:

Próbka ze zbioru danych HistVis, który autorzy udostępnili na stronie Hugging Face. Źródło: https://huggingface.co/datasets/latentcanon/HistVis
Działania takie jak: gotowanie, modląc się or Słuchać muzyki, zostały wybrane ze względu na ich uniwersalność i sformułowane w neutralnym formacie, aby uniknąć zakotwiczenia modelu w jakiejkolwiek konkretnej estetyce. Okresy czasu dla zestawu danych obejmują okres od XVII wieku do dnia dzisiejszego, z dodatkowym naciskiem na pięć indywidualnych dekad od XX wieku.
Wygenerowano 30,000 XNUMX obrazów przy użyciu trzech powszechnie używanych modeli dyfuzji typu open source: Stabilna dyfuzja XL; Stabilna dyfuzja 3Oraz STRUMIEŃ.1. Poprzez wyizolowanie okresu czasu jako jedynej zmiennej, badacze stworzyli ustrukturyzowaną podstawę do oceny, w jaki sposób wskazówki historyczne są wizualnie kodowane lub ignorowane przez te systemy.
Dominacja stylu wizualnego
Autor początkowo zbadał, czy modele generatywne domyślnie korzystają z określonych style wizualne przy przedstawianiu okresów historycznych; ponieważ wydawało się, że nawet gdy podpowiedzi nie zawierały żadnej wzmianki o medium lub estetyce, modelki często kojarzyły poszczególne stulecia z charakterystycznymi stylami:
![Przewidywane style wizualne dla obrazów wygenerowanych na podstawie polecenia „Osoba tańcząca z inną osobą w [okresie historycznym]” (po lewej) i zmodyfikowanego polecenia „Fotorealistyczny obraz osoby tańczącej z inną osobą w [okresie historycznym]” z „obrazem monochromatycznym” ustawionym jako polecenie negatywne (po prawej).](https://www.unite.ai/wp-content/uploads/2025/05/period-style.jpg)
Przewidywane style wizualne dla obrazów wygenerowanych na podstawie polecenia „Osoba tańcząca z inną osobą w [okresie historycznym]” (po lewej) i zmodyfikowanego polecenia „Fotorealistyczny obraz osoby tańczącej z inną osobą w [okresie historycznym]” z „obrazem monochromatycznym” ustawionym jako polecenie negatywne (po prawej).
Klasyfikator został oparty na VGG16 model wstępnie wytrenowany na ImageNet oraz dopracowane z 1,500 przykładami na klasę z WikiArt-pochodny zbiór danych. Ponieważ WikiArt nie rozróżnia fotografii monochromatycznej od kolorowej, osobny wynik kolorowości służył do oznaczania obrazów o niskim nasyceniu jako monochromatycznych.
Następnie wytrenowany klasyfikator został zastosowany do pełnego zestawu danych, a wyniki pokazały, że wszystkie trzy modele narzucają spójne domyślne ustawienia stylistyczne według okresu: SDXL kojarzy XVII i XVIII wiek z rycinami, podczas gdy SD17 i FLUX.18 skłaniają się ku obrazom. W dekadach XX wieku SD3 preferuje fotografię monochromatyczną, podczas gdy SDXL często zwraca współczesne ilustracje.
Stwierdzono, że preferencje te utrzymywały się pomimo szybkich korekt, co sugeruje, że modele te kodują utrwalone powiązania między stylem a kontekstem historycznym.

Przewidywane style wizualne generowanych obrazów w różnych okresach historycznych dla każdego modelu dyfuzji, na podstawie 1,000 próbek na okres i na model.
Aby określić, w jakim stopniu model łączy okres historyczny z konkretnym styl wizualnyautorzy opracowali metrykę, którą nazwali Dominacja stylu wizualnego (VSD). Dla każdego modelu i okresu czasu VSD jest definiowane jako proporcja wyników, dla których przewiduje się, że będą miały najbardziej powszechny styl:

Przykłady błędów stylistycznych w różnych modelach.
Wyższy wynik wskazuje, że jeden styl dominuje w wynikach dla tego okresu, podczas gdy niższy wynik wskazuje na większą zmienność. Umożliwia to porównanie, jak ściśle każdy model przestrzega określonych konwencji stylistycznych w czasie.
Zastosowana do całego zestawu danych HistVis metryka VSD ujawnia różne poziomy zbieżności, pomagając wyjaśnić, w jakim stopniu każdy model zawęża swoją wizualną interpretację przeszłości:
Powyższa tabela wyników pokazuje wyniki VSD w różnych okresach historycznych dla każdego modelu. W XVII i XVIII wieku SDXL ma tendencję do tworzenia rycin o wysokiej spójności, podczas gdy SD17 i FLUX.18 preferują malarstwo. W XX i XXI wieku SD3 i FLUX.1 przesuwają się w stronę fotografii, podczas gdy SDXL wykazuje większą zmienność, ale często domyślnie wybiera ilustrację.
Wszystkie trzy modele wykazują silną preferencję do obrazów monochromatycznych w poprzednich dekadach XX wieku, szczególnie w latach 20., 1910. i 1930. XX wieku.
Aby sprawdzić, czy można złagodzić te wzorce, autorzy wykorzystali szybka inżynieria, wyraźnie prosząc o fotorealizm i zniechęcając do monochromatycznego wyjścia za pomocą negatywnego monitu. W niektórych przypadkach wyniki dominacji spadły, a wiodący styl zmienił się, na przykład, z monochromatycznego na malarstwo, w XVII i XVIII wieku.
Jednakże w wyniku tych interwencji rzadko powstawały prawdziwie fotorealistyczne obrazy, co wskazuje na to, że domyślne style modelek są głęboko zakorzenione.
Spójność historyczna
Następnym kierunkiem analizy było przyjrzenie się spójność historyczna: czy wygenerowane obrazy zawierały obiekty, które nie pasowały do okresu czasu. Zamiast używać stałej listy zakazanych przedmiotów, autorzy opracowali elastyczną metodę, która wykorzystywała duży język (LLM) i modele wizyjno-językowe (VLM) do wykrywania elementów, które wydawały się nie na miejscu, w oparciu o kontekst historyczny.
Metoda wykrywania była taka sama jak w zbiorze danych HistVis, gdzie każdy monit łączył okres historyczny z aktywnością człowieka. Dla każdego monitu GPT-4o generował listę obiektów, które byłyby nie na miejscu w określonym przedziale czasowym; a dla każdego proponowanego obiektu GPT-4o generował tak-lub-nie pytanie mające na celu sprawdzenie, czy dany obiekt pojawił się na wygenerowanym obrazie.
Na przykład, biorąc pod uwagę monit „Osoba słuchająca muzyki w XVIII wieku”, GPT-4o może zidentyfikować nowoczesne urządzenia audio jako historycznie niedokładne i rodzą pytanie Czy osoba ta korzysta ze słuchawek lub smartfona, który nie istniał w XVIII wieku?.
Pytania te przekazano z powrotem do GPT-4o w konfiguracji wizualnego odpowiadania na pytania, gdzie model przeglądał obraz i zwracał tak or Nie odpowiedź dla każdego. Ten kanał umożliwiał wykrywanie historycznie nieprawdopodobnych treści bez polegania na jakiejkolwiek predefiniowanej taksonomii współczesnych obiektów:

Przykłady wygenerowanych obrazów oznaczonych metodą dwuetapowego wykrywania, pokazujących elementy anachronistyczne: słuchawki z XVIII wieku, odkurzacz z XIX wieku, laptop z lat 18. XX wieku i smartfon z lat 19. XX wieku.
Aby zmierzyć, jak często anachronizmy pojawiały się w generowanych obrazach, autorzy wprowadzili prostą metodę punktowania częstotliwości i nasilenia. Najpierw uwzględnili drobne różnice w sformułowaniach w sposobie, w jaki GPT-4o opisywał ten sam obiekt.
Na przykład nowoczesne urządzenie audio i cyfrowe urządzenie audio były traktowane jako równoważne. Aby uniknąć podwójnego liczenia, system dopasowywania rozmytego został użyty do grupowania tych powierzchownych wariantów bez wpływu na rzeczywiście odrębne koncepcje.
Po znormalizowaniu wszystkich proponowanych anachronizmów obliczono dwie metryki: częstotliwość zmierzono, jak często dany obiekt pojawiał się na obrazach w określonym przedziale czasowym i modelu; i surowość zmierzono, jak niezawodnie obiekt pojawiał się po zasugerowaniu go przez model.
Jeśli nowoczesny telefon został oflagowany dziesięć razy i pojawił się na dziesięciu wygenerowanych obrazach, otrzymał wynik powagi 1.0. Jeśli pojawił się tylko na pięciu, wynik powagi wynosił 0.5. Te wyniki pomogły zidentyfikować nie tylko to, czy anachronizmy wystąpiły, ale także, jak mocno były osadzone w wynikach modelu dla każdego okresu:

Piętnaście najlepszych elementów anachronistycznych dla każdego modelu, przedstawionych według częstotliwości na osi x i nasilenia na osi y. Kółka oznaczają elementy znajdujące się w pierwszej piętnastce według częstotliwości, trójkąty według nasilenia, a romby według obu.
Powyżej widzimy piętnaście najczęstszych anachronizmów dla każdego modelu, uporządkowanych według częstotliwości występowania i spójności, z jaką odpowiadały wskazówkom.
Ubrania pojawiały się często, ale były rozproszone, podczas gdy przedmioty takie jak urządzenia audio i sprzęt do prasowania pojawiały się rzadziej, ale z dużą regularnością – wzorce te sugerują, że modelki często reagują na aktywność w monicie więcej niż okres czasu.
SD3 wykazał najwyższy wskaźnik anachronizmów, zwłaszcza w obrazach z XIX wieku i lat 19. XX wieku; kolejne miejsca zajęły FLUX.1930 i SDXL.
Aby sprawdzić, jak dobrze metoda wykrywania pasuje do osądu ludzkiego, autorzy przeprowadzili badanie użytkowników obejmujące 1,800 losowo wybranych obrazów z SD3 (model o najwyższym wskaźniku anachronizmu), przy czym każdy obraz został oceniony przez trzech pracowników społeczności. Po odfiltrowaniu wiarygodnych odpowiedzi uwzględniono 2,040 osądów od 234 użytkowników, a metoda zgadzała się z większością głosów w 72 procentach przypadków.

Interfejs graficzny użytkownika do badania ewaluacyjnego na ludziach, pokazujący instrukcje dotyczące zadań, przykłady dokładnych i anachronistycznych obrazów oraz pytania typu „tak/nie” służące do identyfikacji niespójności czasowych w generowanych wynikach.
Demografia
Ostateczna analiza dotyczyła tego, jak modele przedstawiają rasę i płeć na przestrzeni czasu. Korzystając z zestawu danych HistVis, autorzy porównali wyniki modelu z szacunkami bazowymi wygenerowanymi przez model języka. Szacunki te nie były precyzyjne, ale oferowały ogólne poczucie historycznej wiarygodności, pomagając ujawnić, czy modele dostosowały przedstawienia do zamierzonego okresu.
Aby ocenić te przedstawienia na dużą skalę, autorzy zbudowali rurociąg porównujący dane demograficzne wygenerowane przez model z przybliżonymi oczekiwaniami dla każdego czasu i aktywności. Najpierw użyli Uczciwej twarzy klasyfikator, a ResNet34- narzędzie wytrenowane na ponad stu tysiącach obrazów, służące do wykrywania płci i rasy w generowanych wynikach, co pozwala na zmierzenie, jak często twarze w każdej scenie były klasyfikowane jako męskie lub żeńskie, a także na śledzenie kategorii rasowych w różnych okresach.

Przykłady wygenerowanych obrazów pokazujących nadreprezentację demograficzną w różnych modelach, okresach czasu i działaniach.
Wyniki o niskim poziomie ufności zostały odfiltrowane w celu zmniejszenia szumu, a przewidywania zostały uśrednione dla wszystkich obrazów powiązanych z określonym czasem i aktywnością. Aby sprawdzić wiarygodność odczytów FairFace, zastosowano drugi system oparty na Głębokie Twarze zastosowano na próbie 5,000 obrazów. Oba klasyfikatory wykazały silną zgodność, co potwierdza spójność odczytów demograficznych użytych w badaniu.
Aby porównać wyniki modelu z historyczną wiarygodnością, autorzy poprosili GPT-4o o oszacowanie oczekiwanego rozkładu płci i rasy dla każdej aktywności i okresu czasu. Te szacunki służyły jako przybliżone punkty odniesienia, a nie jako prawda. Następnie zastosowano dwie metryki: niedoreprezentacja oraz nadreprezentacjamierząc, w jakim stopniu wyniki modelu odbiegają od oczekiwań LLM.
Wyniki pokazały wyraźne wzorce: FLUX.1 często nadreprezentował mężczyzn, nawet w takich scenariuszach, jak gotowanie, gdzie oczekiwano kobiet; SD3 i SDXL wykazały podobne trendy w kategoriach takich jak praca, Edukacja oraz religia; białe twarze pojawiały się ogólnie częściej niż oczekiwano, chociaż ta tendencja zmniejszyła się w ostatnich okresach; a w niektórych kategoriach zaobserwowano nieoczekiwane wzrosty reprezentacji osób innych niż białe, co sugeruje, że zachowanie modelu może odzwierciedlać korelacje zbiorów danych, a nie kontekst historyczny:

Nadreprezentacja i niedoreprezentacja płci i rasy w wynikach FLUX.1 na przestrzeni wieków i działań, przedstawiona jako bezwzględne różnice w stosunku do szacunków demograficznych GPT-4o.
Autorzy wnioskują:
„Nasza analiza ujawnia, że modele [Text-to-image/TTI] opierają się na ograniczonych kodowaniach stylistycznych, a nie na niuansowym rozumieniu okresów historycznych. Każda epoka jest silnie związana ze specyficznym stylem wizualnym, co skutkuje jednowymiarowymi przedstawieniami historii.
'Warto zauważyć, że fotorealistyczne przedstawienia ludzi pojawiają się dopiero od XX wieku, a w modelach FLUX.20 i SD1 występują jedynie nieliczne wyjątki, co sugeruje, że modele wzmacniają wyuczone skojarzenia, a nie elastycznie dostosowują się do kontekstów historycznych. Utrwala to pogląd, że realizm jest cechą współczesną.
„Ponadto częste anachronizmy sugerują, że okresy historyczne nie są wyraźnie rozdzielone w przestrzeniach ukrytych tych modeli, gdyż współczesne artefakty często pojawiają się w środowiskach przednowoczesnych, co podważa wiarygodność systemów TTI w kontekście edukacji i dziedzictwa kulturowego”.
Podsumowanie
Podczas szkolenia modelu dyfuzji nowe koncepcje nie są starannie umieszczane w zdefiniowanych wcześniej slotach w przestrzeni utajonej. Zamiast tego tworzą klastry ukształtowane przez częstotliwość ich występowania i bliskość do powiązanych idei. Rezultatem jest luźno zorganizowana struktura, w której koncepcje istnieją w odniesieniu do ich częstotliwości i typowego kontekstu, a nie przez jakąkolwiek czystą lub empiryczną separację.
Utrudnia to wyizolowanie tego, co uznaje się za „historyczne” w dużym, uniwersalnym zestawie danych. Jak sugerują ustalenia w nowym artykule, wiele okresów czasu jest reprezentowanych bardziej przez na temat mediów, w których je przedstawiono, niż jakichkolwiek głębszych szczegółów historycznych.
To jeden z powodów, dla których trudno jest wygenerować fotorealistyczny obraz postaci z (na przykład) XIX wieku w jakości 2025; w większości przypadków model będzie opierał się na wizualnych tropach zaczerpniętych z filmu i telewizji. Gdy nie spełniają one żądania, w danych nie ma nic innego, co mogłoby to zrekompensować. Zniwelowanie tej luki prawdopodobnie będzie zależało od przyszłych udoskonaleń w rozplątywaniu nakładających się koncepcji.
Pierwsze opublikowanie w poniedziałek, 26 maja 2025 r.