Kąt Andersona

Jak zatrzymać AI przed przedstawianiem iPhone’ów w minionych erach

Published May 26, 2025

Updated April 2, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Jak generatory obrazu AI wyobrażają sobie przeszłość? Nowe badania wskazują, że umieszczają smartfony w XVIII wieku, wkładają laptopy do scen z lat 30. i umieszczają odkurzacze w domach z XIX wieku, podnosząc pytania o to, jak te modele wyobrażają sobie historię – i czy są w stanie osiągnąć kontekstową dokładność historyczną w ogóle.

Na początku 2024 roku możliwości generowania obrazu modelu AI Gemini firmy Google zostały poddane krytyce za narzucanie sprawiedliwości demograficznej w nieodpowiednich kontekstach, takich jak generowanie żołnierzy niemieckich z II wojny światowej o nieprawdopodobnym pochodzeniu:

Niemogący być prawdziwi funkcjonariusze niemieccy, wyobrażeni przez model Gemini firmy Google w 2024 roku. Źródło: Gemini AI/Google za pośrednictwem The Guardian

To był przykład, w którym próby rozwiązania zakłóceń w modelach AI nie wzięły pod uwagę kontekstu historycznego. W tym przypadku problem został rozwiązany krótko po tym. Jednak modele oparte na dyfuzji nadal są skłonne generować wersje historii, które łączą współczesne i historyczne aspekty i artefakty.

Jest to częściowo spowodowane splątaniem, gdzie cechy, które często pojawiają się razem w danych szkoleniowych, stają się połączone w danych wyjściowych modelu. Na przykład, jeśli nowoczesne obiekty, takie jak smartfony, często współwystępują z działaniem rozmawiania lub słuchania w zbiorze danych, model może nauczyć się kojarzyć te działania z nowoczesnymi urządzeniami, nawet gdy podpowiedź określa historyczne ustawienie. Gdy te skojarzenia są osadzone w wewnętrznych reprezentacjach modelu, staje się trudne oddzielić działanie od jego współczesnego kontekstu, prowadząc do historycznie niedokładnych wyników.

Nowy artykuł ze Szwajcarii, badający zjawisko splątanych historycznych generacji w modelach dyfuzyjnych, obserwuje, że ramy AI, które są bardzo zdolne do tworzenia fotorealistycznych ludzi, nadal preferują przedstawiać postacie historyczne w sposób historyczny:

Z nowego artykułu, różnorodne reprezentacje za pomocą LDM podpowiedzi „Fotorealistyczny obraz osoby śmiejącej się z przyjacielem w [okresie historycznym]”, z każdym okresem wskazanym w każdym wyjściu. Jak widać, medium epoki stało się skojarzone z treścią. Źródło: https://arxiv.org/pdf/2505.17064

Dla podpowiedzi „Fotorealistyczny obraz osoby śmiejącej się z przyjacielem w [okresie historycznym]” jeden z trzech przetestowanych modeli często ignoruje negatywną podpowiedź „czarno-biały” i zamiast tego używa kolorowych efektów, które odzwierciedlają medium wizualne określonej epoki, na przykład naśladując stonowane odcienie filmu celuloidowego z lat 50. i 70.

Podczas testowania trzech modeli pod kątem ich zdolności do tworzenia anachronizmów (rzeczy, które nie są z okresu docelowego, lub „poza czasem” – które mogą być z przyszłości lub przeszłości okresu docelowego), stwierdzono ogólną skłonność do łączenia czasowych działań (takich jak „śpiewanie” lub „gotowanie”) z nowoczesnymi kontekstami i sprzętem:

Różnorodne działania, które są absolutnie ważne dla poprzednich stuleci, są przedstawione z bieżącą lub nowszą technologią i akcesoriami, wbrew duchowi żądanej obrazowości.

Warte uwagi jest to, że smartfony są szczególnie trudne do oddzielenia od idiomy fotografii, a także od wielu innych historycznych kontekstów, ponieważ ich rozpowszechnienie i przedstawienie są dobrze reprezentowane w wpływowych zbiorach danych o dużej skali, takich jak Common Crawl:

W modelu generatywnym Flux, komunikacja i smartfony są ściśle związane pojęcia – nawet wtedy, gdy kontekst historyczny na to nie pozwala.

Aby określić zakres problemu i dać przyszłym badaniom sposób do przodu z tym konkretnym błędem, autorzy nowego artykułu opracowali specjalny zbiór danych, za pomocą którego można przetestować systemy generatywne. Za chwilę przyjrzymy się tej nowej pracy, która nosi tytuł Syntetyczna historia: Ocena wizualnych reprezentacji przeszłości w modelach dyfuzyjnych i pochodzi od dwóch badaczy z Uniwersytetu Zuryskiego. Zbiór danych i kod są dostępne publicznie.

Kruchy „Prawda”

Niektóre z tematów w artykule dotykają kulturowo wrażliwych kwestii, takich jak niewystarczająca reprezentacja ras i płci w historycznych reprezentacjach. Podczas gdy nakładanie przez Gemini równości rasowej w III Rzeszy jest absurdalnym i obraźliwym rewizjonizmem historycznym, przywrócenie „tradycyjnych” rasowych reprezentacji (gdzie modele dyfuzyjne „zaktualizowały” te) często skutkowałoby „przywróceniem białej” historii.

Wiele ostatnich popularnych seriali historycznych, takich jak Bridgerton, rozmywa historyczną dokładność demograficzną w sposób, który może wpłynąć na przyszłe zbiory danych szkoleniowych, komplikując starania o dopasowanie obrazowości generowanej przez LLM do tradycyjnych standardów. Jednak jest to złożony temat, biorąc pod uwagę historyczną tendencję (zachodniej) historii do faworyzowania bogactwa i białej rasy, oraz pozostawiania niewielu „mniejszych” historii niewyjaśnionych.

Biorąc pod uwagę te delikatne i zmiennące się parametry kulturowe, przyjrzymy się nowemu podejściu autorów.

Metoda i testy

Aby przetestować, jak modele generatywne interpretują kontekst historyczny, autorzy stworzyli Historia, zbiór 30 000 obrazów wygenerowanych z 100 podpowiedzi przedstawiających powszechne ludzkie działania, każde zrealizowane w 10 różnych okresach historycznych:

Przykład z zestawu danych Historia, który autorzy udostępnili na Hugging Face. Źródło: https://huggingface.co/datasets/latentcanon/HistVis

Działania, takie jak gotowanie, modlitwa lub śpiewanie, zostały wybrane ze względu na ich powszechność i sformułowane w neutralny sposób, aby uniknąć kotwiczenia modelu w jakimś konkretnym estetyzmie. Okresy historyczne w zbiorze danych obejmują od XVII wieku do współczesności, z dodatkowym uwzględnieniem pięciu poszczególnych dekad z XX wieku.

30 000 obrazów zostało wygenerowane za pomocą trzech powszechnie używanych modeli dyfuzyjnych: Stable Diffusion XL; Stable Diffusion 3; i FLUX.1. Izolując okres czasu jako jedyną zmienną, badacze stworzyli uporządkowaną podstawę do oceny, jak historyczne wskazówki są wizualnie zakodowane lub ignorowane przez te systemy.

Dominacja stylu wizualnego

Początkowo autorzy zbadali, czy modele generatywne domyślnie przyjmują określone style wizualne, gdy przedstawiają okresy historyczne; ponieważ wydawało się, że nawet gdy podpowiedzi nie zawierały żadnej wzmianki o medium lub estetyzmie, modele często kojarzyły poszczególne stulecia ze stylistycznymi cechami:

Przewidywane style wizualne dla obrazów wygenerowanych z podpowiedzi „Osoba tańcząca z inną osobą w [okresie historycznym]” (po lewej) i z modyfikowanej podpowiedzi „Fotorealistyczny obraz osoby tańczącej z inną osobą w [okresie historycznym]” z „czarno-białym obrazem” jako negatywną podpowiedzią (po prawej).

Aby zmierzyć tę tendencję, autorzy przeszkolili sieć neuronową typu convolutional (CNN), aby sklasyfikować każdy obraz w zbiorze danych Historia do jednej z pięciu kategorii: rysowanie; grawerowanie; ilustracja; malarstwo; lub fotografia. Kategorie te zostały zaprojektowane w celu odzwierciedlenia wspólnych wzorców, które pojawiają się w czasie, i które wspierają uporządkowane porównanie.

Klasyfikator został oparty na modelu VGG16 przeszkolonym na ImageNet i dostosowanym z 1500 przykładami na klasę z zbioru danych WikiArt. Ponieważ WikiArt nie rozróżnia monochromatycznej i kolorowej fotografii, wykorzystano wynik punktowy koloru, aby oznaczyć obrazy o niskiej nasyceniu jako monochromatyczne.

Przeszkolony klasyfikator został następnie zastosowany do pełnego zestawu danych, a wyniki pokazały, że wszystkie trzy modele narzucają spójne domyślne style według okresu: SDXL kojarzy XVII i XVIII wiek z grawerowaniami, podczas gdy SD3 i FLUX.1 skłaniają się ku malarstwu. W dekadach XX wieku SD3 faworyzuje monochromatyczną fotografię, podczas gdy SDXL często zwraca nowoczesne ilustracje.

Te preferencje utrzymywały się pomimo dostosowań podpowiedzi, co wskazuje, że modele zakodowały głęboko osadzone powiązania między stylem a kontekstem historycznym.

Przewidywane style wizualne obrazów wygenerowanych w różnych okresach historycznych dla każdego modelu dyfuzyjnego, na podstawie 1000 próbek na okres na model.

Aby zmierzyć, jak silnie model łączy okres historyczny z określonym stylem wizualnym, autorzy opracowali metrykę, którą nazwali Dominacja stylu wizualnego (VSD). Dla każdego modelu i okresu VSD jest zdefiniowany jako proporcja danych wyjściowych, które są przewidywane do udziału w najczęstszym stylu:

Przykłady tendencyjności stylistycznych w różnych modelach.

Wyniki wskazują różne poziomy zbieżności, co pomaga wyjaśnić, jak silnie każdy model przestrzega określonych konwencji stylistycznych w czasie.

Zastosowana do pełnego zestawu danych metryka VSD ujawnia różne poziomy zbieżności, co pomaga wyjaśnić, jak silnie każdy model przestrzega określonych konwencji stylistycznych w czasie:

Wyniki tabeli powyżej pokazują wyniki VSD w różnych okresach historycznych dla każdego modelu. W XVII i XVIII wieku SDXL skłania się ku grawerowaniom o wysokiej spójności, podczas gdy SD3 i FLUX.1 faworyzują malarstwo. W XX i XXI wieku SD3 i FLUX.1 przechodzą w stronę fotografii, podczas gdy SDXL pokazuje większą zmienność, ale często domyślnie ustala ilustrację.

Wszystkie trzy modele wykazują silną preferencję dla monochromatycznych obrazów we wczesnych dekadach XX wieku, szczególnie w latach 10., 30. i 50.

Aby przetestować, czy te wzorce mogą być złagodzone, autorzy wykorzystali inżynierię podpowiedzi, wyraźnie żądając fotorealizmu i zniechęcając do monochromatycznego wyjścia za pomocą negatywnej podpowiedzi. W niektórych przypadkach wyniki dominance zmniejszyły się, a wiodący styl zmienił się, na przykład z monochromatycznego na malarstwo w XVII i XVIII wieku.

Jednak te interwencje rzadko prowadziły do prawdziwie fotorealistycznych obrazów, co wskazuje, że domyślne style modeli są głęboko osadzone.

Spójność historyczna

Następna linia analizy dotyczyła spójności historycznej: czy obrazy wygenerowane zawierają obiekty, które nie pasują do okresu. Zamiast korzystać z ustalonej listy zabronionych elementów, autorzy opracowali elastyczną metodę, która wykorzystywała duże modele językowe (LLM) i modele wizualno-językowe (VLM), aby zidentyfikować elementy, które wydawały się nie na miejscu, w oparciu o kontekst historyczny.

Metoda wykrywania postępowała w tym samym formacie, co zbiór danych Historia, gdzie każda podpowiedź łączyła okres historyczny z ludzkim działaniem. Dla każdej podpowiedzi GPT-4o generował listę obiektów, które byłyby nie na miejscu w określonym okresie; a dla każdego zaproponowanego obiektu GPT-4o generował pytanie tak-nie, aby sprawdzić, czy obiekt ten pojawia się w wygenerowanym obrazie.

Na przykład, dla podpowiedzi „Osoba słuchająca muzyki w XVIII wieku”, GPT-4o mogło zidentyfikować nowoczesne urządzenia audio jako historycznie niedokładne i wygenerować pytanie Czy osoba używa słuchawek lub telefonu komórkowego, które nie istniały w XVIII wieku?.

Te pytania zostały przekazane z powrotem do GPT-4o w ustawieniu odpowiedzi wizualnej, gdzie model przeglądał obraz i zwracał odpowiedź tak lub nie dla każdego. To pozwoliło na wykrywanie historycznie nieprawdopodobnych treści bez polegania na jakiejkolwiek wstępnie zdefiniowanej taksonomii nowoczesnych obiektów:

Przykłady obrazów wygenerowanych, które zostały oznaczone przez dwuetapową metodę wykrywania, pokazując anachroniczne elementy: słuchawki w XVIII wieku; odkurzacz w XIX wieku; laptop w latach 30.; i telefon komórkowy w latach 50.

Aby zmierzyć, jak często anachronizmy pojawiają się w wygenerowanych obrazach, autorzy wprowadzili prostą metodę do oceny częstotliwości i nasilenia. Po pierwsze, wzięli pod uwagę drobne różnice w sformułowaniach, jakimi GPT-4o opisywał ten sam obiekt.

Na przykład, nowoczesne urządzenie audio i cyfrowe urządzenie audio były traktowane jako równoważne. Aby uniknąć podwójnego liczenia, wykorzystano system dopasowania nieostrego, aby grupować te powierzchniowe różnice bez wpływu na rzeczywiście odrębne pojęcia.

Gdy wszystkie proponowane anachronizmy zostały znormalizowane, obliczono dwie metryki: częstotliwość mierzyła, jak często dany obiekt pojawiał się w obrazach dla określonego okresu i modelu; a nasilenie mierzyło, jak niezawodnie obiekt ten pojawiał się, gdy został zasugerowany przez model.

Jeśli nowoczesny telefon został oznaczony dziesięć razy i pojawił się w dziesięciu wygenerowanych obrazach, otrzymał wynik nasilenia 1,0. Jeśli pojawił się tylko w pięciu, wynik nasilenia wyniósł 0,5. Te wyniki pomogły zidentyfikować nie tylko to, czy anachronizmy występują, ale także jak mocno są one osadzone w danych wyjściowych modelu dla każdego okresu:

Piętnaście anachronicznych elementów dla każdego modelu, wykreślonych według częstotliwości na osi x i nasilenia na osi y. Koła oznaczają elementy sklasyfikowane w piętnaście najlepszych według częstotliwości, trójkąty według nasilenia, a diamenty według obu.

Powyróżnione są piętnaście najczęstszych anachronizmów dla każdego modelu, sklasyfikowanych według częstotliwości i nasilenia.

Ubranie było częste, ale rozproszone, podczas gdy elementy takie jak urządzenia audio i sprzęt do prasowania pojawiały się rzadziej, ale z wysokim nasileniem – wzorce, które sugerują, że modele często reagują bardziej na działanie w podpowiedzi niż na okres.

SD3 wykazał najwyższy wskaźnik anachronizmów, szczególnie w obrazach z XIX wieku i z lat 30., a następnie FLUX.1 i SDXL.

Aby przetestować, jak dobrze metoda wykrywania odpowiada osądowi ludzkiemu, autorzy przeprowadzili badanie z udziałem użytkowników, w którym 1800 losowo wybranych obrazów z SD3 (modelu z najwyższym wskaźnikiem anachronizmów) zostało ocenionych przez trzech pracowników. Po przefiltrowaniu w celu uzyskania niezawodnych odpowiedzi, 2040 osądów z 234 użytkowników zostało uwzględnionych, a metoda zgadzała się z głosami większości w 72 procentach przypadków.

Interfejs użytkownika dla badania oceny ludzkiej, pokazujący instrukcje zadania, przykłady dokładnych i anachronicznych obrazów oraz pytania tak-nie w celu identyfikacji niezgodności czasowych w danych wyjściowych.

Demografia

Ostatnia analiza dotyczyła tego, jak modele przedstawiają rasę i płeć w czasie. Wykorzystując zbiór danych Historia, autorzy porównali dane wyjściowe modelu z oszacowaniami podstawowymi wygenerowanymi przez model językowy. Te oszacowania nie były dokładne, ale oferowały ogólne poczucie historycznej prawdopodobieństwa, pomagając ujawnić, czy modele adaptują przedstawienia do zamierzonego okresu.

Aby ocenić te przedstawienia na dużą skalę, autorzy zbudowali potok, który porównywał dane wyjściowe modelu z przybliżonymi oczekiwaniami dla każdego okresu i działania. Po pierwsze, wykorzystali klasyfikator FairFace, narzędzie oparte na ResNet34, przeszkolone na ponad 100 000 obrazów, aby wykryć płeć i rasę w danych wyjściowych, umożliwiając pomiar częstotliwości, z jaką twarze w każdej scenie były klasyfikowane jako męskie lub żeńskie, oraz śledzenie kategorii rasowych w czasie.

Przykłady obrazów wygenerowanych, które pokazują nadreprezentację demograficzną w różnych modelach, okresach i działaniach.

Wyniki pokazały wyraźne wzorce: FLUX.1 często nadreprezentował mężczyzn, nawet w scenariuszach takich jak gotowanie, gdzie kobiety były oczekiwane; SD3 i SDXL wykazywały podobne tendencje w kategoriach takich jak praca, edukacja i religia; twarze białe pojawiały się częściej niż oczekiwano ogólnie, chociaż ten bias zmniejszał się w bardziej współczesnych okresach; i niektóre kategorie wykazywały nieoczekiwane skoki w nie-białej reprezentacji, sugerując, że zachowanie modelu może odzwierciedlać korelacje w zbiorze danych, a nie kontekst historyczny:

Nad- i podreprezentacja płci i rasy w danych wyjściowych FLUX.1 w różnych stuleciach i działaniach, wyrażone jako bezwzględne różnice od oszacowań demograficznych GPT-4o.

Autorzy kończą:

Nasza analiza ujawnia, że [Text-to-image/TTI] modele opierają się na ograniczonych kodowaniach stylistycznych, a nie na subtelnych zrozumieniach okresów historycznych. Każda epoka jest silnie związana z określonym stylem wizualnym, prowadząc do jednowymiarowych przedstawień historii.

Należy zauważyć, że fotorealistyczne przedstawienia ludzi pojawiają się dopiero od XX wieku, z rzadkimi wyjątkami w FLUX.1 i SD3, co sugeruje, że modele wzmacniają nauczone skojarzenia, a nie elastycznie adaptują się do kontekstów historycznych, utrwalając pogląd, że realizm jest cechą nowoczesną.

Ponadto częste anachronizmy sugerują, że okresy historyczne nie są czysto oddzielone w przestrzeniach latentnych tych modeli, ponieważ nowoczesne artefakty często pojawiają się w ustawieniach przednowoczesnych, podważając niezawodność systemów TTI w kontekstach edukacyjnych i dziedzictwa kulturowego.’

Podsumowanie

Podczas szkolenia modelu dyfuzyjnego nowe pojęcia nie osadzają się ładnie w wstępnie zdefiniowanych slotach w przestrzeni latentnej. Zamiast tego tworzą klastry ukształtowane przez to, jak często pojawiają się i jak blisko są do pokrewnych pomysłów. Wynikiem jest luźno zorganizowana struktura, w której pojęcia istnieją w relacji do ich częstotliwości i typowego kontekstu, a nie przez jakąkolwiek czystą lub empiryczną separację.

To sprawia, że trudno jest określić, co jest uważane za „historyczne” w dużym, ogólnym zbiorze danych. Jak sugerują wyniki w nowym artykule, wiele okresów jest reprezentowanych bardziej przez wygląd medium użytego do ich przedstawienia niż przez jakiekolwiek głębsze historyczne szczegóły.

To jeden z powodów, dla którego nadal trudno wygenerować fotorealistyczny obraz postaci z XVIII wieku; w większości przypadków model będzie polegał na wizualnych tropach zaczerpniętych z filmu i telewizji. Gdy te nie pasują do prośby, jest niewiele innego w danych, aby to skompensować. Przekroczenie tej luki prawdopodobnie będzie zależało od przyszłych ulepszeń w rozplątywaniu nakładających się pojęć.

Po raz pierwszy opublikowane w poniedziałek, 26 maja 2025