Andersons Blickwinkel

Wie man verhindert, dass KI iPhones in vergangenen Epochen darstellt

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Wie stellen AI-Bildgeneratoren die Vergangenheit dar? Neue Forschungsergebnisse deuten darauf hin, dass sie Smartphones ins 18. Jahrhundert einfügen, Laptops in Szenen der 1930er Jahre einsetzen und Staubsauger in Häusern des 19. Jahrhunderts platzieren, was Fragen über die Fähigkeit dieser Modelle aufwirft, historische Genauigkeit zu imaginieren – und ob sie überhaupt in der Lage sind, kontextuelle historische Genauigkeit zu erreichen.

Anfang 2024 geriet die Bildgenerierungsfähigkeit von Googles Gemini-Multimodal-AI-Modell in die Kritik, weil es demografische Fairness in unangemessenen Kontexten aufzwang, wie z.B. die Generierung von WWII-deutschen Soldaten mit unwahrscheinlicher Herkunft:

Demografisch unwahrscheinliche deutsche Militärpersonen, wie sie von Googles Gemini-Multimodal-Modell 2024 imaginiert wurden. Quelle: Gemini AI/Google via The Guardian

Dies war ein Beispiel, bei dem Bemühungen, Bias in AI-Modellen zu korrigieren, nicht berücksichtigten, dass es sich um einen historischen Kontext handelte. In diesem Fall wurde das Problem kurz darauf behoben. Allerdings bleiben diffusionsbasierte Modelle anfällig für die Generierung von Versionen der Geschichte, die moderne und historische Aspekte und Artefakte verwirren.

Dies liegt teilweise an Verflechtung, bei der Eigenschaften, die häufig zusammen im Trainingsdatensatz auftreten, im Modelloutput verschmelzen. Zum Beispiel kann das Modell lernen, moderne Objekte wie Smartphones mit dem Akt des Sprechens oder Zuhörens zu assoziieren, wenn diese Aktivitäten im Datensatz häufig zusammen auftreten, selbst wenn der Prompt einen historischen Kontext angibt. Sobald diese Assoziationen in den internen Repräsentationen des Modells verankert sind, wird es schwierig, die Aktivität von ihrem zeitgenössischen Kontext zu trennen, was zu historisch ungenauen Ergebnissen führt.

Eine neue Studie aus der Schweiz, die das Phänomen der verflochtenen historischen Generationen in latenten Diffusionsmodellen untersucht, zeigt, dass AI-Frameworks, die sehr gut darin sind, photorealistische Menschen zu erstellen, dennoch historische Figuren auf historische Weise darstellen:

Aus der neuen Studie, diverse Repräsentationen via LDM des Prompts ‘Ein photorealistisches Bild einer Person, die mit einem Freund in [der historischen Periode] lacht’, mit jedem Zeitalter in jedem Output. Wie wir sehen, ist das Medium der Ära mit dem Inhalt assoziiert worden. Quelle: https://arxiv.org/pdf/2505.17064

Für den Prompt ‘Ein photorealistisches Bild einer Person, die mit einem Freund in [der historischen Periode] lacht’ ignoriert eines der drei getesteten Modelle oft den negativen Prompt ‘Monochrom’ und verwendet stattdessen Farbbehandlungen, die den visuellen Medien der angegebenen Ära entsprechen, zum Beispiel die gedämpften Töne des Celluloid-Films aus den 1950er und 1970er Jahren.

Bei der Überprüfung der drei Modelle auf ihre Fähigkeit, Anachronismen (Dinge, die nicht der Zielperiode angehören oder ‘aus der Zeit’) zu erstellen, fanden sie eine allgemeine Neigung, zeitlose Aktivitäten (wie ‘Singend’ oder ‘Kochend’) mit modernen Kontexten und Ausrüstungen zu verbinden:

Verschiedene Aktivitäten, die für vorherige Jahrhunderte perfekt gültig sind, werden mit aktueller oder neuerer Technologie und Zubehör dargestellt, gegen den Geist der angeforderten Bilder.

Es ist bemerkenswert, dass Smartphones besonders schwer von der Idiomatik der Fotografie und vielen anderen historischen Kontexten zu trennen sind, da ihre Verbreitung und Darstellung in einflussreichen Hyperscale-Datensätzen wie Common Crawl gut repräsentiert sind:

Im Flux-Generativ-Text-Bild-Modell sind Kommunikation und Smartphones eng miteinander verbundene Konzepte – auch wenn der historische Kontext dies nicht zulässt.

Um den Umfang des Problems zu bestimmen und zukünftigen Forschungsbemühungen einen Weg voranzugehen, entwickelten die Autoren der neuen Studie ein spezielles Datenset, um generative Systeme zu testen. In einem Moment werden wir uns dieses neuen Werks ansehen, das den Titel Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models trägt und von zwei Forschern der Universität Zürich stammt. Das Datenset und der Code sind öffentlich zugänglich.

Ein fragile ‘Wahrheit’

Einige der Themen in der Studie berühren kulturell sensible Themen, wie die Unterrepräsentation von Rassen und Geschlechtern in historischen Darstellungen. Während Googles Gemini die Aufdrängung von rassischer Gleichheit im grob ungerechten Dritten Reich eine absurde und beleidigende historische Revision ist, würde die Wiederherstellung von ‘traditionellen’ rassischen Darstellungen (wenn Diffusionsmodelle diese ‘aktualisiert’ haben) oft effektiv die Geschichte ‘weißwaschen’.

Viele aktuelle historische Shows, wie Bridgerton, verzerren historische demografische Genauigkeit auf Weise, die wahrscheinlich zukünftige Trainingsdatensätze beeinflussen wird, was es schwierig macht, LLM-generierte Periodenbilder mit traditionellen Standards in Einklang zu bringen. Dies ist jedoch ein komplexes Thema, da die (westliche) Geschichte tendenziell Reichtum und Weiße bevorzugt und so viele ‘weniger’ Geschichten unerzählt lässt.

Bei Berücksichtigung dieser schwierigen und ständig wechselnden kulturellen Parameter nehmen wir uns den neuen Ansatz der Forscher an.

Methode und Tests

Um zu testen, wie generative Modelle historischen Kontext interpretieren, erstellten die Autoren HistVis, ein Datenset von 30.000 Bildern, die aus einhundert Prompts erstellt wurden, die alltägliche menschliche Aktivitäten darstellen, jeweils in zehn verschiedenen Zeiträumen:

Ein Beispiel aus dem HistVis-Datenset, das die Autoren auf Hugging Face verfügbar gemacht haben. Quelle: https://huggingface.co/datasets/latentcanon/HistVis

Die Aktivitäten, wie Kochen, Beten oder Musik hören, wurden aufgrund ihrer Universalität ausgewählt und in einer neutralen Formulierung angegeben, um das Modell nicht in einer bestimmten Ästhetik zu verankern. Die Zeiträume für das Datenset reichen von dem 17. Jahrhundert bis zur Gegenwart, mit zusätzlichem Fokus auf fünf einzelne Jahrzehnte des 20. Jahrhunderts.

30.000 Bilder wurden mit drei weit verbreiteten Open-Source-Diffusionsmodellen generiert: Stable Diffusion XL; Stable Diffusion 3; und FLUX.1. Durch die Isolation des Zeitraums als einzige Variable schufen die Forscher eine strukturierte Grundlage für die Bewertung, wie historische Hinweise visuell kodiert oder ignoriert werden.

Visueller Stil-Dominanz

Die Autoren untersuchten zunächst, ob generative Modelle standardmäßig bestimmte visuelle Stile verwenden, wenn sie historische Perioden darstellen; da es schien, dass die Modelle auch dann bestimmte Jahrhunderte mit charakteristischen Stilen assoziieren, wenn der Prompt keine Erwähnung von Medium oder Ästhetik enthält:

Vorhergesagte visuelle Stile für Bilder, die aus dem Prompt ‘Eine Person, die mit einer anderen in der [historischen Periode] tanzt’ (links) und aus dem modifizierten Prompt ‘Ein photorealistisches Bild einer Person, die mit einer anderen in der [historischen Periode] tanzt’ mit ‘Monochromes Bild’ als negativem Prompt (rechts) generiert wurden.

Um diese Tendenz zu messen, trainierten die Autoren ein konvolutionales neuronales Netzwerk (CNN), um jedes Bild im HistVis-Datenset in eine von fünf Kategorien zu klassifizieren: Zeichnung; Stich; Illustration; Malerei; oder Fotografie. Diese Kategorien sollten gemeinsame Muster widerspiegeln, die über Zeiträume hinweg auftreten und eine strukturierte Vergleichsmöglichkeit bieten.

Die Klassifizierung basierte auf einem VGG16-Modell, das auf ImageNet vorab trainiert und mit 1.500 Beispielen pro Klasse aus einem WikiArt-abgeleiteten Datenset fein abgestimmt wurde. Da WikiArt Monochrom-Fotografie nicht von Farbfotografie unterscheidet, wurde ein separates Farbigkeitsscore verwendet, um Bilder mit geringer Sättigung als monochrom zu kennzeichnen.

Das trainierte Klassifizierungsmodell wurde dann auf das gesamte Datenset angewendet, und die Ergebnisse zeigten, dass alle drei Modelle konsistente stilistische Standards pro Periode aufweisen: SDXL assoziiert das 17. und 18. Jahrhundert mit Stichen, während SD3 und FLUX.1 tendenziell zu Malereien neigen. In den Jahrzehnten des 20. Jahrhunderts bevorzugt SD3 monochrome Fotografie, während SDXL oft moderne Illustrationen zurückgibt.

Diese Präferenzen blieben bestehen, obwohl der Prompt angepasst wurde, was darauf hindeutet, dass die Modelle tief verwurzelte Verbindungen zwischen Stil und historischem Kontext kodieren.

Historische Konsistenz

Die nächste Analyse untersuchte die historische Konsistenz: Ob generierte Bilder Objekte enthalten, die nicht in die Zeitperiode passen. Anstatt eine feste Liste von verbotenen Gegenständen zu verwenden, entwickelten die Autoren eine flexible Methode, die große Sprachmodelle (LLMs) und visuell-linguistische Modelle (VLMs) nutzte, um Elemente zu erkennen, die im historischen Kontext fehl am Platz erschienen:

Beispiele für generierte Bilder, die von der zweistufigen Erkennungsmethode gekennzeichnet wurden und anachronistische Elemente zeigen: Kopfhörer im 18. Jahrhundert; ein Staubsauger im 19. Jahrhundert; ein Laptop in den 1930er Jahren; und ein Smartphone in den 1950er Jahren.

Um zu messen, wie oft Anachronismen in den generierten Bildern auftauchen, führten die Autoren eine einfache Methode zur Bewertung der Häufigkeit und Schwere ein. Zunächst berücksichtigten sie kleine Wortunterschiede in der Art und Weise, wie GPT-4o dieselben Objekte beschrieb.

Um Doppelzählungen zu vermeiden, wurde ein fuzzy matching system verwendet, um diese oberflächlichen Variationen ohne Beeinträchtigung tatsächlich unterschiedlicher Konzepte zu gruppieren.

Sobald alle vorgeschlagenen Anachronismen normalisiert wurden, wurden zwei Metriken berechnet: Häufigkeit maß, wie oft ein bestimmtes Objekt in Bildern für eine bestimmte Zeitperiode und ein bestimmtes Modell auftrat; und Schwere maß, wie zuverlässig das Objekt auftrat, nachdem es vom Modell vorgeschlagen worden war.

Wenn ein modernes Telefon zehn Mal gekennzeichnet und in zehn generierten Bildern aufgetaucht war, erhielt es einen Schweregrad von 1,0. Wenn es in nur fünf Bildern auftrat, betrug der Schweregrad 0,5. Diese Bewertungen halfen dabei, nicht nur festzustellen, ob Anachronismen auftraten, sondern auch, wie fest sie in den Ausgaben des Modells für jede Periode verankert waren:

Die fünfzehn häufigsten anachronistischen Elemente für jedes Modell, nach Häufigkeit auf der x-Achse und Schwere auf der y-Achse aufgetragen. Kreise markieren Elemente, die nach Häufigkeit in den Top 15 gelistet sind, Dreiecke nach Schwere und Rhomben nach beiden.

Oben sehen wir die fünfzehn häufigsten Anachronismen für jedes Modell, nach Häufigkeit und Konsistenz bewertet.

Kleidung war häufig, aber verstreut, während Gegenstände wie Audio-Geräte und Bügeleisen seltener auftraten, aber mit hoher Konsistenz – Muster, die darauf hindeuten, dass die Modelle oft eher auf die Aktivität im Prompt reagieren als auf die Zeitperiode.

SD3 zeigte den höchsten Anachronismus-Rate, insbesondere in Bildern des 19. Jahrhunderts und der 1930er Jahre, gefolgt von FLUX.1 und SDXL.

Um zu testen, wie gut die Erkennungsmethode mit menschlicher Beurteilung übereinstimmt, führten die Autoren eine Benutzerstudie mit 1.800 zufällig ausgewählten Bildern von SD3 (dem Modell mit der höchsten Anachronismus-Rate) durch, wobei jedes Bild von drei Crowd-Workern bewertet wurde. Nach Filterung für zuverlässige Antworten wurden 2.040 Urteile von 234 Benutzern einbezogen, und die Methode stimmte in 72 Prozent der Fälle mit der Mehrheitsmeinung überein:

GUI für die menschliche Bewertungsstudie, die Anweisungen zur Aufgabe, Beispiele für genaue und anachronistische Bilder sowie Ja/Nein-Fragen zur Identifizierung temporaler Inkonsistenzen in generierten Ausgaben zeigt.

Demografien

Die abschließende Analyse untersuchte, wie Modelle Rasse und Geschlecht über die Zeit hinweg darstellen. Mit dem HistVis-Datenset verglichen die Autoren die Ausgaben der Modelle mit Basis-Schätzungen, die von einem Sprachmodell generiert wurden. Diese Schätzungen waren nicht genau, aber sie boten einen groben Eindruck von historischer Plausibilität und halfen dabei, zu zeigen, ob die Modelle ihre Darstellungen an die beabsichtigte Periode anpassten.

Um diese Darstellungen im großen Maßstab zu bewerten, bauten die Autoren eine Pipeline, die die demografischen Merkmale der Modell-Ausgaben mit den Erwartungen für jede Zeit und Aktivität vergleicht. Sie verwendeten zunächst den FairFace-Klassifizierer, ein ResNet34-basiertes Tool, das auf über 100.000 Bildern trainiert wurde, um Geschlecht und Rasse in den generierten Ausgaben zu erkennen, was die Messung ermöglichte, wie oft Gesichter in jeder Szene als männlich oder weiblich klassifiziert wurden und wie Rassenkategorien über die Zeiträume hinweg verfolgt wurden:

Beispiele für generierte Bilder, die demografische Überrepräsentation über verschiedene Modelle, Zeiträume und Aktivitäten hinweg zeigen.

Niedrige Vertrauenswerte wurden gefiltert, um Rauschen zu reduzieren, und Vorhersagen wurden über alle Bilder gemittelt, die mit einem bestimmten Zeitraum und einer bestimmten Aktivität verbunden waren. Um die Zuverlässigkeit der FairFace-Lesungen zu überprüfen, wurde ein zweites System auf der Grundlage von DeepFace auf einer Stichprobe von 5.000 Bildern verwendet. Die beiden Klassifizierer zeigten eine starke Übereinstimmung, was die Konsistenz der demografischen Lesungen, die in der Studie verwendet wurden, unterstützte.

Um die Ausgaben der Modelle mit historischer Plausibilität zu vergleichen, baten die Autoren GPT-4o, die erwartete Verteilung von Geschlecht und Rasse für jede Aktivität und jeden Zeitraum zu schätzen. Diese Schätzungen dienten als grobe Grundlagen und nicht als Wahrheit. Zwei Metriken wurden dann verwendet: Unterrepräsentation und Überrepräsentation, die maßen, wie sehr die Ausgaben der Modelle von den Erwartungen des LLMs abwichen.

Die Ergebnisse zeigten klare Muster: FLUX.1 überrepräsentierte oft Männer, sogar in Szenarien wie Kochen, in denen Frauen erwartet wurden; SD3 und SDXL zeigten ähnliche Trends über Kategorien wie Arbeit, Bildung und Religion hinweg; weiße Gesichter erschienen häufiger als erwartet, obwohl dieser Bias in jüngeren Perioden abnahm; und einige Kategorien zeigten unerwartete Spitzen in der Darstellung von Nicht-Weißen, was darauf hindeutet, dass das Verhalten des Modells möglicherweise durch Datensatz-Korrelationen und nicht durch historischen Kontext bestimmt wird:

Geschlechtliche und rassische Überrepräsentation und Unterrepräsentation in den Ausgaben von FLUX.1 über Jahrhunderte und Aktivitäten hinweg, dargestellt als absolute Differenzen zu den demografischen Schätzungen von GPT-4o.

Die Autoren schlussfolgern:

‘Unsere Analyse zeigt, dass [Text-to-Bild/TTI]-Modelle auf begrenzte stilistische Kodierungen zurückgreifen, anstatt nuancierte Verständnisse historischer Perioden zu entwickeln. Jede Ära ist stark mit einem bestimmten visuellen Stil verbunden, was zu eindimensionalen Darstellungen der Geschichte führt.

‘Bemerkenswerterweise erscheinen photorealistische Darstellungen von Menschen nur ab dem 20. Jahrhundert, mit nur wenigen Ausnahmen in FLUX.1 und SD3, was darauf hindeutet, dass Modelle gelernte Assoziationen verstärken, anstatt sich flexibel an historische Kontexte anzupassen, und die Vorstellung aufrechterhalten, dass Realismus ein modernes Merkmal ist.

‘Darüber hinaus deuten häufige Anachronismen darauf hin, dass historische Perioden in den latenten Räumen dieser Modelle nicht sauber getrennt sind, da moderne Artefakte oft in prämodernen Kontexten auftauchen, was die Zuverlässigkeit von TTI-Systemen in Bildung und kulturellem Erbe in Frage stellt.’

Schlussfolgerung

Während der Trainingsphase eines Diffusionsmodells setzen sich neue Konzepte nicht ordnungsgemäß in vordefinierte Slots im latenten Raum. Stattdessen bilden sie Cluster, die durch ihre Häufigkeit und typischen Kontext geprägt sind. Das Ergebnis ist eine lose organisierte Struktur, in der Konzepte in Bezug auf ihre Häufigkeit und typischen Kontext existieren, anstatt durch eine saubere oder empirische Trennung.

Dies macht es schwierig, zu bestimmen, was als ‘historisch’ in einem großen, allgemeinen Datensatz gilt. Wie die Ergebnisse in der neuen Studie nahelegen, werden viele Zeiträume mehr durch das Aussehen der Medien dargestellt, die sie darstellen, als durch tiefere historische Details.

Dies ist einer der Gründe, warum es schwierig bleibt, ein photorealistisches Bild einer Figur aus dem 19. Jahrhundert zu generieren; in den meisten Fällen wird das Modell auf visuelle Klischees zurückgreifen, die aus Film und Fernsehen stammen. Wenn diese fehlschlagen, gibt es im Datenset wenig anderes, um den Mangel zu kompensieren. Die Überbrückung dieser Lücke wird wahrscheinlich von zukünftigen Verbesserungen in der Entflechtung überlappender Konzepte abhängen.

Erstveröffentlicht am Montag, dem 26. Mai 2025