Взгляд Anderson

Как остановить ИИ от изображения iPhone в прошлых эпохах

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Как генераторы изображений ИИ изображают прошлое? Новые исследования показывают, что они помещают смартфоны в 18 век, вставляют ноутбуки в сцены 1930-х годов и размещают пылесосы в домах 19 века, что вызывает вопросы о том, как эти модели представляют историю – и являются ли они способны обеспечить контекстную историческую точность вообще.

Ранее в 2024 году возможности генерации изображений многомодальной модели ИИ Google Gemini подверглись критике за навязывание демографического равенства в неподходящих контекстах, таких как генерация солдат Вермахта Второй мировой войны с маловероятным происхождением:

Демографически маловероятные военные лица, как их представила многомодальная модель Google Gemini в 2024 году. Источник: Gemini AI/Google via The Guardian

Это был пример того, как попытки исправить предвзятость в моделях ИИ не учитывали исторический контекст. В данном случае проблема была решена вскоре после этого. Однако модели на основе диффузии остаются склонными генерировать версии истории, которые смешивают современные и исторические аспекты и артефакты.

Это частично связано с переплетением, когда качества, которые часто появляются вместе в обучающих данных, становятся срощенными в выходных данных модели. Например, если современные объекты, такие как смартфоны, часто сочетаются с действием разговора или слушания в наборе данных, модель может научиться ассоциировать эти действия с современными устройствами, даже когда подсказка указывает на историческую обстановку. Как только эти ассоциации закрепляются в внутренних представлениях модели, становится трудно отделить действие от его современного контекста, что приводит к исторически неточным результатам.

Новая работа из Швейцарии, исследующая явление переплетенных исторических поколений в моделях диффузии, наблюдает, что ИИ-рамки, которые способны создавать фотореалистичные изображения людей, тем не менее предпочитают изображать исторических фигур в исторических способах:

Из новой работы, разнообразные представления через LDM подсказки ‘Фотореалистичное изображение человека, смеющегося с другом в [исторический период]’, с каждым периодом, указанным в каждом выходе. Как мы видим, среда эпохи стала ассоциироваться с содержанием. Источник: https://arxiv.org/pdf/2505.17064

Для подсказки ‘Фотореалистичное изображение человека, смеющегося с другом в [исторический период]’ одна из трех протестированных моделей часто игнорирует отрицательную подсказку ‘монochrome’ и вместо этого использует цветовые обработки, отражающие визуальные средства эпохи, например, имитируя приглушенные тона кинопленки 1950-х и 1970-х годов.

При тестировании трех моделей на их способность создавать анахронизмы (вещи, которые не принадлежат к целевому периоду, или ‘вне времени’ – которые могут быть из будущего или прошлого целевого периода), они обнаружили общую тенденцию смешивать вечные действия (такие как ‘пение’ или ‘готовка’) с современными контекстами и оборудованием:

Разнообразные действия, которые идеально подходят для предыдущих веков, изображаются с современными или более поздними технологиями и атрибутами, против духа запрошенного изображения.

Примечательно, что смартфоны особенно трудно отделить от идиомы фотографии, и от многих других исторических контекстов, поскольку их распространение и изображение хорошо представлены в влиятельных гипермасштабных наборах данных, таких как Common Crawl:

В генеративной модели текст-изображение Flux коммуникации и смартфоны тесно связаны – даже когда исторический контекст не позволяет этого.

Чтобы определить степень проблемы и дать будущим исследовательским усилиям способ вперед с этой конкретной проблемой, авторы новой работы разработали специальный набор данных, против которого можно протестировать генеративные системы. Сейчас мы рассмотрим эту новую работу, которая называется Синтетическая история: Оценка визуальных представлений прошлого в моделях диффузии, и исходит от двух исследователей Университета Цюриха. Набор данных и код доступны публично.

Хрупкая ‘правда’

Некоторые темы в работе затрагивают культурно чувствительные вопросы, такие как недопредставленность рас и гендера в исторических представлениях. Хотя навязывание расового равенства в Гемини в грубо неравном Третьем рейхе является абсурдной и оскорбительной исторической ревизией, восстановление ‘традиционных’ расовых представлений (где модели диффузии ‘обновили’ эти) часто фактически ‘перебелило’ историю.

Многие недавние популярные исторические шоу, такие как Бриджертон, размывают историческую демографическую точность способами, которые, вероятно, повлияют на будущие обучающие наборы данных, что усложняет усилия по выравниванию сгенерированных изображений LLM с традиционными стандартами. Однако это сложная тема, учитывая историческую тенденцию (западной) истории отдавать предпочтение богатству и белости, и оставлять так много ‘меньших’ историй нерассказанными.

Учитывая эти сложные и постоянно меняющиеся культурные параметры, давайте рассмотрим подход исследователей.

Метод и тесты

Чтобы протестировать, как генеративные модели интерпретируют исторический контекст, авторы создали HistVis, набор данных из 30 000 изображений, сгенерированных из ста подсказок, изображающих общие человеческие действия, каждое из которых представлено в десяти различных временных периодах:

Образец из набора данных HistVis, который авторы разместили на Hugging Face. Источник: https://huggingface.co/datasets/latentcanon/HistVis

Действия, такие как готовка, молитва или слушание музыки, были выбраны за их универсальность и сформулированы в нейтральной форме, чтобы избежать привязки модели к конкретной эстетике. Временные периоды для набора данных варьируются от 17 века до настоящего дня, с добавленным вниманием к пяти отдельным десятилетиям 20 века.

30 000 изображений были сгенерированы с помощью трех широко используемых открытых моделей диффузии: Stable Diffusion XL; Stable Diffusion 3; и FLUX.1. Изолируя временной период как единую переменную, исследователи создали структурированную основу для оценки того, как исторические подсказки визуально закодированы или игнорируются этими системами.

Визуальный стиль доминирования

Авторы изначально изучали, используют ли генеративные модели конкретные визуальные стили при изображении исторических периодов; поскольку казалось, что даже когда подсказки не содержали упоминания о средстве или эстетике, модели часто ассоциировали определенные века с характерными стилями:

Предсказанные визуальные стили для изображений, сгенерированных из подсказки ‘Человек танцует с другим в [исторический период]’ (слева) и из измененной подсказки ‘Фотореалистичное изображение человека, танцующего с другим в [исторический период]’ с ‘монochrome picture’ в качестве отрицательной подсказки (справа).

Чтобы измерить эту тенденцию, авторы обучили свёрточную нейронную сеть (CNN) классифицировать каждое изображение в наборе данных HistVis в одну из пяти категорий: рисунок; гравюра; иллюстрация; живопись; или фотография. Эти категории были предназначены для отражения общих закономерностей, которые возникают во времени, и которые поддерживают структурированное сравнение.

Классификатор был основан на модели VGG16, предварительно обученной на ImageNet и дообученной с 1500 примерами на класс из набора данных, полученного из WikiArt. Поскольку WikiArt не различает монохромную и цветную фотографию, отдельный цветовой баланс был использован для маркировки изображений с низкой насыщенностью как монохромных.

Обученный классификатор затем был применен к полному набору данных, и результаты показали, что все три модели навязывают последовательные стилистические стандарты по периодам: SDXL ассоциирует 17 и 18 века с гравюрами, в то время как SD3 и FLUX.1 склоняются к живописи. В десятилетиях 20 века SD3 предпочитает монохромную фотографию, в то время как SDXL часто возвращает современные иллюстрации.

Эти предпочтения были обнаружены даже при изменении подсказок, что указывает на то, что модели закодировали глубоко укоренившиеся связи между стилем и историческим контекстом.

Предсказанные визуальные стили сгенерированных изображений по историческим периодам для каждой модели диффузии, основанные на 1000 образцах на период на модель.

Чтобы количественно оценить, насколько сильно модель связывает исторический период с определенным визуальным стилем, авторы разработали метрику, которую они называют Визуальное стиль доминирования (VSD). Для каждой модели и временного периода VSD определяется как доля выходных данных, предсказанных как имеющих наиболее распространенный стиль:

Примеры стилистических предубеждений по моделям.

Более высокий балл указывает на то, что один стиль доминирует в выходных данных для этого периода, в то время как более низкий балл указывает на большее разнообразие. Это позволяет сравнить, насколько тесно каждая модель придерживается конкретных стилистических конвенций во времени.

Примененная к полному набору данных HistVis, метрика VSD раскрывает различные уровни сходимости, что помогает прояснить, насколько сильно каждая модель сужает свое визуальное толкование прошлого:

Таблица результатов выше показывает баллы VSD по историческим периодам для каждой модели. В 17 и 18 веках SDXL склоняется к гравюрам с высокой последовательностью, в то время как SD3 и FLUX.1 предпочитают живопись. К 20 и 21 векам SD3 и FLUX.1 смещаются в сторону фотографии, в то время как SDXL показывает больше вариативности, но часто переходит к иллюстрациям.

Все три модели демонстрируют сильную тенденцию к монохромному изображению в ранних десятилетиях 20 века, особенно в 1910-х, 1930-х и 1950-х годах.

Чтобы протестировать, можно ли смягчить эти закономерности, авторы использовали инжиниринг подсказок, явно запрашивая фотореализм и отговаривая монохромный выход с помощью отрицательной подсказки. В некоторых случаях баллы доминирования уменьшились, и ведущий стиль сместился, например, от монохрома к живописи в 17 и 18 веках.

Однако эти вмешательства редко производили действительно фотореалистичные изображения, что указывает на то, что стилистические стандарты модели глубоко укоренились.

Историческая последовательность

Следующий анализ изучал историческую последовательность: включают ли сгенерированные изображения объекты, которые не подходят к периоду. Вместо использования фиксированного списка запрещенных предметов авторы разработали гибкий метод, который использовал большие языковые модели (LLM) и модели видения-языка (VLM) для обнаружения элементов, которые кажутся неуместными, основываясь на историческом контексте.

Метод обнаружения следовал тому же формату, что и набор данных HistVis, где каждая подсказка объединяла исторический период с человеческим действием. Для каждой подсказки GPT-4o генерировал список объектов, которые были бы неуместны в указанном периоде; и для каждого предложенного объекта GPT-4o производил вопрос да/нет, предназначенный для проверки того, появляется ли этот объект в сгенерированном изображении.

Например, для подсказки ‘Человек слушает музыку в 18 веке’ GPT-4o мог бы выявить современные аудиоустройства как исторически неточные и произвести вопрос Использует ли человек наушники или смартфон, который не существовал в 18 веке?.

Эти вопросы были переданы обратно в GPT-4o в настройке визуального вопрос-ответа, где модель просматривала изображение и возвращала ответ да или нет для каждого. Этот конвейер позволил обнаружить исторически невероятный контент без опоры на любую предопределенную таксономию современных объектов:

Примеры сгенерированных изображений, помеченных двусторонним методом обнаружения, показывающих анахронистические элементы: наушники в 18 веке; пылесос в 19 веке; ноутбук в 1930-х годах; и смартфон в 1950-х годах.

Чтобы измерить, насколько часто анахронизмы появляются в сгенерированных изображениях, авторы ввели простой метод для оценки частоты и тяжести. Сначала они учли незначительные различия в формулировке, с которыми GPT-4o описывал один и тот же объект.

Например, современное аудиоустройство и цифровое аудиоустройство рассматривались как эквивалентные. Чтобы избежать двойного счета, была использована система нечеткого совпадения, чтобы сгруппировать эти поверхностные вариации без влияния на действительно различные концепции.

Как только все предложенные анахронизмы были нормализованы, были рассчитаны две метрики: частота измеряла, насколько часто данный объект появлялся в изображениях для конкретного периода и модели; и тяжкость измеряла, насколько надежно этот объект появлялся, как только он был предложен моделью.

Если современный телефон был помечен десять раз и появился в десяти сгенерированных изображениях, он получил балл тяжести 1,0. Если он появился только в пяти, балл тяжести был 0,5. Эти баллы помогли выявить не только то, появляются ли анахронизмы, но и насколько сильно они укоренились в выходных данных модели для каждого периода:

Топ-15 анахронистических элементов для каждой модели, отображаемых по частоте на оси X и тяжести на оси Y. Круги обозначают элементы, занявшие топ-15 по частоте, треугольники по тяжести, и ромбы по обоим показателям.

Выше мы видим 15 наиболее распространенных анахронизмов для каждой модели, ранжированных по частоте и последовательности.

Одежда была частой, но разбросанной, в то время как предметы, такие как аудиоустройства и утюги, появлялись реже, но с высокой последовательностью – закономерности, которые предполагают, что модели часто реагируют на действие в подсказке больше, чем на период времени.

SD3 показала самый высокий уровень анахронизмов, особенно в изображениях 19 века и 1930-х годов, за ней следуют FLUX.1 и SDXL.

Чтобы протестировать, насколько хорошо метод обнаружения соответствует человеческому суждению, авторы провели исследование с участием пользователей, в котором 1800 случайно отобранных изображений из SD3 (модели с самым высоким уровнем анахронизмов) были оценены тремя работниками. После фильтрации для надежных ответов 2040 суждений от 234 пользователей были включены, и метод согласовался с большинством голосов в 72 процентах случаев.

GUI для исследования человеческой оценки, показывающий инструкции к задаче, примеры точных и анахронистических изображений, и вопросы да/нет для выявления временных несоответствий в сгенерированных выходных данных.

Демография

Окончательный анализ изучал, как модели изображают расу и пол во времени. Используя набор данных HistVis, авторы сравнили выходные данные модели с оценочными данными, сгенерированными языковой моделью. Эти оценки не были точными, но давали примерное представление об исторической правдоподобности, помогая выявить, адаптируются ли модели к предполагаемому периоду.

Чтобы оценить эти изображения в масштабе, авторы построили конвейер для сравнения выходных данных модели с грубыми ожиданиями, сгенерированными языковой моделью. Эти оценки не были точными, но давали примерное представление об исторической правдоподобности, помогая выявить, адаптируются ли модели к предполагаемому периоду.

Примеры сгенерированных изображений, показывающих демографическое переизбыток по разным моделям, периодам и действиям.

Примеры сгенерированных изображений, показывающие демографическое переизбыток по разным моделям, периодам и действиям.

Низкодоуверенные результаты были отфильтрованы, чтобы уменьшить шум, и прогнозы были усреднены по всем изображениям, связанным с конкретным временем и действием. Чтобы проверить надежность чтений FairFace, вторая система, основанная на DeepFace, была использована на выборке из 5000 изображений. Две классификаторы показали сильное согласование, подтверждая последовательность демографических чтений, использованных в исследовании.

Чтобы сравнить выходные данные модели с исторической правдоподобностью, авторы попросили GPT-4o оценить ожидаемое распределение пола и расы для каждого действия и периода. Эти оценки служили грубыми ориентирами, а не истиной.

Две метрики были затем использованы: недопредставленность и перепредставленность, измеряющие, насколько выходные данные модели отклонялись от ожиданий LLM.

Результаты показали четкие закономерности: FLUX.1 часто переоценивала мужчин, даже в сценариях, таких как готовка, где женщины ожидались; SD3 и SDXL показали подобные тенденции по категориям, таким как работа, образование и религия; белые лица появлялись чаще, чем ожидалось в целом, хотя этот предвзятость уменьшался в более поздних периодах; и некоторые категории показали неожиданные всплески в представленности не-белых лиц, что предполагает, что поведение модели может отражать корреляции набора данных, а не исторический контекст:

Перепредставленность и недопредставленность пола и расы в выходных данных FLUX.1 по векам и действиям, показанные как абсолютные различия от демографических оценок GPT-4o.

Авторы заключили:

‘Наш анализ показывает, что [Text-to-image/TTI] модели полагаются на ограниченные стилистические кодирования, а не на нюансовое понимание исторических периодов. Каждая эпоха тесно связана с определенным визуальным стилем, что приводит к одномерным изображениям истории.

‘Примечательно, что фотореалистичные изображения людей появляются только с 20 века, с редкими исключениями в FLUX.1 и SD3, что предполагает, что модели подкрепляют выученные ассоциации, а не гибко адаптируются к историческим контекстам, увековечивая представление о том, что реализм – это современная черта.

‘Кроме того, частые анахронизмы указывают на то, что исторические периоды не четко разделены в латентных пространствах этих моделей, поскольку современные артефакты часто появляются в до-современных обстановках, подрывая надежность систем TTI в образовательных и культурно-наследственных контекстах.’

Заключение

Во время обучения модели диффузии новые концепции не аккуратно укладываются в предопределенные слоты в латентном пространстве. Вместо этого они образуют кластеры, сформированные частотой их появления и их близостью к связанным идеям. Результатом является слабо организованная структура, где концепции существуют в отношении к их частоте и типичному контексту, а не по какой-либо чистой или эмпирической разделенности.

Это делает трудным отделить то, что считается ‘историческим’ в большом, общем наборе данных. Как показывают результаты в новой работе, многие временные периоды представлены больше ‘видом’ средства, использованного для их изображения, чем какой-либо более глубокой исторической деталью.

Это одна из причин, почему остается трудным сгенерировать фотореалистичное изображение персонажа из (например) 19 века; в большинстве случаев модель будет полагаться на визуальные тропы, взятые из фильмов и телевидения. Когда эти тропы не соответствуют запросу, в данных мало что остается, чтобы компенсировать. Переход этого разрыва, вероятно, будет зависеть от будущих улучшений в разделении перекрывающихся концепций.

Опубликовано впервые в понедельник, 26 мая 2025