Погляд Anderson

Як зупинити зображення AI iPhone в минулих епохах

Published May 26, 2025

Updated April 26, 2026

Martin Anderson

A montage of various selected illustrations from the paper 'Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models' (https://arxiv.org/abs/2505.17064)

Як генератори зображень AI малюють минуле? Нові дослідження свідчать, що вони впроваджують смартфони в 18 столітті, вставляють ноутбуки в сцени 1930-х років і розміщують пилососи в домах 19 століття, що викликає питання про те, як ці моделі уявляють історію – і чи здатні вони взагалі до контекстної історичної точності.

На початку 2024 року можливості генерації зображень моделі Google Gemini піддалися критиці за впровадження демографічної справедливості в невластивих контекстах, таких як генерація солдатів Вермахту часів Другої світової війни з малоймовірним походженням:

Демографічно малоймовірні військові особи, як їх бачила модель Gemini multimodal у 2024 році. Джерело: Gemini AI/Google через The Guardian

Це був приклад того, як спроби виправити представлення в моделях AI не врахували історичний контекст. У цьому випадку проблема була вирішена невдовзі після цього. Однак дифузійні моделі залишаються схильними генерувати версії історії, які плутають сучасні та історичні аспекти та артефакти.

Це частково відбувається через ентанглемент, коли якості, які часто з’являються разом у навчальних даних, стають сплетеними у виводі моделі. Наприклад, якщо сучасні об’єкти, такі як смартфони, часто співвідносяться з діями, такими як розмова чи слухання у наборі даних, модель може вивчити асоціацію цих дій з сучасними пристроями, навіть коли промпт вказує історичний контекст. Як тільки ці асоціації стають частиною внутрішніх представлень моделі, стає важко розділити дію від її сучасного контексту, що призводить до історично неточних результатів.

Нова робота зі Швейцарії, що вивчає явище ентангльованого історичного покоління в латентних дифузійних моделях, спостерігає, що рамкові моделі AI, які достатньо здатні створювати фотореалістичні зображення людей, все-таки віддають перевагу зображенню історичних постатей історичним чином:

З нової роботи, різноманітні представлення через LDM промпту ‘Фотореалістичне зображення людини, що сміється з другом в [історичному періоді]’, з кожним періодом, вказаним у кожному виводі. Як ми бачимо, середовище епохи стало асоційованим з вмістом. Джерело: https://arxiv.org/pdf/2505.17064

Для промпту ‘Фотореалістичне зображення людини, що сміється з другом в [історичному періоді]’, одна з трьох випробуваних моделей часто ігнорує негативний промпт ‘монochrome’ і натомість використовує кольорові обробки, які відображають візуальні засоби вказаного епохи, наприклад, імітує приглушені тони кіноплівки 1950-х і 1970-х років.

Під час тестування трьох моделей на їхню здатність створювати анахронізми (річі, які не належать до цілісного періоду, або ‘з іншого часу’ – які можуть бути як з майбутнього періоду, так і з його минулого), вони виявили загальну схильність плутати безчасові дії (такі як ‘співання’ або ‘приготування їжі’) з сучасними контекстами та обладнанням:

Різноманітні дії, які є цілком дійсними для попередніх століть, зображені з сучасними або більш недавніми технологіями та речами, проти духу запиту про зображення.

Відмітьте, що смартфони особливо важко розділити від ідійома фотографії, а також від багатьох інших історичних контекстів, оскільки їхнє поширення та зображення добре представлені в впливових гіпермасштабних наборах даних, таких як Common Crawl:

У генеративній текстовій моделі зображень Flux, комунікації та смартфони тісно пов’язані концепції – навіть тоді, коли історичний контекст не дозволяє цього.

Щоб визначити масштаб проблеми та надати майбутнім дослідженням можливість рухатися вперед з цією конкретною проблемою, автори нової роботи розробили спеціальний набір даних для тестування генеративних систем. За момент, ми розглянемо цю нову роботу, яка називається Синтетична історія: оцінка візуальних представлень минулого в дифузійних моделях, і походить від двох дослідників Університету Цюриха. Набір даних і код є публічно доступними.

Хитра ‘правда’

Деякі теми в роботі торкаються культурно чутливих питань, таких як недопредставленість рас та гендеру в історичних представленнях. Хоча імпозиція Gemini расової рівності в Третьому рейху є абсурдною та образливою історичною ревізією, відновлення ‘традиційних’ расових представлень (де дифузійні моделі ‘оновлюють’ ці) часто фактично ‘перебілили б’ історію.

Багато недавніх популярних історичних шоу, таких як Bridgerton, розмивають історичну демографічну точність способами, які, ймовірно, вплинуть на майбутні навчальні набори даних, ускладнюючи зусилля зі збереження періодичної зображення, згенерованого LLM, у традиційних стандартах. Однак це складна тема, враховуючи історичну тенденцію (західної) історії віддавати перевагу багатству та білизні, а також залишати безліч ‘менших’ історій невидимими.

Враховуючи ці складні та постійно змінуючі культурні параметри, давайте розглянемо підхід дослідників.

Метод і тести

Щоб протестувати, як генеративні моделі інтерпретують історичний контекст, автори створили HistVis, набір даних із 30 000 зображень, згенерованих з ста промптів, що зображують звичайні людські дії, кожна з яких була відтворена в десяти різних часових періодах:

Зразок з набору даних HistVis, який автори зробили доступним на Hugging Face. Джерело: https://huggingface.co/datasets/latentcanon/HistVis

Дії, такі як приготування їжі, молитва або слухання музики, були обрані за їхню універсальність, і були сформульовані в нейтральному форматі, щоб уникнути закріплення моделі в певній естетиці. Часові періоди для набору даних варіювалися від сімнадцятого століття до сьогодення, з додatkованим акцентом на п’ять окремих десятиліть двадцятого століття.

30 000 зображень були згенеровані за допомогою трьох широко використовуваних відкритих дифузійних моделей: Stable Diffusion XL; Stable Diffusion 3; і FLUX.1. Відокремлюючи часовий період як єдина змінна, дослідники створили структуровану основу для оцінки того, як історичні підказки візуально кодуються або ігноруються цими системами.

Візуальний стиль домінування

Автори спочатку розглянули, чи генеративні моделі за замовчуванням використовують конкретні візуальні стилі при зображенні історичних періодів; оскільки здається, що навіть коли промпти не містять жодної згадки про середовище чи естетику, моделі часто асоціюють певні століття з характерними стилями:

Передбачувані візуальні стилі для згенерованих зображень з промпту ‘Людина, що танцює з іншим в [історичному періоді]’ (ліворуч) і з модифікованого промпту ‘Фотореалістичне зображення людини, що танцює з іншим в [історичному періоді]’ з ‘монochrome picture’ як негативним промптом (праворуч).

Щоб виміряти цю тенденцію, автори тренували конвольюційну нейронну мережу (CNN) для класифікації кожного зображення в наборі даних HistVis в одну з п’яти категорій: малюнок; гравюра; ілюстрація; малюнок; або фотографія. Ці категорії були призначені для відбивання спільних моделей, які виникають протягом часових періодів, і які підтримують структуроване порівняння.

Класифікатор був заснований на моделі VGG16, попередньо тренованій на ImageNet і дообученій з 1 500 прикладами на клас з набору даних, похідного від WikiArt. Оскільки WikiArt не розрізняє монохромну та кольорову фотографію, окремий бал за кольоровість був використаний для маркування низькосатурних зображень як монохромних.

Тренований класифікатор був потім застосований до повного набору даних, і результати показали, що всі три моделі впроваджують послідовні стилістичні стандарти за період: SDXL асоціює 17-й і 18-й століття з гравюрами, тоді як SD3 і FLUX.1 схиляються до малюнків. У десятиліттях 20-го століття SD3 віддає перевагу монохромній фотографії, тоді як SDXL часто повертається до сучасних ілюстрацій.

Ці переваги були виявлені навіть попри корекцію промптів, що свідчить про те, що моделі закодують глибоко вкорінені зв’язки між стилем і історичним контекстом.

Передбачувані візуальні стилі згенерованих зображень протягом історичних періодів для кожної дифузійної моделі, на основі 1 000 зразків на період на модель.

Щоб кількісно оцінити, наскільки сильно модель пов’язує історичний період з певним візуальним стилем, автори розробили метрику, яку вони називають Візуальне стилістичне домінування (VSD). Для кожної моделі та часу VSD визначається як пропорція виводів, передбачених як ті, що мають найпоширеніший стиль:

Приклади стилістичних упереджень по моделях.

Високий бал свідчить про те, що один стиль домінує у виводах для цього періоду, тоді як низький бал вказує на більшу варіативність. Це дозволяє порівнювати, наскільки тісно кожна модель дотримується конкретних стилістичних конвенцій протягом часу.

Застосовані до повного набору даних HistVis, метрика VSD розкриває різні рівні збіжності, що допомагає прояснити, наскільки сильно кожна модель звужує свій візуальний переклад минулого:

Таблиця результатів зверху показує оцінки VSD по історичних періодам для кожної моделі. У 17-м і 18-м століттях SDXL схильна виробляти гравюри з високою послідовністю, тоді як SD3 і FLUX.1 схиляються до малюнків. У 20-м і 21-м століттях SD3 і FLUX.1 переходять до фотографії, тоді як SDXL показує більшу варіативність, але часто повертається до ілюстрацій.

Усі три моделі демонструють сильну перевагу монохромних зображень у ранніх десятиліттях 20-го століття, особливо в 1910-х, 1930-х і 1950-х роках.

Щоб протестувати, чи ці моделі можна пом’якшити, автори використали інженерію промптів, явно запитуючи фотореалізм і відштовхуючи монохромний вивід за допомогою негативного промпту. У деяких випадках бал домінування зменшувався, і ведучий стиль змінився, наприклад, з монохромного на малюнок у 17-м і 18-м століттях.

Однак, ці втручання рідко призводили до справжніх фотореалістичних зображень, вказуючи на те, що стилістичні стандарти моделей глибоко вкорінені.

Історична послідовність

Наступна лінія аналізу розглянула історичну послідовність: чи згенеровані зображення містять об’єкти, які не пасують до часу періоду. Замість використання фіксованого списку заборонених об’єктів, автори розробили гнучкий метод, який використовував великі мовні моделі (LLM) та візуально-мовні моделі (VLM), щоб виявити елементи, які здаються не на місці, на основі історичного контексту.

Метод виявлення слідував тому ж формату, що й набір даних HistVis, де кожен промпт поєднував історичний період з людською діяльністю. Для кожного промпту GPT-4o генерував список об’єктів, які були б не на місці в вказаному періоді; і для кожного запропонованого об’єкта GPT-4o створював так-ні питання, призначене для перевірки того, чи з’являється цей об’єкт у згенерованому зображенні.

Наприклад, для промпту ‘Людина, що слухає музику в 18 столітті’, GPT-4o міг ідентифікувати сучасні аудіопристрої як історично неточні, і створити питання Чи використовує людина навушники або смартфон, який не існував у 18 столітті?.

Ці питання були передані назад до GPT-4o у візуально-питальному форматі, де модель переглядала зображення і повертала так або ні відповідь для кожного. Цей трубопровід дозволив виявити історично неточний вміст без використання будь-якої попередньо визначеної таксономії сучасних об’єктів:

Приклади згенерованих зображень, прапорці яких підняті двоступеневим методом виявлення, показуючи анахронічні елементи: навушники в 18 столітті; пилосос в 19 столітті; ноутбук у 1930-х роках; і смартфон у 1950-х роках.

Щоб виміряти, наскільки часто анахронізми з’являються у згенерованих зображеннях, автори ввели простий метод для оцінки частоти та тяжкості. Спочатку вони врахували незначні відмінності у формулюваннях, якими GPT-4o описував один і той же об’єкт.

Наприклад, сучасний аудіопристрій і цифровий аудіопристрій були оброблені як еквівалентні. Щоб уникнути подвійного підрахунку, система розмитого збігу була використана для групування цих поверхневих варіацій без впливу на дійсно різні концепції.

Після нормалізації всіх запропонованих анахронізмів дві метрики були обчислені: частота вимірювала, наскільки часто певний об’єкт з’являвся в зображеннях для конкретного часу періоду та моделі; і тяжкість вимірювала, наскільки надійно цей об’єкт з’являвся після того, як був запропонований моделлю.

Якщо сучасний телефон був прапорцем десять разів і з’являвся в десяти згенерованих зображеннях, він отримував бал тяжкості 1,0. Якщо він з’являвся лише в п’яти, бал тяжкості був 0,5. Ці бали допомогли ідентифікувати не тільки те, чи анахронізми відбуваються, але й наскільки сильно вони вкорінені у виводі моделі для кожного періоду:

Топ-15 анахронічних елементів для кожної моделі, відображених за частотою на осі X і тяжкістю на осі Y. Кола позначають елементи, що займають перші 15 місць за частотою, трикутники – за тяжкістю, і ромби – за обома.

Вище ми бачимо 15 найбільш поширених анахронізмів для кожної моделі, ранжированих за їхньою частотою та послідовністю.

Одяг був частим, але розсіяним, тоді як речі, такі як аудіопристрої та праски, з’являлися менше, але з високою послідовністю – моделі часто реагують на дію у промпті більше, ніж на часовий період.

SD3 показала найвищу частоту анахронізмів, особливо в зображеннях 19-го століття та 1930-х років, за нею FLUX.1 і SDXL.

Щоб протестувати, наскільки добре метод виявлення збігається з людською оцінкою, автори провели дослідження користувачів, яке включало 1 800 випадково вибраних зображень з SD3 (моделі з найвищим рівнем анахронізмів), з кожним зображенням, оціненим трьома робітниками. Після фільтрації для надійних відповідей 2 040 суджень від 234 користувачів були включені, і метод погодився з більшістю голосів у 72 відсотках випадків.

GUI для дослідження людської оцінки, що показує інструкції завдання, приклади точних і анахронічних зображень, і так-ні питання для ідентифікації тимчасових несумісностей у згенерованих виводах.

Демографія

Останній аналіз розглянув, як моделі зображують расу та гендер у часі. Використовуючи набір даних HistVis, автори порівняли вивід моделі з оцінками, згенерованими мовною моделлю. Ці оцінки не були точними, але надавали приблизне відчуття історичної правдоподібності, допомагаючи розкрити, чи адаптуються моделі до наміченого періоду.

Щоб оцінити ці зображення у великому масштабі, автори побудували трубопровід для порівняння виводу моделі з приблизними очікуваннями для кожного часу та діяльності. Вони спочатку використали класифікатор FairFace, заснований на ResNet34, інструмент, тренований на понад 100 000 зображень, для виявлення гендеру та раси у згенерованих виводах, що дозволяло виміряти, наскільки часто обличчя в кожній сцені класифікувалися як чоловічі чи жіночі, і для відстеження расових категорій протягом періодів:

Приклади згенерованих зображень, що показують демографічну надпредставленість по різних моделях, періодах часу та діях.

Низькові результати були фільтровані, щоб зменшити шум, і передбачення були усереднені за всіма зображеннями, пов’язаними з певним часом та діяльністю. Щоб перевірити надійність читань FairFace, друга система, заснована на DeepFace, була використана на вибірці з 5 000 зображень. Дві класифікатори показали сильну згоду, що підтримує послідовність демографічних читань, використаних у дослідженні.

Щоб порівняти вивід моделі з історичною правдоподібністю, автори попросили GPT-4o оцінити очікуваний розподіл гендеру та раси для кожної діяльності та часу періоду. Ці оцінки служили приблизними еталонами, а не абсолютною правдою. Дві метрики були тоді використані: недопредставленість і надпредставленість, що вимірювали, наскільки вивід моделі відхилявся від очікувань LLM.

Результати показали чіткі моделі: FLUX.1 часто надпредставляє чоловіків, навіть у сценаріях, таких як приготування їжі, де жінки очікувалися; SD3 і SDXL показували подібні тенденції по категоріям, таким як робота, освіта і релігія; білі обличчя з’являлися частіше, ніж очікувалося в цілому, хоча цей упередження зменшувався в більш недавніх періодах; і деякі категорії показували несподівані сплески в некорінних представленнях, що свідчить про те, що поведінка моделі може відображати кореляції набору даних, а не історичний контекст:

Гендерна і расова надпредставленість і недопредставленість у виводі FLUX.1 по століттям і діям, показані як абсолютні відхилення від оцінок демографії GPT-4o.

Автори висновують:

‘Наш аналіз показує, що [Text-to-image/TTI] моделі спираються на обмежені стилістичні кодування, а не на нюансовані розуміння історичних періодів. Кожна епоха сильно пов’язана з певним візуальним стилем, що призводить до одномірних зображень історії.

‘Значно, фотореалістичні зображення людей з’являються лише з 20-го століття, з рідкісними винятками в FLUX.1 і SD3, що свідчить про те, що моделі підтримують вивчені асоціації, а не гнучко адаптуються до історичного контексту, підтримуючи уявлення про те, що реалізм – це сучасна риса.

‘Крім того, часті анахронізми свідчать про те, що історичні періоди не чітко розділені у латентному просторі цих моделей, оскільки сучасні артефакти часто з’являються в доіндустріальних умовах, підкріплюючи ненадійність систем TTI в освітніх і культурних контекстах.’

Висновок

Під час тренування дифузійної моделі нові концепції не чітко осідають у попередньо визначених слотах у латентному просторі. Замість цього вони утворюють кластери, сформовані тим, як часто вони з’являються, і їхньою близькістю до пов’язаних ідей. Результатом є розріджена структура, де концепції існують у відношенні до їхньої частоти та типового контексту, а не за допомогою будь-якого чистого або емпіричного розрізнення.

Це робить складним ізолювання того, що вважається ‘історичним’ у великому, загальному наборі даних. Як свідчать результати нової роботи, багато часових періодів представлені більше ‘виглядом’ медіа, використаного для їхнього зображення, ніж будь-якою глибшою історичною деталлю.

Це одна з причин, чому залишається складним згенерувати фотореалістичне зображення персонажа з (наприклад) 19-го століття; у більшості випадків модель буде спиратися на візуальні тропи, взяті з кіно та телебачення. Коли ці тропи не відповідають запиту, немає нічого іншого в даних, щоб компенсувати. Подолання цього розриву, ймовірно, залежатиме від майбутніх покращень у розрізненні перекриваються концепцій.

Опубліковано вперше понеділок, 26 травня 2025

Related Topics:AI image image classification image generation latent diffusion

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]