Погляд Anderson
Виправлення обмеженого розуміння дифузійних моделей щодо дзеркал і відбиттів

Відтоді, як генеративний ІІ почав привертати увагу громадськості, галузь досліджень комп’ютерного зору поглибила свій інтерес до розробки моделей ІІ, здатних розуміти та відтворювати фізичні закони; однак, проблема навчання систем машинного навчання для模уляції явищ, таких як гравітація та динаміка рідин, була суттєвим напрямком дослідницьких зусиль щонайменше п’ять років.
Від моменту, коли латентні дифузійні моделі (ЛДМ) зайняли панівне становище в сфері генеративного ІІ у 2022 році, дослідники все більше зосереджувалися на обмеженій здатності архітектури ЛДМ розуміти та відтворювати фізичні явища. Тепер ця проблема набула додаткової актуальності завдяки розробці відкритої відеомоделі Sora від OpenAI та (можливо, більш суттєвому) недавньому випуску відкритих відеомоделей Hunyuan Video та Wan 2.1.
Відбиваючи погано
Більшість досліджень, спрямованих на покращення розуміння фізики ЛДМ, зосереджувалися на таких сферах, як симуляція ходьби, фізика частинок та інші аспекти ньютонівського руху. Ці сфери привернули увагу, оскільки неточності у базових фізичних поведінках негайно підірвали б автентичність відео, згенерованого ІІ.
Однак, невеликий, але зростаючий напрямок досліджень зосереджується на одному з найбільших слабкостей ЛДМ – їх відносній нездатності створювати точні відбиття.

З січня 2025 року статті ‘Відбиваючи реальність: забезпечення вірних дзеркальних відбиттів у дифузійних моделях’, приклади ‘відбивної невдачі’ проти підходу дослідників. Джерело: https://arxiv.org/pdf/2409.14677
Ця проблема також була викликом під час епохи CGI та залишається такою у сфері відеоігор, де алгоритми трасування променів симулюють шлях світлових променів при взаємодії з поверхнями. Трасування променів обчислює, як віртуальні світлові промені відбиваються від або проходять крізь об’єкти, створюючи реалістичні відбиття, преломлення та тіні.
Однак, оскільки кожне додаткове відбиття суттєво збільшує обчислювальні витрати, застосування в реальному часі повинні обмінюватися затримкою на точність, обмежуючи кількість дозволених відбиттів світлових променів.
![Представлення віртуально обчисленого світлового променя в традиційному 3D-сценарії (тобто CGI), який використовує технології та принципи, вперше розроблені в 1960-х роках та які досягли кульмінації між 1982-1993 роками (період між 'Троном' [1982] та 'Парком Юрського періоду' [1993]). Джерело: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing](https://www.unite.ai/wp-content/uploads/2025/04/ray-tracing.jpg)
Представлення віртуально обчисленого світлового променя в традиційному 3D-сценарії (тобто CGI), який використовує технології та принципи, вперше розроблені в 1960-х роках та які досягли кульмінації між 1982-1993 роками (період між ‘Троном’ [1982] та ‘Парком Юрського періоду’ [1993]). Джерело: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing
Наприклад, зображення хромованої чайної чашки перед дзеркалом може включати процес трасування променів, при якому світлові промені багаторазово відбиваються між відбиваючими поверхнями, створюючи майже нескінченний цикл з мало практичної користі для кінцевого зображення. У більшості випадків глибина відбиття двох-трьох променів вже перевищує те, що може сприйняти глядач. Одне відбиття призведе до чорного дзеркала, оскільки світло повинно зробити щонайменше два проходи, щоб утворити видиме відбиття.
Кожне додаткове відбиття суттєво збільшує обчислювальні витрати, часто подвоюючи час рендерингу, що робить швидше обробку відбиттів однією з найбільших можливостей для покращення якості рендерингу з трасуванням променів.
Відбиття відбуваються й є суттєвими для фотореалізму в багатьох менш очевидних сценаріях – наприклад, на відбиваючій поверхні міської вулиці чи поля бою після дощу; відбиття вулиці в магазинному вікні чи скляних дверях; або в окулярах зображених персонажів, де об’єкти та середовища можуть бути потрібні для появи.

Симульоване подвійне відбиття, досягнуте за допомогою традиційного композитингу в іконічній сцені фільму ‘Матриця’ (1999).
Проблеми зображень
Через це.frameworks, які були популярними до появи дифузійних моделей, такі як Нейронні поля радіанції (NeRF), та деякі більш недавні конкуренти, такі як Гауссове розпилення, мали свої власні труднощі з природним відтворенням відбиттів.
Проєкт REF2-NeRF (зображений нижче) запропонував метод моделювання на основі NeRF для сцен з скляним шафом. У цьому методі відбиття та преломлення моделювалися за допомогою елементів, залежних та незалежних від перспективи глядача. Цей підхід дозволив дослідникам оцінити поверхні, де відбувалося преломлення, зокрема скляні поверхні, та забезпечив розділення та моделювання як прямого, так і відбитого світла.

Приклади з паперу Ref2Nerf. Джерело: https://arxiv.org/pdf/2311.17116
Інші рішення NeRF щодо відбиттів за останні 4-5 років включали NeRFReN, Відбиваючи реальність та проєкт Planar Reflection-Aware Neural Radiance Fields від Meta у 2024 році.
Для GSplat папери, такі як Mirror-3DGS, Відбиваюче гауссове розпилення та RefGaussian, пропонували рішення щодо проблеми відбиттів, тоді як проєкт Nero у 2023 році запропонував спеціальний метод включення відбиваючих якостей у нейронні представлення.
Дзеркальний світ
Отримання дифузійної моделі, яка поважає логіку відбиття, аргументується як більш складна, ніж у явно структурних, несемантичних підходах, таких як гауссове розпилення та NeRF. У дифузійних моделях правило такого типу буде надійно закладено лише у тому випадку, якщо тренувальні дані містять багато різноманітних прикладів у широкому діапазоні сценаріїв, що робить його сильно залежним від розподілу та якості оригінального набору даних.
Традиційно додавання особливих поведінок цього типу є сферою діяльності LoRA або тонкої настройки базової моделі; однак ці підходи не є ідеальними, оскільки LoRA схильна нахилити вивід до власних тренувальних даних, навіть без промпту, тоді як тонка настройка – крім того, що вона дорога – може розгалужити основну модель незворотно від основної течії та породити ряд пов’язаних з цим спеціальних інструментів, які ніколи не працюватимуть з іншою ланкою моделі, включаючи оригінальну.
У загальному покращення дифузійних моделей вимагає, щоб тренувальні дані приділяли більшу увагу фізиці відбиття. Однак багато інших сфер також потребують подібної спеціальної уваги. У контексті гіпермасштабних наборів даних, де власна кураторія дорога та складна, вирішення кожної окремої слабкості таким чином є непрактичним.
Однак рішення проблеми відбиття ЛДМ іноді з’являються. Однією з недавніх спроб є проєкт Дзеркальний світ з Індії, який пропонує покращений набір даних та метод тренування, здатний покращити стан справ у цій конкретній проблемі дифузійних досліджень.

Праворуч результати MirrorVerse у порівнянні з двома попередніми підходами (два центральних стовпці). Джерело: https://arxiv.org/pdf/2504.15397
Як ми бачимо на прикладі вище (функціональне зображення у PDF нової статті), MirrorVerse покращує попередні пропозиції щодо вирішення тієї ж проблеми, але ще далекий від досконалості.
У верхньому правому зображенні ми бачимо, що керамічні горшки трохи правіше, ніж повинні бути, а у зображенні нижче, яке технічно не повинно містити відбиття чашки, невірне відбиття було вставлено у праву частину, проти логіки природних кутів відбиття.
Отже, ми розглянемо новий метод не тому, що він може представляти сучасний стан справ у дифузійних відбиттях, а також тому, що він ілюструє ступінь, у якій ця проблема може виявитися невирішеною для латентних дифузійних моделей, статичних та відео.
Отже, ця функція ЛДМ може продовжувати відставати від підходів, специфічних для структури, таких як NeRF, GSplat та традиційний CGI.
Нова стаття називається Дзеркальний світ: спонукаючи дифузійні моделі до реалістичного відображення світу та надходить від трьох дослідників з Vision and AI Lab, IISc Bangalore, та Samsung R&D Institute у Бангалорі. Стаття має асоційовану сторінку проєкту, а також набір даних на Hugging Face з виховним кодом опублікованим на GitHub.
Метод
Дослідники зазначають з самого початку труднощі, з якими моделі, такі як Stable Diffusion та Flux, мають у повазі відбиття, ілюструючи проблему майстерно:

З статті: сучасні текст-до-зображення моделі, SD3.5 та Flux, виявили суттєві труднощі у створенні послідовних та геометрично точних відбиттів при генерації їх у сцені.
Дослідники розробили MirrorFusion 2.0, дифузійну генеративну модель, спрямовану на покращення фотореалізму та геометричної точності дзеркальних відбиттів у синтетичних зображеннях. Тренування моделі було засновано на власному новому наборі даних дослідників, названому MirrorGen2, розробленому для вирішення слабкостей узагальнення, спостережуваних у попередніх підходах.
MirrorGen2 розширює попередні методи, вводячи випадкове позиціонування об’єктів, випадкові оберти та явне закріплення об’єктів, з метою забезпечення того, щоб відбиття залишалося правдоподібним у широкому діапазоні положень та орієнтацій об’єктів відносно поверхні дзеркала.

Схема генерації синтетичних даних у MirrorVerse: трубопровід генерації набору даних застосовував ключові доповнення шляхом випадкового позиціонування, обертання та закріплення об’єктів у сцені за допомогою 3D-Позиціонера. Об’єкти також були поєднані у семантично узгоджених комбінаціях для симуляції складних просторових відносин та окулусій, дозволяючи набору даних захоплювати більш реалістичні взаємодії у сценах з多об’єктами.
Для подальшого посилення здатності моделі обробляти складні просторові відносини трубопровід MirrorGen2 включав парні сцени об’єктів, що дозволило системі краще представляти окулусії та взаємодії між декількома елементами у відбиваючих умовах.
У статті зазначається:
‘Категорії підбираються вручну для забезпечення семантичної узгодженості – наприклад, поєднання стільця з столом. Під час рендерингу після позиціонування та обертання основного [об’єкта] вибірковий [об’єкт] з парної категорії відібраний та розміщений для уникнення перекриття, забезпечуючи окремі просторові регіони у сцені.’
Відносно явного закріплення об’єктів тут автори забезпечили, щоб згенеровані об’єкти були “закріплені” до землі у вихідних синтетичних даних, а не “плавали” недоречно, що може статися при генерації синтетичних даних у великому масштабі або з високою автоматизацією.
Оскільки інновації у наборі даних є центральними для новизни статті, ми перейдемо до цього розділу раніше, ніж зазвичай.
Дані та тести
SynMirrorV2
Набір даних SynMirrorV2 дослідників був розроблений для покращення різноманітності та реалізму тренувальних даних для дзеркальних відбиттів, що містить 3D-об’єкти з наборів даних Objaverse та Amazon Berkeley Objects (ABO), з подальшим вибором через OBJECT 3DIT, а також процес фільтрації з проєкту MirrorFusion для видалення низькоякісних активів. Це призвело до уточненого пула з 66 062 об’єктів.

Приклади з набору даних Objaverse, використані при створенні кураторського набору даних для нової системи. Джерело: https://arxiv.org/pdf/2212.08051
Конструкція сцени включала розміщення цих об’єктів на текстурованих підлогах з CC-Textures та фоновими зображеннями з репозиторію PolyHaven CGI, використовуючи або повністю стінні, або високі прямокутні дзеркала. Освітлення було стандартизовано за допомогою площинного світла, розташованого над та позаду об’єктів під кутом 45 градусів. Об’єкти були масштабовані для розміщення у одиницевому кубі та позиціонувались за допомогою попередньо обчислених перетинів дзеркала та камерних фрустумів, забезпечуючи видимість.
Випадкові оберти застосовувалися навколо осі Y, а техніка закріплення використовувалася для запобігання “плаваючим артефактам”.
Для симуляції складніших сцен набір даних також включав кілька об’єктів, розміщених згідно з семантично узгодженими парами на основі категорій ABO. Другорядні об’єкти розміщувалися для уникнення перекриття, створюючи 3 140 сцен з多об’єктами, розроблених для захоплення різноманітних окулусій та глибинних відносин.

Приклади відображених видів з набору даних авторів, що містять кілька (більше двох) об’єктів, з ілюстраціями сегментації об’єктів та візуалізацією глибинних карт, що видно нижче.
Процес тренування
Визнаючи, що реалізм синтетичних даних сам по собі недостатній для стійкої узагальнення до реальних даних, дослідники розробили триетапний процес навчання для тренування MirrorFusion 2.0.
На етапі 1 автори ініціалізували ваги як умовної, так і генераційної гілок з використанням контрольної точки v1.5 Stable Diffusion, та тонко настроїли модель на одиницю тренувального розрізу набору даних SynMirrorV2. На відміну від вищезгаданого проєкту Відбиваючи реальність, дослідники не заморозили генераційну гілку. Потім вони тренували модель протягом 40 000 ітерацій.
На етапі 2 модель була тонко настроєна протягом додаткових 10 000 ітерацій на багатому тренувальному розрізі SynMirrorV2, щоб навчити систему обробляти окулусії та складніші просторові відносини, що зустрічаються у реалістичних сценах.
Нарешті, на етапі 3 додаткові 10 000 ітерацій тонкої настройки були проведені з використанням реальних даних з набору даних MSD, з використанням глибинних карт, згенерованих монокулярним оцінювачем глибини Matterport3D.

Приклади з набору даних MSD, з реальними сценами, проаналізованими на глибинні та сегментаційні карти. Джерело: https://arxiv.org/pdf/1908.09101
Під час тренування текстові промпти були опущені протягом 20% часу тренування, щоб заохотити модель до оптимального використання доступної інформації про глибину (тобто, “маскованого” підходу).
Тренування відбувалося на чотирьох GPU NVIDIA A100 для всіх етапів (специфікація відеопам’яті не вказана, хоча б вона була 40 ГБ або 80 ГБ на карту). Використовувався навчальний темп 1e-5 з розміром партії 4 на GPU під оптимізатором AdamW.
Цей схема тренування поступово збільшує складність завдань, представлених моделі, починаючи з простіших синтетичних сцен та переходячи до складніших композицій, з метою розвитку стійкої здатності до перенесення у реальні дані.
Тести
Автори оцінили MirrorFusion 2.0 проти попереднього стану справ, MirrorFusion, який слугував базовим порівнянням, та провели експерименти на наборі даних MirrorBenchV2, що охоплював як одиночні, так і багатому сценарії.
Додаткові якісні тести були проведені на зразках з набору даних MSD та набору даних Google Scanned Objects (GSO).
Оцінка використовувала 2 991 зображень окремих об’єктів з відомих та невідомих категорій та 300 сцен з двома об’єктами з ABO. Продуктивність оцінювалася за допомогою пікової сигнал-шумової співвідношення (PSNR); індексу структурної подібності (SSIM); та визначеного перцептивного зображення (LPIPS) для оцінки якості відбиття на маскованій області дзеркала. Симетрія CLIP використовувалася для оцінки текстової узгодженості з вхідними промптами.
У кількісних тестах автори генерували зображення, використовуючи чотири насіння для певного промпту, та вибирали отримане зображення з найкращим показником SSIM. Дві таблиці результатів для кількісних тестів показані нижче.

Ліворуч, кількісні результати для якості генерації відбиття окремих об’єктів на одиночному розрізі MirrorBenchV2. MirrorFusion 2.0 перевершив базовий рівень, з найкращими результатами, виділеними жирним шрифтом. Праворуч, кількісні результати для якості генерації відбиття багатому сценарію на багатому розрізі MirrorBenchV2. MirrorFusion 2.0, тренований на багатому сценарії, перевершив версію, треновану без нього, з найкращими результатами, виділеними жирним шрифтом.
Автори коментують:
‘Результати показують, що наш метод перевершує базовий метод, а тонка настройка на багатому сценарії покращує результати на складних сценах.’
Більшість результатів, та ті, які підкреслюються авторами, стосуються якісного тестування. Через розміри цих ілюстрацій ми можемо лише частково відтворити приклади з статті.

Порівняння на MirrorBenchV2: базовий рівень не зміг зберегти точні відбиття та просторову узгодженість, показуючи неправильну орієнтацію стільця та спотворені відбиття кількох об’єктів, тоді як (за твердженням авторів) MirrorFusion 2.0 правильно відтворює стільці та дивани, з точною позицією, орієнтацією та структурою.
З цих суб’єктивних результатів дослідники вважають, що базовий рівень не зміг точно відтворити орієнтацію об’єктів та просторові відносини у відбиттях, часто виробляючи артефакти, такі як неправильна обертання та плаваючі об’єкти. MirrorFusion 2.0, тренований на SynMirrorV2, автори вважають, зберігає правильну орієнтацію об’єктів та їхнє положення як у сценах з одним об’єктом, так і у сценах з кількома об’єктами, що призводить до більш реалістичних та узгоджених відбиттів.
Нижче ми бачимо якісні результати на наборі даних GSO:

Порівняння на наборі даних GSO. Базовий рівень неправильно представив структуру об’єктів та виробив неповні, спотворені відбиття, тоді як MirrorFusion 2.0, автори вважають, зберігає просторову цілісність та генерує точну геометрію, колір та деталі, навіть для об’єктів, які не входять до тренувального набору.
Автори коментують:
‘MirrorFusion 2.0 генерує значно більш точні та реалістичні відбиття. Наприклад, у фігурі 5 (а – вище), MirrorFusion 2.0 правильно відтворює ручки шухляди (виділені зеленим), тоді як базовий рівень виробляє недоцільне відбиття (виділене червоним). ‘
‘Аналогічно, для “Біло-жовтого келиха” на фігурі 5 (б), MirrorFusion 2.0 забезпечує переконливу геометрію з мінімальними артефактами, на відміну від базового рівня, який не може точно захопити геометрію та зовнішній вигляд об’єкта.’
Останній якісний тест був проведений проти реального набору даних MSD (часткові результати показані нижче):

Результати реальних сцен, що порівнюють MirrorFusion, MirrorFusion 2.0 та MirrorFusion 2.0, тонко настроєний на наборі даних MSD. MirrorFusion 2.0, автори вважають, захоплює складні деталі сцени більш точно, включаючи завантажені об’єкти на столі та присутність кількох дзеркал у тривимірному середовищі. Показані лише часткові результати через розміри результатів у оригінальній статті, до якої ми звертаємося читача для повних результатів та кращої роздільності.
Автори спостерігають, що хоча MirrorFusion 2.0 показав хороші результати на MirrorBenchV2 та GSO, він спочатку мав труднощі з складними реальними сценами у наборі даних MSD. Тонка настройка моделі на підмножині MSD покращила її здатність обробляти завантажені середовища та кілька дзеркал, що призвело до більш узгоджених та детальних відбиттів у тестовому розрізі.
Крім того, був проведений користувацький тест, у якому 84% користувачів віддали перевагу генераціям з MirrorFusion 2.0 над базовим методом.

Результати користувацького тесту.
Оскільки деталі користувацького тесту були відкладені до додатку статті, ми звертаємося до нього для конкретики дослідження.
Висновок
Хоча деякі з результатів, показані у статті, є суттєвими покращеннями стану справ, сучасний стан справ у цій конкретній сфері є таким поганим, що навіть непереконлива сукупна рішення може перемогти з мінімальними зусиллями. Основна архітектура дифузійної моделі є невигідною для надійного вивчення та демонстрації послідовної фізики, так що проблема є невирішеною та, очевидно, не схильна до елегантного рішення.
Крім того, додавання даних до існуючих моделей вже є стандартним методом усунення недоліків у продуктивності ЛДМ, з усіма переліченими вище недоліками. Це можна вважати тим, що якщо майбутні великомасштабні набори даних будуть приділяти більшу увагу розподілу (та анотації) даних, пов’язаних з відбиттям, ми могли б очікувати, що отримані моделі будуть краще обробляти цей сценарій.
Однак, те ж саме можна сказати про інші слабкості у виводі ЛДМ – хто може сказати, яку з них найбільше заслуговує на зусилля та витрати, пов’язані з таким рішенням, як те, яке пропонують автори нової статті?
Перша публікація понеділка, 28 квітня 2025 року. Вівторок, 29 квітня: внесено граматичну корекцію у кінцеві абзаци.












