Свяжитесь с нами:

Исправление ограниченного понимания зеркал и отражений в моделях диффузии

Угол Андерсона

Исправление ограниченного понимания зеркал и отражений в моделях диффузии

mm
ChatGPT-4o и Adobe Firefly

С тех пор как генеративный ИИ начал привлекать общественный интерес, область исследований компьютерного зрения усилила свой интерес к разработке моделей ИИ, способных понимать и воспроизводить физические законы; однако проблема обучения систем машинного обучения моделированию таких явлений, как гравитация и динамика жидкости был значительным направлением исследовательских усилий, по крайней мере, последние пять лет.

С модели скрытой диффузии Исследователи утверждают, что в 2022 году на сцене генеративного ИИ стали доминировать (LDM) все более сосредоточенный об ограниченных возможностях архитектуры LDM в понимании и воспроизведении физических явлений. Этот вопрос приобрел особую актуальность в связи с эпохальным развитием генеративной видеомодели OpenAI. Сора, и (возможно) более важный недавний выпуск программного обеспечения с открытым исходным кодом XNUMX году ухода Видео Хуньюань и Ван 2.1.

Плохо отражает

Большинство исследований, направленных на улучшение понимания физики LDM, были сосредоточены на таких областях, как моделирование походки, физика элементарных частиц и другие аспекты ньютоновского движения. Эти области привлекли внимание, поскольку неточности в базовых физических поведениях немедленно подорвали бы подлинность видео, сгенерированного ИИ.

Однако небольшое, но растущее направление исследований сосредоточено на одной из самых слабых сторон LDM – ее относительная неспособность для получения точных размышления.

Из статьи за январь 2025 года «Отражение реальности: использование моделей диффузии для получения точных зеркальных отражений», примеры «неудач отражения» по сравнению с собственным подходом исследователей. Источник: https://arxiv.org/pdf/2409.14677

Из статьи за январь 2025 г. «Отражение реальности: использование моделей диффузии для получения точных зеркальных отражений»: примеры «неудачного отражения» в сравнении с собственным подходом исследователей. Источник: https://arxiv.org/pdf/2409.14677

Эта проблема также была проблемой в эпоху CGI и остается таковой в сфере видеоигр, где трассировки лучей Алгоритмы имитируют путь света при его взаимодействии с поверхностями. Трассировка лучей вычисляет, как виртуальные световые лучи отражаются от объектов или проходят через них, чтобы создать реалистичные отражения, преломления и тени.

Однако, поскольку каждый дополнительный отскок значительно увеличивает вычислительные затраты, приложениям реального времени приходится искать компромисс между задержкой и точностью, ограничивая количество допустимых отскоков светового луча.

Представление виртуально рассчитанного светового луча в традиционном 3D-сценарии (т. е. CGI), использующем технологии и принципы, впервые разработанные в 1960-х годах и получившие широкое распространение в 1982-93 годах (промежуток между «Троном» [1982] и «Парком Юрского периода» [1993]. Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Представление виртуально рассчитанного светового луча в традиционном трехмерном (т. е. CGI) сценарии с использованием технологий и принципов, впервые разработанных в 3-х годах и получивших широкое распространение в 1960-1982 годах (промежуток между «Троном» [93] и «Парком Юрского периода» [1982]). Источник: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Например, изображение хромированного чайника перед зеркалом может включать процесс трассировки лучей, при котором световые лучи многократно отражаются между отражающими поверхностями, создавая почти бесконечный цикл с небольшой практической пользой для конечного изображения. В большинстве случаев глубина отражения в два-три отскока уже превышает то, что может воспринять зритель. Один отскок приведет к черному зеркалу, поскольку свет должен совершить как минимум два путешествия, чтобы сформировать видимое отражение.

Каждый дополнительный отскок резко увеличивает вычислительные затраты, часто удваивая время рендеринга, что ускоряет обработку отражений. одна из самых значительных возможностей для улучшения качества рендеринга с трассировкой лучей.

Естественно, отражения возникают и имеют важное значение для фотореализма в гораздо менее очевидных сценариях, например, в отражающей поверхности городской улицы или поля боя после дождя; в отражении противоположной улицы в витрине магазина или стеклянном дверном проеме; или в очках изображенных персонажей, где может потребоваться появление объектов и окружения.

Имитация двойного отражения, достигнутая с помощью традиционной композиции для культовой сцены в «Матрице» (1999).

Имитация двойного отражения, достигнутая с помощью традиционной композиции для культовой сцены в «Матрице» (1999).

Проблемы с изображением

По этой причине структуры, которые были популярны до появления моделей диффузии, такие как Поля нейронного излучения (NeRF) и некоторые более поздние претенденты, такие как Гауссово пятно продолжают прилагать собственные усилия, чтобы естественным образом воспроизводить размышления.

REF2-НеРФ Проект (на фото ниже) предложил метод моделирования на основе NeRF для сцен, содержащих стеклянный ящик. В этом методе преломление и отражение моделировались с использованием элементов, которые зависели и не зависели от перспективы наблюдателя. Этот подход позволил исследователям оценить поверхности, на которых происходило преломление, в частности стеклянные поверхности, и позволил разделить и смоделировать как прямые, так и отраженные световые компоненты.

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116

Примеры из статьи Ref2Nerf. Источник: https://arxiv.org/pdf/2311.17116

Другие решения по отражению, ориентированные на NeRF, за последние 4-5 лет включают: НеРФРеН, Отражение реальности, и Мета 2024 Плоские поля нейронного излучения, учитывающие отражение Проект.

Для GSplat такие статьи, как Зеркало-3DGS, Отражающее гауссовское разбрызгивание и РефГауссов предложили решения относительно проблемы отражения, в то время как 2023 год проект Неро предложил индивидуальный метод включения рефлексивных качеств в нейронные представления.

ЗеркалоСтиха

Заставить модель диффузии соблюдать логику отражения, возможно, сложнее, чем с явно структурными, несемантическими подходами, такими как Gaussian Splatting и NeRF. В моделях диффузии правило такого рода, вероятно, будет надежно внедрено только в том случае, если обучающие данные содержат много разнообразных примеров в широком диапазоне сценариев, что делает его сильно зависимым от распределения и качества исходного набора данных.

Традиционно добавление конкретных поведений такого рода является компетенцией ЛоРА или тонкая настройка базовой модели; но это не идеальные решения, поскольку LoRA имеет тенденцию искажать вывод в сторону собственных данных обучения, даже без подсказки, в то время как тонкие настройки — помимо того, что они дороги — могут безвозвратно отделить основную модель от основной и породить множество связанных пользовательских инструментов, которые никогда не будут работать ни с одной другими деформации модели, в том числе исходной.

В целом, улучшение моделей диффузии требует, чтобы обучающие данные уделяли больше внимания физике отражения. Однако, многие другие области также нуждаются в подобном особом внимании. В контексте гипермасштабных наборов данных, где индивидуальная настройка является дорогостоящей и сложной, устранение каждой отдельной слабости таким образом нецелесообразно.

Тем не менее, решения проблемы отражения LDM время от времени появляются. Одной из последних таких попыток, из Индии, является ЗеркалоСтиха проект, который предлагает улучшенный набор данных и метод обучения, способный улучшить современное состояние дел в этой конкретной задаче исследования диффузии.

Справа — результаты MirrorVerse в сравнении с двумя предыдущими подходами (центральные два столбца). Источник: https://arxiv.org/pdf/2504.15397

Справа — результаты MirrorVerse в сравнении с двумя предыдущими подходами (два центральных столбца). Источник: https://arxiv.org/pdf/2504.15397

Как мы видим в приведенном выше примере (главное изображение в PDF-файле нового исследования), MirrorVerse превосходит недавние предложения, решающие ту же проблему, но далек от совершенства.

На верхнем правом изображении мы видим, что керамические кувшины находятся немного правее того места, где они должны быть, а на изображении ниже, на котором технически вообще не должно быть отражения чашки, неточное отражение было втиснуто в правую область, что противоречит логике естественных углов отражения.

Поэтому мы рассмотрим новый метод не столько потому, что он может представлять собой современное состояние отражения на основе диффузии, сколько для того, чтобы проиллюстрировать, в какой степени это может оказаться неразрешимой проблемой для моделей скрытой диффузии, как статических, так и видео, поскольку требуемые примеры данных отражательной способности, скорее всего, будут связаны с конкретными действиями и сценариями.

Поэтому эта конкретная функция LDM может по-прежнему не соответствовать структурно-специфическим подходам, таким как NeRF, GSplat, а также традиционному CGI.

Новый документ называется MirrorVerse: Применение моделей диффузии для реалистичного отражения мира, и исходит от трех исследователей из Vision and AI Lab, IISc Bangalore и Samsung R&D Institute в Бангалоре. В статье есть связанная страница проекта, также как и набор данных в Hugging Face, с исходным кодом выпущено на GitHub.

Способ доставки

Исследователи с самого начала отмечают сложность, с которой сталкиваются такие модели, как Stable Diffusion и Поток уважать подсказки, основанные на размышлениях, искусно иллюстрируя проблему:

Из статьи: Современные модели преобразования текста в изображение, SD3.5 и Flux, столкнулись со значительными трудностями при создании согласованных и геометрически точных отражений при запросе на создание отражений в сцене.

Из статьи: Современные модели преобразования текста в изображение, SD3.5 и Flux, демонстрируют значительные трудности в создании последовательных и геометрически точных отражений при их создании в сцене.

Исследователи разработали ЗеркалоФьюжн 2.0, генеративная модель на основе диффузии, предназначенная для повышения фотореализма и геометрической точности зеркальных отражений в синтетических изображениях. Обучение модели проводилось на основе недавно собранного исследователями набора данных под названием MirrorGen2, разработанный для решения обобщение недостатки, обнаруженные в предыдущих подходах.

MirrorGen2 расширяет более ранние методологии, внедряя случайное позиционирование объекта, рандомизированные вращения и явное заземление объекта, с целью обеспечения того, чтобы отражения оставались правдоподобными в более широком диапазоне поз и размещений объектов относительно поверхности зеркала.

Схема для генерации синтетических данных в MirrorVerse: конвейер генерации набора данных применял ключевые дополнения, случайным образом позиционируя, вращая и заземляя объекты в сцене с помощью 3D-Positioner. Объекты также объединяются в семантически согласованные комбинации для имитации сложных пространственных отношений и окклюзии, что позволяет набору данных захватывать более реалистичные взаимодействия в сценах с несколькими объектами.

Схема для генерации синтетических данных в MirrorVerse: конвейер генерации набора данных применял ключевые дополнения, случайным образом позиционируя, вращая и заземляя объекты в сцене с помощью 3D-Positioner. Объекты также объединяются в семантически согласованные комбинации для имитации сложных пространственных отношений и окклюзии, что позволяет набору данных захватывать более реалистичные взаимодействия в сценах с несколькими объектами.

Для дальнейшего повышения способности модели обрабатывать сложные пространственные структуры конвейер MirrorGen2 включает в себя в паре объектные сцены, позволяющие системе лучше отображать преграды и взаимодействия между несколькими элементами в отражающих условиях.

В документе говорится:

«Категории вручную объединяются в пары для обеспечения семантической согласованности, например, стул со столом. Во время рендеринга, после позиционирования и поворота основного [объекта], дополнительный [объект] из парной категории выбирается и размещается так, чтобы предотвратить перекрытие, обеспечивая чёткое разделение пространственных областей в сцене».

Что касается явного заземления объектов, то здесь авторы гарантировали, что сгенерированные объекты были «прикреплены» к земле в выходных синтетических данных, а не «зависали» ненадлежащим образом, что может произойти, когда синтетические данные генерируются в больших масштабах или с использованием высокоавтоматизированных методов.

Поскольку инновационность набора данных является важнейшей составляющей новизны статьи, мы перейдем к этому разделу обзора раньше обычного.

Данные и тесты

SynMirrorV2

Набор данных SynMirrorV2, разработанный исследователями, был разработан для повышения разнообразия и реалистичности данных обучения зеркальному отражению, включая 3D-объекты, полученные из Обьярсерс и Amazon Беркли Объекты (ABO) наборы данных, с этими выборками, которые впоследствии уточняются с помощью ОБЪЕКТ 3DIT, а также процесс фильтрации из V1 Проект MirrorFusion, чтобы исключить некачественные активы. Это привело к очищенному пулу из 66,062 XNUMX объектов.

Примеры из набора данных Objaverse, использованные при создании курируемого набора данных для новой системы. Источник: https://arxiv.org/pdf/2212.08051

Примеры из набора данных Objaverse, использованные при создании курируемого набора данных для новой системы. Источник: https://arxiv.org/pdf/2212.08051

Создание сцены включало размещение этих объектов на фактурных полах из CC-Текстуры и HDRI фоны из ПолиХейвен CGI-репозиторий, использующий либо полноразмерные, либо высокие прямоугольные зеркала. Освещение было стандартизировано с помощью зонального света, расположенного над и позади объектов под углом в сорок пять градусов. Объекты были масштабированы, чтобы поместиться в единичный куб, и позиционированы с использованием предварительно вычисленного пересечения зеркала и обзора камеры усеченные конусы, обеспечивая видимость.

Применялись случайные вращения вокруг оси Y, а для предотвращения «плавающих артефактов» использовалась техника заземления.

Для моделирования более сложных сцен набор данных также включал несколько объектов, организованных в соответствии с семантически согласованными парами на основе категорий ABO. Вторичные объекты были размещены так, чтобы избежать перекрытия, создавая 3,140 многообъектных сцен, предназначенных для захвата различных окклюзий и глубинных отношений.

Примеры визуализированных представлений из набора данных авторов, содержащего несколько (более двух) объектов, с иллюстрациями сегментации объектов и визуализацией карты глубины, представленными ниже.

Примеры визуализированных представлений из набора данных авторов, содержащего несколько (более двух) объектов, с иллюстрациями сегментации объектов и визуализацией карты глубины, представленными ниже.

Учебный процесс

Признавая, что одного лишь синтетического реализма недостаточно для надежного обобщения данных реального мира, исследователи разработали трехэтапный учебный процесс для обучения MirrorFusion 2.0.

На этапе 1 авторы инициализировали весами как ветвей кондиционирования, так и ветвей генерации со стабильной диффузией v1.5 контрольная точка, и доработали модель на однообъектном обучении раскол набора данных SynMirrorV2. В отличие от вышеупомянутого Отражение реальности проект, исследователи не замораживать ветвь генерации. Затем они обучили модель на 40,000 XNUMX итераций.

На втором этапе модель была доработана для дополнительных 2 10,000 итераций на многообъектном обучающем сегменте SynMirrorV2, чтобы научить систему обрабатывать окклюзии и более сложные пространственные структуры, встречающиеся в реалистичных сценах.

Наконец, на этапе 3 было проведено еще 10,000 XNUMX итераций тонкой настройки с использованием реальных данных из Набор данных MSD, используя карты глубины, созданные Matterport3D Монокулярный оценщик глубины.

Примеры из набора данных MSD с реальными сценами, проанализированными на глубину и карты сегментации. Источник: https://arxiv.org/pdf/1908.09101

Примеры из набора данных MSD с реальными сценами, проанализированными с использованием карт глубины и сегментации. Источник: https://arxiv.org/pdf/1908.09101

В ходе обучения текстовые подсказки были опущены на 20 процентов времени обучения, чтобы побудить модель оптимально использовать имеющуюся глубинную информацию (т. е. «замаскированный» подход).

Обучение проводилось на четырех графических процессорах NVIDIA A100 для всех этапов (спецификация VRAM не указана, хотя она могла быть 40 ГБ или 80 ГБ на карту). Скорость обучения 1e-5 использовался в пакетном режиме размером 4 на GPU, под АдамВ оптимизатор.

Эта схема обучения постепенно увеличивала сложность задач, предлагаемых модели, начиная с более простых синтетических сцен и продвигаясь к более сложным композициям, с целью развития надежной переносимости в реальный мир.

Тестирование

Авторы сравнили MirrorFusion 2.0 с предыдущей версией MirrorFusion, которая послужила основой, и провели эксперименты с набором данных MirrorBenchV2, охватывающим как однообъектные, так и многообъектные сцены.

Дополнительные качественные тесты были проведены на образцах из набора данных MSD, и Google Сканированные объекты (GSO) набор данных.

В оценке использовались 2,991 однообъектных изображений из категорий «видимое» и «невидимое», а также 300 двухобъектных сцен из категории «ABO». Эффективность измерялась с использованием Пиковое отношение сигнал/шум (ПСНР); Индекс структурного сходства (SSIM); и Полученное сходство участков перцептивного изображения (LPIPS) баллы для оценки качества отражения в области замаскированного зеркала. сходство CLIP использовался для оценки соответствия текста подсказкам ввода.

В количественных тестах авторы генерировали изображения, используя четыре семени для определенной подсказки, и выбирали полученное изображение с лучшим баллом SSIM. Ниже приведены две таблицы результатов количественных тестов.

Слева: количественные результаты для качества генерации отражения одного объекта на однообъектном разделении MirrorBenchV2. MirrorFusion 2.0 превзошел базовый уровень, лучшие результаты выделены жирным шрифтом. Справа: количественные результаты для качества генерации отражения нескольких объектов на многообъектном разделении MirrorBenchV2. MirrorFusion 2.0, обученный с несколькими объектами, превзошел версию, обученную без них, лучшие результаты выделены жирным шрифтом.

Слева: количественные результаты для качества генерации отражения одного объекта на однообъектном разделении MirrorBenchV2. MirrorFusion 2.0 превзошел базовый уровень, лучшие результаты выделены жирным шрифтом. Справа: количественные результаты для качества генерации отражения нескольких объектов на многообъектном разделении MirrorBenchV2. MirrorFusion 2.0, обученный с несколькими объектами, превзошел версию, обученную без них, лучшие результаты выделены жирным шрифтом.

Авторы комментируют:

«[Результаты] показывают, что наш метод превосходит базовый метод, а тонкая настройка на нескольких объектах улучшает результаты на сложных сценах».

Основная часть результатов, особенно выделенных авторами, относится к качественному тестированию. Ввиду масштабности иллюстраций мы можем воспроизвести примеры из статьи лишь частично.

Сравнение на MirrorBenchV2: базовая версия не смогла сохранить точные отражения и пространственную согласованность, показав неправильную ориентацию стульев и искаженные отражения нескольких объектов, тогда как (по утверждению авторов) MirrorFusion 2.0 правильно отображает стул и диваны с точным положением, ориентацией и структурой.

Сравнение на MirrorBenchV2: базовая версия не смогла сохранить точные отражения и пространственную согласованность, показав неправильную ориентацию стульев и искаженные отражения нескольких объектов, тогда как (по утверждению авторов) MirrorFusion 2.0 правильно отображает стул и диваны с точным положением, ориентацией и структурой.

Из этих субъективных результатов исследователи полагают, что базовая модель не смогла точно отобразить ориентацию объектов и пространственные отношения в отражениях, часто создавая артефакты, такие как неправильное вращение и плавающие объекты. Авторы утверждают, что MirrorFusion 2.0, обученный на SynMirrorV2, сохраняет правильную ориентацию и позиционирование объектов как в сценах с одним объектом, так и в сценах с несколькими объектами, что приводит к более реалистичным и связным отражениям.

Ниже мы видим качественные результаты по вышеупомянутому набору данных GSO:

Сравнение на основе набора данных GSO. Базовая линия искажала структуру объекта и создавала неполные, искаженные отражения, в то время как MirrorFusion 2.0, как утверждают авторы, сохраняет пространственную целостность и генерирует точную геометрию, цвет и детализацию даже для объектов, находящихся вне распределения.

Сравнение на основе набора данных GSO. Базовая линия искажает структуру объекта и создает неполные, искаженные отражения, в то время как MirrorFusion 2.0, как утверждают авторы, сохраняет пространственную целостность и генерирует точную геометрию, цвет и детализацию даже для объектов, находящихся вне распределения.

Вот комментарий авторов:

«MirrorFusion 2.0 генерирует значительно более точные и реалистичные отражения. Например, на рис. 5 (a – выше) MirrorFusion 2.0 правильно отражает ручки ящиков (выделены зеленым), в то время как базовая модель создает неправдоподобное отражение (выделено красным).

«Аналогично, для «Бело-желтой кружки» на рис. 5 (b) MirrorFusion 2.0 обеспечивает убедительную геометрию с минимальными артефактами, в отличие от базовой линии, которая не может точно передать геометрию и внешний вид объекта».

Окончательный качественный тест проводился с использованием вышеупомянутого реального набора данных MSD (частичные результаты показаны ниже):

Результаты реальных сцен, сравнивающие MirrorFusion, MirrorFusion 2.0 и MirrorFusion 2.0, настроенные на наборе данных MSD. Авторы утверждают, что MirrorFusion 2.0 точнее фиксирует сложные детали сцены, включая загроможденные объекты на столе и наличие нескольких зеркал в трехмерной среде. Здесь показаны только частичные результаты из-за размеров результатов в оригинальной статье, к которой мы отсылаем читателя за полными результатами и лучшим разрешением.

Результаты реальных сцен, сравнивающие MirrorFusion, MirrorFusion 2.0 и MirrorFusion 2.0, настроенные на наборе данных MSD. Авторы утверждают, что MirrorFusion 2.0 точнее фиксирует сложные детали сцены, включая загроможденные объекты на столе и наличие нескольких зеркал в трехмерной среде. Здесь показаны только частичные результаты из-за размеров результатов в оригинальной статье, к которой мы отсылаем читателя за полными результатами и лучшим разрешением.

Здесь авторы отмечают, что хотя MirrorFusion 2.0 хорошо показал себя на данных MirrorBenchV2 и GSO, изначально он испытывал трудности со сложными реальными сценами в наборе данных MSD. Тонкая настройка модели на подмножестве MSD улучшила ее способность обрабатывать загроможденные среды и несколько зеркал, что привело к более связным и подробным отражениям на выдержанном тестовом разделении.

Кроме того, было проведено исследование пользователей, в ходе которого 84% пользователей сообщили, что отдают предпочтение генерации с помощью MirrorFusion 2.0 по сравнению с базовым методом.

Результаты исследования пользователей.

Результаты исследования пользователей.

Поскольку подробности исследования пользователей были вынесены в приложение к статье, мы отсылаем читателя к нему за подробностями исследования.

Заключение

Хотя некоторые из результатов, показанных в статье, являются впечатляющими улучшениями по сравнению с современным состоянием дел, современное состояние дел в этом конкретном стремлении настолько ужасно, что даже неубедительное совокупное решение может победить с небольшим усилием. Фундаментальная архитектура диффузионной модели враждебна надежному обучению и демонстрации последовательной физики, так что проблема некорректно поставлена ​​и, по-видимому, не склонна к элегантному решению.

Кроме того, добавление данных к существующим моделям уже является стандартным методом устранения недостатков в производительности LDM со всеми недостатками, перечисленными ранее. Разумно предположить, что если будущие крупномасштабные наборы данных будут уделять больше внимания распределению (и аннотации) точек данных, связанных с отражением, мы могли бы ожидать, что полученные модели будут лучше справляться с этим сценарием.

Но то же самое можно сказать и о многих других проблемах в результатах LDM — кто может сказать, какая из них больше всего заслуживает усилий и денег, вложенных в то решение, которое предлагают здесь авторы новой статьи?

 

Впервые опубликовано в понедельник, 28 апреля 2025 г. Вторник, 29 апреля: внесены исправления грамматики в последние абзацы.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai