Искусственный интеллект
Редактирование изображений с помощью Gaussian Splatting

Новое сотрудничество между исследователями из Польши и Великобритании предполагает перспективу использования Гауссово пятно для редактирования изображений путем временной интерпретации выбранной части изображения в трехмерное пространство, что позволяет пользователю изменять и манипулировать трехмерным представлением изображения, а затем применять преобразование.

Чтобы изменить ориентацию головы кота, соответствующий участок перемещается в трёхмерное пространство с помощью метода гауссовского сплаттинга, после чего пользователь выполняет необходимые манипуляции. Изменение применяется. Этот процесс аналогичен различным модальным методам в программах Adobe, которые блокируют интерфейс до завершения текущего сложного процесса. Источник: https://github.com/waczjoan/MiraGe/
Поскольку элемент Gaussian Splat временно представлен сеткой треугольников и на мгновение переходит в «состояние CGI», физический движок, интегрированный в процесс, может интерпретировать естественное движение, либо для изменения статического состояния объекта, либо для создания анимации.

Физический движок, встроенный в новую систему MiraGe, может выполнять естественную интерпретацию физического движения, как для анимации, так и для статических изменений изображения.
В этом процессе не задействован генеративный ИИ, что означает, что нет Модели скрытой диффузии (LDM) участвуют, в отличие от Adobe Система Firefly, прошедшее обучение на Adobe Stock (ранее Fotolia).
Система – называется Мираж – интерпретирует выборки в трехмерное пространство и выводит геометрию, создавая зеркальное отражение выборки и аппроксимация трехмерных координат, которые можно воплотить в Splat, который затем интерпретирует изображение в сетку.
Нажмите, чтобы играть. Дополнительные примеры элементов, которые были либо изменены вручную пользователем системы MiraGe, либо подвергнуты физической деформации.
Авторы сравнили систему MiraGe с предыдущими подходами и обнаружили, что она обеспечивает высочайшую производительность при выполнении целевой задачи.
Пользователи системы моделирования zBrush знакомы с этим процессом, поскольку zBrush позволяет пользователю по сути «сплющить» 3D-модель и добавить 2D-детали, сохраняя при этом базовую сетку и интерпретируя в нее новые детали — «замораживание», противоположное методу MiraGe, который работает скорее как Firefly или другие модальные манипуляции в стиле Photoshop, такие как деформация или грубые 3D-интерпретации.

Параметризованные гауссовские пятна позволяют MiraGe создавать высококачественные реконструкции выбранных областей двухмерного изображения и применять физику мягких тел к временно выделенным трехмерным объектам.
В документе говорится:
«[Мы] представляем модель, которая кодирует 2D-изображения, имитируя человеческую интерпретацию. В частности, наша модель воспринимает 2D-изображение так, как человек воспринимал бы фотографию или лист бумаги, рассматривая его как плоский объект в 3D-пространстве.
«Этот подход обеспечивает интуитивно понятное и гибкое редактирование изображений, улавливая нюансы человеческого восприятия и позволяя при этом выполнять сложные преобразования».
Команда Новый документ называется MiraGe: редактируемые 2D-изображения с использованием гауссовского сплаттинга, и исходит от четырех авторов из Ягеллонского университета в Кракове и Кембриджского университета. Полный код для системы был выпущено на GitHub.
Давайте посмотрим, как исследователи справились с этой задачей.
Способ доставки
Подход MiraGe использует Сетчатая гауссова сетка (GaMeS) параметризация, метод, разработанный группой, в которую входят двое авторов новой статьи. GaMeS позволяет интерпретировать гауссовские сплаты как традиционные сетки CGI и подвергать их стандартному набору методов деформации и модификации, которые сообщество CGI разработало за последние несколько десятилетий.
MiraGe интерпретирует «плоские» гауссианы в двумерном пространстве и использует GaMeS для временного «перетаскивания» контента в трехмерное пространство с поддержкой GSplat.

Каждая плоская гауссиана представлена в виде трех точек в облаке треугольников, называемом «треугольным супом», что позволяет манипулировать полученным изображением. Источник: https://arxiv.org/pdf/2410.01521
В левом нижнем углу изображения выше мы видим, что MiraGe создает «зеркальное» изображение той части изображения, которую необходимо интерпретировать.
Авторы заявляют:
«[Мы] применяем новый подход, используя две противоположные камеры, расположенные вдоль оси Y, симметрично выровненные относительно начала координат и направленные друг на друга. Первая камера призвана реконструировать исходное изображение, а вторая моделирует зеркальное отражение.
«Таким образом, фотография представляется как полупрозрачный лист кальки, вмонтированный в трёхмерный пространственный контекст. Отражение можно эффективно передать, перевернув изображение по горизонтали. Такая схема с зеркальной камерой повышает точность создаваемых отражений, обеспечивая надёжное решение для точной фиксации визуальных элементов».
В статье отмечается, что после того, как это извлечение было достигнуто, корректировки перспективы, которые обычно были бы сложными, становятся доступными посредством прямого редактирования в 3D. В примере ниже мы видим выборку изображения женщины, которая охватывает только ее руку. В этом случае пользователь наклонил руку вниз правдоподобным образом, что было бы сложной задачей, если бы просто передвигал пиксели.

Пример техники редактирования MiraGe.
Попытка сделать это с помощью генеративных инструментов Firefly в Photoshop обычно приводит к тому, что рука заменяется синтезированной, воображаемой диффузией рукой, нарушая подлинность редактирования. Даже более мощные системы, такие как сеть управления вспомогательная система для стабильной диффузии и других моделей скрытой диффузии, такие как Флюс, трудно добиться такого рода редактирования в конвейере «от изображения к изображению».
В этом конкретном исследовании доминировали методы, использующие неявные нейронные представления (INR), такие как СИРЕНА и WIRE. Разница между неявным и явным методом представления заключается в том, что координаты модели не могут быть напрямую адресованы в INR, которые используют непрерывная функция.
В отличие от этого, гауссовское сплатирование предлагает явные и адресуемые координаты X/Y/Z. Декартовы координаты, хотя он использует гауссовы эллипсы вместо вокселей или другие методы отображения контента в трехмерном пространстве.
Авторы отмечают, что идея использования GSplat в 2D-пространстве была наиболее наглядно представлена в китайском академическом сотрудничестве 2024 года. GaussianImage, которая предложила 2D-версию Gaussian Splatting, позволяющую получать кадры с частотой 1000 кадров в секунду. Однако эта модель не имеет реализации, связанной с редактированием изображений.
После того, как параметризация GaMeS извлекает выбранную область в гауссово/сетчатое представление, изображение реконструируется с использованием метода материальных точек (MPM), впервые описанного в Статья CSAIL 2018 г..
В MiraGe в процессе изменения гауссовская точка выступает в качестве направляющей прокси-сервера для эквивалентной версии сетки, подобно тому, как Модели 3DMM CGI часто используется как методы оркестровки для неявных методов нейронной визуализации, таких как Neural Radiance Fields (NeRF).
В ходе этого процесса двумерные объекты моделируются в трехмерном пространстве, а те части изображения, которые не подвергаются воздействию, не видны конечному пользователю, поэтому контекстуальный эффект манипуляций не будет очевиден до тех пор, пока процесс не будет завершен.
MiraGe может быть интегрирован в популярную 3D-программу с открытым исходным кодом смеситель, который сейчас часто используется в рабочих процессах с использованием ИИ, в первую очередь для преобразования изображений в изображения.

Рабочий процесс для MiraGe в Blender, включающий движение руки фигуры, изображенной на 2D-изображении.
Авторы предлагают две версии подхода к деформации, основанного на гауссовском сплаттинге: Аморфный и Graphite.
Аморфный подход напрямую использует метод GaMeS и позволяет извлеченному двумерному выбору свободно перемещаться в трехмерном пространстве, тогда как подход Graphite ограничивает гауссианы двумерным пространством во время инициализации и обучения.
Исследователи обнаружили, что, хотя аморфный подход может обрабатывать сложные формы лучше, чем графит, «разрывы» или артефакты трещин были более очевидными, когда край деформации совпадал с незатронутой частью изображения*.
Поэтому они разработали вышеупомянутую систему «зеркального отображения»:
«[Мы] применяем новый подход, используя две противоположные камеры, расположенные вдоль оси Y, симметрично выровненные относительно начала координат и направленные друг на друга.
«Первая камера призвана реконструировать исходное изображение, а вторая моделирует зеркальное отражение. Таким образом, фотография концептуализируется как полупрозрачный лист кальки, встроенный в трехмерный пространственный контекст. Отражение можно эффективно представить, перевернув [изображение] по горизонтали».
«Эта установка с зеркальной камерой повышает точность создаваемых отражений, обеспечивая надежное решение для точной фиксации визуальных элементов».
В статье отмечается, что MiraGe может использовать внешние физические движки, такие как доступно в блендереИли в Элементы_Таичи.
Данные и тесты
Для оценки качества изображения в тестах, проведенных для MiraGe, Отношение сигнал / шум (ОСШ) и MS-SIM были использованы метрики.
Использованные наборы данных были Пакет изображений Kodak Lossless True Color, и ДИВ2К Проверка Набор. Разрешения этих наборов данных соответствовали сравнению с наиболее близкой предыдущей работой, Gaussian Image. Среди других протестированных конкурирующих фреймворков были SIREN, WIRE и NVIDIA. Мгновенные примитивы нейронной графики (I-NGP) и NeuRBF.
Эксперименты проводились на ноутбуке NVIDIA GEFORCE RTX 4070 и на NVIDIA RTX 2080.

Согласно результатам, представленным в новой статье, MiraGe предлагает самые современные результаты по сравнению с выбранными ранее фреймворками.
Авторы этих результатов заявляют:
«Мы видим, что наше предложение превосходит предыдущие решения на обоих наборах данных. Качество, измеренное по обеим метрикам, демонстрирует значительное улучшение по сравнению со всеми предыдущими подходами».
Заключение
Адаптация двумерного гауссовского сплаттинга MiraGe, несомненно, является зарождающейся и осторожной попыткой сделать то, что может оказаться очень интересной альтернативой капризам и прихотям использования моделей диффузии для внесения изменений в изображение (например, посредством Firefly и других методов диффузии на основе API, а также посредством архитектур с открытым исходным кодом, таких как Stable Diffusion и Flux).
Хотя существует множество моделей диффузии, которые могут вносить незначительные изменения в изображения, LDM ограничены своим семантическим и часто «излишне изобретательным» подходом к текстовому запросу пользователя на внесение изменений.
Таким образом, возможность временно переместить часть изображения в трехмерное пространство, манипулировать ею и вернуть ее обратно в изображение, используя в качестве эталона только исходное изображение, представляется задачей, для решения которой в будущем может хорошо подойти метод Gaussian Splatting.
* В статье присутствует некоторая путаница: метод «Аморфный мираж» назван наиболее эффективным и производительным, несмотря на его тенденцию к появлению нежелательных гауссиан (артефактов), при этом утверждается, что метод «Графит-мираж» более гибкий. Похоже, что метод «Аморфный мираж» обеспечивает наилучшую детализацию, а метод «Графит-мираж» — наибольшую гибкость. Поскольку в статье представлены оба метода, обладающие различными достоинствами и недостатками, предпочтения авторов, если таковые имеются, на данный момент неясны.
Впервые опубликовано Четверг, 3 октября 2024 г.












