Connect with us

Редактирование изображений с помощью Gaussian Splatting

Искусственный интеллект

Редактирование изображений с помощью Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Новое сотрудничество между исследователями в Польше и Великобритании предлагает возможность использования Gaussian Splatting для редактирования изображений, временно интерпретируя выбранную часть изображения в 3D-пространство, позволяя пользователю изменять и манипулировать 3D-представлением изображения, а затем применять преобразование.

Чтобы изменить ориентацию головы кошки, соответствующий раздел перемещается в 3D-пространство через Gaussian Splatting, а затем манипулируется пользователем. Изменение затем применяется. Процесс аналогичен различным модальным техникам в программном обеспечении Adobe, которые блокируют интерфейс до завершения текущего сложного процесса.

Чтобы изменить ориентацию головы кошки, соответствующий раздел перемещается в 3D-пространство через Gaussian Splatting, а затем манипулируется пользователем. Изменение затем применяется. Процесс аналогичен различным модальным техникам в программном обеспечении Adobe, которые блокируют интерфейс до завершения текущего сложного процесса. Источник: https://github.com/waczjoan/MiraGe/

Поскольку элемент Gaussian Splat временно представлен сеткой треугольников и временно переходит в ‘CGI-состояние’, физический движок, интегрированный в процесс, может интерпретировать естественное движение, либо для изменения статического состояния объекта, либо для создания анимации.

Физический движок, интегрированный в новую систему MiraGe, может выполнять естественную интерпретацию физического движения, либо для анимаций, либо для статических изменений изображения.

Физический движок, интегрированный в новую систему MiraGe, может выполнять естественную интерпретацию физического движения, либо для анимаций, либо для статических изменений изображения.

В процессе не участвует генеративный ИИ, что означает, что не используются Латентные модели диффузии (LDM), в отличие от системы Firefly от Adobe, которая обучена на Adobe Stock (ранее Fotolia).

Система, называемая MiraGe, интерпретирует выборки в 3D-пространство и выводит геометрию, создавая зеркальное изображение выборки и приближая 3D-координаты, которые могут быть воплощены в Splat, который затем интерпретирует изображение в сетку.

Нажмите, чтобы воспроизвести. Дополнительные примеры элементов, которые были изменены вручную пользователем системы MiraGe или подвергались физическим деформациям.

Авторы сравнили систему MiraGe с предыдущими подходами и обнаружили, что она достигает лучших результатов в целевой задаче.

Пользователи системы моделирования zBrush знакомы с этим процессом, поскольку zBrush позволяет пользователю по сути ‘сплющить’ 3D-модель и добавить 2D-детали, сохраняя при этом основную сетку и интерпретируя новые детали в нее – ‘заморозку’, которая является противоположностью метода MiraGe, который работает более как Firefly или другие манипуляции в стиле Photoshop, такие как искажение или грубые 3D-интерпретации.

Параметризованные Gaussian Splats позволяют MiraGe создавать высококачественные реконструкции выбранных областей 2D-изображения и применять физику мягкого тела к временно-3D-выборке.

Параметризованные Gaussian Splats позволяют MiraGe создавать высококачественные реконструкции выбранных областей 2D-изображения и применять физику мягкого тела к временно-3D-выборке.

В статье говорится:

‘[Мы] представляем модель, которая кодирует 2D-изображения, имитируя человеческую интерпретацию. Конкретно, наша модель воспринимает 2D-изображение так, как человек смотрит на фотографию или лист бумаги, рассматривая его как плоский объект в 3D-пространстве.

‘Этот подход позволяет осуществлять интуитивное и гибкое редактирование изображений, захватывая нюансы человеческого восприятия и ermögляя сложные преобразования.’

Новая статья называется MiraGe: Редактируемые 2D-изображения с помощью Gaussian Splatting и исходит от четырех авторов из Ягеллонского университета в Кракове и Кембриджского университета. Полный код системы был опубликован на GitHub.

Давайте посмотрим, как исследователи справились с этой задачей.

Метод

Подход MiraGe использует параметризацию Gaussian Mesh Splatting (GaMeS), технику, разработанную группой, в которую входят два авторов новой статьи. GaMeS позволяет Gaussian Splat быть интерпретированным как традиционная CGI-сетка и подвергаться стандартному диапазону техник искажения и изменения, которые разработала сообщество CGI за последние несколько десятилетий.

MiraGe интерпретирует ‘плоские’ гауссовские распределения в 2D-пространстве и использует GaMeS, чтобы ‘вытащить’ содержимое в GSplat-активированное 3D-пространство, временно.

Каждый плоский гауссовский распределение представлен тремя точками в облаке треугольников, называемом 'супом треугольников', открывая возможность манипулирования интерпретированным изображением. Источник: https://arxiv.org/pdf/2410.01521

Каждый плоский гауссовский распределение представлен тремя точками в облаке треугольников, называемом ‘супом треугольников’, открывая возможность манипулирования интерпретированным изображением. Источник: https://arxiv.org/pdf/2410.01521

Мы можем видеть в нижнем левом углу изображения выше, что MiraGe создает ‘зеркальное’ изображение раздела изображения, подлежащего интерпретации.

Авторы утверждают:

‘[Мы] используем новый подход, который использует две противоположные камеры, расположенные вдоль оси Y, симметрично расположенные вокруг начала координат и направленные друг на друга. Первая камера负责 реконструкции исходного изображения, а вторая моделирует зеркальное отражение.

‘Фотография таким образом концептуализируется как прозрачный лист бумаги, встроенный в 3D-пространственный контекст. Отражение можно эффективно представить, горизонтально перевернув [изображение].

‘Эта настройка зеркальной камеры повышает точность сгенерированных отражений, обеспечивая надежное решение для точного захвата визуальных элементов.’

Статья отмечает, что после того, как эта экстракция была достигнута, корректировки перспективы, которые обычно были бы сложными, становятся доступными через прямое редактирование в 3D. В примере ниже мы видим выбор изображения женщины, который охватывает только ее руку. В этом случае пользователь наклонил руку вниз в правдоподобной манере, что было бы сложной задачей, просто перемещая пиксели.

Пример техники редактирования MiraGe

Пример техники редактирования MiraGe.

Попытка сделать это с помощью генеративных инструментов Firefly в Photoshop обычно означала бы, что рука заменяется синтезированной, воображаемой диффузией, нарушая аутентичность редактирования. Даже более способные системы, такие как ControlNet, вспомогательная система для Stable Diffusion и других Латентных моделей диффузии, такие как Flux, испытывают трудности в достижении такого редактирования в pipeline изображение-изображение.

Эта конкретная задача была доминирующей в методах, использующих неявные нейронные представления (INRs), таких как SIREN и WIRE. Разница между неявным и явным представлением метода заключается в том, что координаты модели не являются直接 адресуемыми в INRs, которые используют непрерывную функцию.

Напротив, Gaussian Splatting предлагает явные и адресуемые X/Y/Z декартовые координаты, даже хотя он использует гауссовские эллипсы, а не воксels или другие методы изображения содержимого в 3D-пространстве.

Идея использования GSplat в 2D-пространстве была наиболее заметно представлена, по мнению авторов, в китайском академическом сотрудничестве 2024 года GaussianImage, который предложил 2D-версию Gaussian Splatting, позволяющую интерпретировать кадры с частотой 1000fps. Однако эта модель не имеет реализации, связанной с редактированием изображений.

После того, как параметризация GaMeS извлекает выбранную область в гауссовское/сеточное представление, изображение восстанавливается с помощью метода материальных точек, впервые описанного в статье CSAIL 2018 года.

В MiraGe во время процесса изменения гауссовский распределение существует как руководящий прокси для эквивалентного сеточного представления, подобно тому, как 3DMM-CGI-модели часто используются в качестве методов оркестровки для неявных нейронных методов рендеринга, таких как Neural Radiance Fields (NeRF).

В процессе двухмерные объекты моделируются в 3D-пространстве, и части изображения, которые не подвергаются влиянию, не видны конечному пользователю, так что контекстный эффект манипуляций не очевиден до завершения процесса.

MiraGe может быть интегрирован в популярную открытую 3D-программу Blender, которая сейчас часто используется в рабочих процессах, включающих ИИ, в основном для целей изображение-изображение.

Рабочий процесс MiraGe в Blender, включающий перемещение руки фигуры, изображенной в 2D-изображении.

Рабочий процесс MiraGe в Blender, включающий перемещение руки фигуры, изображенной в 2D-изображении.

Авторы предлагают две версии подхода к деформации на основе Gaussian Splatting – Аморфный и Графит.

Аморфный подход直接 использует метод GaMeS и позволяет извлеченной 2D-выборке двигаться свободно в 3D-пространстве, тогда как подход Графит ограничивает гауссовские распределения 2D-пространством во время инициализации и обучения.

Исследователи обнаружили, что хотя аморфный подход может лучше справиться с сложными формами, чем Графит, ‘разрывы’ или артефакты были более очевидными, где край деформации совпадает с не затронутой частью изображения*.

Следовательно, они разработали вышеупомянутую систему ‘зеркального’ изображения:

‘[Мы] используем новый подход, который использует две противоположные камеры, расположенные вдоль оси Y, симметрично расположенные вокруг начала координат и направленные друг на друга.

‘Первая камера负责 реконструкции исходного изображения, а вторая моделирует зеркальное отражение. Изображение таким образом концептуализируется как прозрачный лист бумаги, встроенный в 3D-пространственный контекст. Отражение можно эффективно представить, горизонтально перевернув [изображение].

‘Эта настройка зеркальной камеры повышает точность сгенерированных отражений, обеспечивая надежное решение для точного захвата визуальных элементов.’

Статья отмечает, что MiraGe может использовать внешние физические движки, такие как те, которые доступны в Blender, или в Taichi_Elements.

Данные и тесты

Для оценки качества изображений в тестах, проведенных для MiraGe, использовались метрики соотношение сигнал-шум (SNR) и MS-SIM.

Использовались наборы данных Kodak Lossless True Color Image Suite и DIV2K- валидационный набор. Разрешения этих наборов данных подходили для сравнения с предыдущей работой, Gaussian Image. Другие соперничающие框ки, протестированные на этом, были SIREN, WIRE, Instant Neural Graphics Primitives (I-NGP) от NVIDIA и NeuRBF.

Эксперименты проводились на ноутбуке NVIDIA GEFORCE RTX 4070 и на NVIDIA RTX 2080.

MiraGe предлагает лучшие результаты против выбранных предыдущих框ок, согласно результатам, представленным в новой статье.

MiraGe предлагает лучшие результаты против выбранных предыдущих框ок, согласно результатам, представленным в новой статье.

Из этих результатов авторы утверждают:

‘Мы видим, что наше предложение превосходит предыдущие решения на обоих наборах данных. Качество, измеренное обоими метриками, показывает значительное улучшение по сравнению со всеми предыдущими подходами.’

Заключение

Адаптация MiraGe 2D-Gaussian Splatting явно является новым и осторожным шагом в то, что может оказаться очень интересной альтернативой капризам и прихотям использования моделей диффузии для внесения изменений в изображение (т.е. через Firefly и другие API-основанные методы диффузии, а также через открытые архитектуры, такие как Stable Diffusion и Flux).

Хотя существует много моделей диффузии, которые могут внести незначительные изменения в изображения, ЛМД ограничены своим семантическим и часто ‘чрезмерно воображаемым’ подходом к текстовому запросу пользователя на изменение.

Следовательно, возможность временно вытащить часть изображения в 3D-пространство, изменить и заменить его обратно в изображение, используя только исходное изображение в качестве справочного, кажется задачей, для которой Gaussian Splatting может быть хорошо приспособлен в будущем.

 

* Существует некоторая путаница в статье, поскольку она цитирует ‘Amorphous-Mirage’ как наиболее эффективный и способный метод, несмотря на его склонность производить нежелательные гауссовские распределения (артефакты), в то время как утверждает, что ‘Graphite-Mirage’ более гибок. Похоже, что Amorphous-Mirage получает лучшие детали, а Graphite-Mirage – лучшую гибкость. Поскольку оба метода представлены в статье со своими разнообразными сильными и слабыми сторонами, предпочтение авторов, если оно есть, не кажется ясным на данный момент.

 

Опубликовано впервые в четверг, 3 октября 2024 года

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.