Штучний інтелект
Редагування зображень за допомогою Gaussian Splatting

Нове співробітництво між дослідниками в Польщі та Великій Британії пропонує перспективу використання Gaussian Splatting для редагування зображень, тимчасово інтерпретуючи вибрану частину зображення в 3D-просторі, що дозволяє користувачеві модифікувати та маніпулювати 3D-представленням зображення, а потім застосовувати трансформацію.

Щоб змінити орієнтацію голови кота, відповідну секцію переміщено в 3D-простір за допомогою Gaussian Splatting, а потім маніпулюють користувачем. Модифікація потім застосовується. Процес аналогічний різним модальним технікам в програмному забезпеченні Adobe, яке блокує інтерфейс до завершення поточного складного процесу. Джерело: https://github.com/waczjoan/MiraGe/
Оскільки елемент Gaussian Splat тимчасово представлений у вигляді сітки трикутників, а тимчасово переходить у ‘CGI-стан’, фізичний двигун, інтегрований у процес, може інтерпретувати природний рух, або для зміни статичного стану об’єкта, або для створення анімації.

Фізичний двигун, інтегрований у нову систему MiraGe, може виконувати природні інтерпретації фізичного руху, або для анімацій, або для статичних змін зображення.
Не використовується жоден генеративний ІІ, що означає, що не використовуються жодні Латентні дифузійні моделі (LDM), на відміну від системи Firefly компанії Adobe, яка тренується на Adobe Stock (колишній Fotolia).
Система – названа MiraGe – інтерпретує вибірки в 3D-простір і робить висновок про геометрію, створюючи дзеркальне зображення вибірки, і наближаючи 3D-координати, які можуть бути втілені у Splat, який потім інтерпретує зображення у сітку.
Натисніть, щоб відтворити. Додаткові приклади елементів, які були змінені вручну користувачем системи MiraGe, або піддані фізичній деформації.
Автори порівняли систему MiraGe з попередніми підходами і виявили, що вона досягає найвищої продуктивності у цільовому завданні.
Користувачі системи моделювання zBrush будуть знайомі з цим процесом, оскільки zBrush дозволяє користувачеві фактично ‘сплющити’ 3D-модель і додати 2D-деталі, зберігаючи при цьому основну сітку, і інтерпретуючи нові деталі у ній – ‘заморожування’, яке є протилежним до методу MiraGe, який працює більш як Firefly або інші модальні маніпуляції у програмному забезпеченні Photoshop, такі як викривлення або грубі 3D-інтерпретації.

Параметризовані Gaussian Splats дозволяють системі MiraGe створювати високоякісні реконструкції вибраних ділянок 2D-зображення і застосовувати фізику м’яких тіл до тимчасово-3D-вибірки.
У статті зазначається:
‘[Ми] вводимо модель, яка кодує 2D-зображення шляхом симуляції людської інтерпретації. Конкретно, наша модель сприймає 2D-зображення так, як людина бачить фотографію або арку паперу,扱уючи її як плоский об’єкт у 3D-просторі.
‘Цей підхід дозволяє здійснювати інтуїтивне та гнучке редагування зображень, захоплюючи нюанси людського сприйняття та дозволяючи здійснювати складні трансформації.’
Нова стаття нова стаття називається MiraGe: Редагування 2D-зображень за допомогою Gaussian Splatting, і походить від чотирьох авторів з Jagiellonian University у Кракові та Університету Кембриджа. Повний код системи було опубліковано на GitHub.
Давайте розглянемо, як дослідники підійшли до цього завдання.
Метод
Підхід MiraGe використовує параметризацію Gaussian Mesh Splatting (GaMeS), техніку, розроблену групою, до якої входять два автори нової статті. GaMeS дозволяє Gaussian Splat інтерпретуватися як традиційні CGI-сітки, і піддаватися стандартному діапазону технік викривлення та модифікації, які спільнота CGI розробила за останні кілька десятиліть.
MiraGe інтерпретує ‘плоскі’ Гаусові розподіли в 2D-просторі, і використовує GaMeS для ‘витягування’ вмісту в GSplat-дозволений 3D-простір, тимчасово.

Кожен плоский Гаусів розподіл представлений трьома точками у хмарі трикутників, названій ‘суп з трикутників’, відкриваючи змогу маніпулювати інтерпретованим зображенням. Джерело: https://arxiv.org/pdf/2410.01521
Ми можемо побачити у нижньому лівому куті зображення вище, що MiraGe створює ‘дзеркальне зображення’ секції зображення, яку потрібно інтерпретувати.
Автори зазначають:
‘[Ми] використовуємо новий підхід, який використовує дві протилежні камери, розташовані вздовж осі Y, симетрично розташовані навколо початку координат і спрямовані одна на одну. Перша камера зайнята відновленням оригінального зображення, а друга моделює дзеркальне відображення.
‘Фотографія концептуалізується як прозора арка паперу, вбудована у 3D-просторовий контекст. Відображення можна ефективно представити горизонтальним переворотом [зображення]. Це дзеркально-камерна установка підвищує вірогідність згенерованих відображень, забезпечуючи надійне рішення для точного захоплення візуальних елементів.’
У статті зазначається, що після того, як ця екстракція була досягнута, перспективні корекції, які зазвичай були б складними, стають доступними через пряме редагування у 3D. У прикладі нижче ми бачимо вибір зображення жінки, який охоплює лише її руку. У цьому випадку користувач нахилив руку вниз у правдоподібний спосіб, що було б складним завданням лише шляхом переміщення пікселів.

Приклад техніки редагування MiraGe.
Спроба зробити це за допомогою інструментів генерації Firefly у Photoshop зазвичай означала б, що рука була б замінена синтезованим, уявним руками, порушуючи автентичність редагування. Навіть більш здатні системи, такі як ControlNet допоміжна система для Stable Diffusion і інших Латентних дифузійних моделей, таких як Flux, боротьба за досягнення цього типу редагування у трубопроводі зображення до зображення.
Цей конкретний переслідування було домінувало методами, які використовують Неявні нейронні представлення (INRs), такі як SIREN і WIRE. Різниця між неявним і явним методом представлення полягає в тому, що координати моделі не можуть бути безпосередньо адресовані в INRs, які використовують неперервну функцію.
Натомість Gaussian Splatting пропонує явні і адресовані X/Y/Z картезіанські координати, хоча він використовує Гаусові еліпси, а не воксли або інші методи зображення вмісту у 3D-просторі.
Ідея використання GSplat у 2D-просторі була найбільш помітно представлена, як зазначають автори, у китайському академічному співробітництві 2024 року GaussianImage, який запропонував 2D-версію Gaussian Splatting, що дозволяє здійснювати висновки кадрів з частотою 1000fps. Однак ця модель не має реалізації, пов’язаної з редагуванням зображень.
Після того, як параметризація GaMeS витягує вибрану область у Гаусівське/сіткове представлення, зображення реконструюється за допомогою методу матеріальних точок (MPM), вперше описаного у статті CSAIL 2018 року.
У MiraGe під час процесу зміни Gaussian Splat існує як керівний проксі для еквівалентної сіткової версії, так само, як 3DMM CGI-моделі часто використовуються як оркестраційні методи для неявних нейронних методів рендерингу, таких як Neural Radiance Fields (NeRF).
У процесі двовимірні об’єкти моделюються у 3D-просторі, а частини зображення, які не піддаються впливу, не видимі для кінцевого користувача, так що контекстний ефект маніпуляцій не є очевидним до завершення процесу.
MiraGe можна інтегрувати у популярну відкриту програму Blender, яка зараз часто використовується у робочих процесах, що включають ІІ, в основному для цілей зображення до зображення.

Робочий процес MiraGe у Blender, що включає рух руки фігури, зображеної у 2D-зображенні.
Автори пропонують дві версії підходу деформації на основі Gaussian Splatting – Аморфний і Графіт.
Підхід Аморфний безпосередньо використовує метод GaMeS, і дозволяє витягнутій 2D-вибірці рухатися вільно у 3D-просторі, тоді як підхід Графіт обмежує Гаусові розподіли до 2D-простору під час ініціалізації та навчання.
Дослідники виявили, що хоча підхід Аморфний може краще обробляти складні форми, ніж Графіт, ‘розриви’ або артефакти були більш очевидними, де край деформації збігається з неушкодженою частиною зображення*.
Отже, вони розробили вищезгадану систему ‘дзеркального зображення’:
‘[Ми] використовуємо новий підхід, який використовує дві протилежні камери, розташовані вздовж осі Y, симетрично розташовані навколо початку координат і спрямовані одна на одну.
‘Перша камера зайнята відновленням оригінального зображення, а друга моделює дзеркальне відображення. Зображення концептуалізується як прозора арка паперу, вбудована у 3D-просторовий контекст. Відображення можна ефективно представити горизонтальним переворотом [зображення]. Це дзеркально-камерна установка підвищує вірогідність згенерованих відображень, забезпечуючи надійне рішення для точного захоплення візуальних елементів.’
У статті зазначається, що MiraGe може використовувати зовнішні фізичні двигуни, такі як ті, що доступні у Blender, або у Taichi_Elements.
Дані та тести
Для оцінки якості зображень у тестах, проведених для MiraGe, використовувалися метрики відношення сигналу до шуму (SNR) і MS-SIM.
Використовувалися набори даних Kodak Lossless True Color Image Suite і DIV2K валідационний набір. Роздільна здатність цих наборів даних підходила для порівняння з попередньою роботою, Gaussian Image. Інші суперницькі рамки, які були протестовані, були SIREN, WIRE, Instant Neural Graphics Primitives (I-NGP) компанії NVIDIA, і NeuRBF.
Експерименти проводилися на ноутбуці NVIDIA GEFORCE RTX 4070 і на NVIDIA RTX 2080.

MiraGe пропонує найвищі результати проти вибраних попередніх рамок, згідно з результатами, представленими у новій статті.
З цих результатів автори зазначають:
‘Ми бачимо, що наша пропозиція перевершує попередні рішення на обидвох наборах даних. Якість, виміряна обома метриками, показує значне покращення порівняно з усіма попередніми підходами.’
Висновок
Адаптація MiraGe 2D-Gaussian Splatting явно є новим і тимчасовим кроком у тому, що може стати дуже цікавною альтернативою капризам і примхам використання моделей дифузії для внесення змін до зображення (тобто через Firefly і інші API-орієнтовані методи дифузії, а також через відкриті архітектури, такі як Stable Diffusion і Flux).
Хоча існує багато моделей дифузії, які можуть здійснити незначні зміни у зображенні, ЛДМ обмежені своїм семантичним і часто ‘надто уявним’ підходом до текстового запитання користувача на зміну.
Отже, можливість тимчасово витягнути частину зображення у 3D-простір, маніпулювати ним і повернути його назад у зображення, використовуючи лише джерельне зображення як посилання, здається завданням, для якого Gaussian Splatting може бути добре підходить у майбутньому.
* Є деяка плутанина у статті, оскільки вона цитує ‘Amorphous-Mirage’ як найбільш ефективний і здатний метод, незважаючи на його схильність до виробництва нежаданих Гаусівських артефактів, тоді як аргументується, що ‘Graphite-Mirage’ є більш гнучким. Здається, що Amorphous-Mirage отримує найкращі деталі, а Graphite-Mirage – найкращу гнучкість. Оскільки обидва методи представлені у статті з їхніми різними сильними і слабкими сторонами, вподобання авторів, якщо воно існує, не здається очевидним на цей час.
Перша публікація четверга, 3 жовтня 2024 року












