Unghiul lui Anderson

Editare imagine cu Gaussian Splatting

Publicat 3 octombrie 2024

Actualizat 20 mai 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

O nouă colaborare între cercetători din Polonia și Regatul Unit propune perspectiva utilizării Gaussian Splatting pentru editarea imaginilor, prin interpretarea temporară a unei părți selectate a imaginii în spațiu 3D, permițând utilizatorului să modifice și să manipuleze reprezentarea 3D a imaginii și apoi să aplice transformarea.

Pentru a schimba orientarea capului pisicii, secțiunea relevantă este mutată în spațiu 3D prin Gaussian Splatting și apoi manipulată de utilizator. Modificarea este apoi aplicată. Procesul este analog cu diverse tehnici modale din software-ul Adobe, care blochează interfața până când un proces complex curent este finalizat. Sursă: https://github.com/waczjoan/MiraGe/

Deoarece elementul Gaussian Splat este reprezentat temporar printr-o rețea de triunghiuri și intră momentan într-o “stare CGI”, un motor de fizică integrat în proces poate interpreta mișcarea naturală, fie pentru a schimba starea statică a unui obiect, fie pentru a produce o animație.

Un motor de fizică incorporat în noul sistem MiraGe poate efectua interpretări naturale ale mișcării fizice, fie pentru animații, fie pentru modificări statice ale unei imagini.

Nu există implicat niciun AI generativ în proces, ceea ce înseamnă că nu sunt implicate modele de difuzie latente (LDM), spre deosebire de sistemul Firefly al Adobe, care este antrenat pe Adobe Stock (fostul Fotolia).

Sistemul – numit MiraGe – interpretează selecții în spațiu 3D și inferă geometria prin crearea unei imagini oglinde a selecției și aproximarea coordonatelor 3D care pot fi încorporate într-un Splat, care apoi interpretează imaginea într-o rețea.

Apăsați pentru a reda.Exemple suplimentare de elemente care au fost modificate manual de un utilizator al sistemului MiraGe sau supuse deformării bazate pe fizică.

Autorii au comparat sistemul MiraGe cu abordări anterioare și au constatat că acesta realizează o performanță de top în sarcina țintă.

Utilizatorii sistemului de modelare zBrush vor fi familiarizați cu acest proces, deoarece zBrush permite utilizatorului să “aplaseze” esențial un model 3D și să adauge detalii 2D, păstrând rețeaua subiacentă și interpretând noile detalii în aceasta – o “înghețare” care este opusul metodei MiraGe, care funcționează mai mult ca Firefly sau alte manipulări modale din Photoshop, cum ar fi deformarea sau interpretarea 3D grosieră.

Splat-urile Gaussian parametrizate permit sistemului MiraGe să creeze reconstrucții de înaltă calitate ale zonelor selectate ale unei imagini 2D și să aplice fizică cu corp moale asupra selecției temporar 3D.

Articolul afirmă:

‘[Noi] introducem un model care codifică imagini 2D prin simularea interpretării umane. În mod specific, modelul nostru percepe o imagine 2D ca și cum ar fi privită de un om, tratând-o ca pe un obiect plat într-un spațiu 3D.

‘Acestă abordare permite editarea intuitivă și flexibilă a imaginilor, capturând nuanțele percepției umane, în timp ce permite transformări complexe.’

Noul articol se numește MiraGe: Imagini 2D editabile utilizând Gaussian Splatting și provine de la patru autori de la Universitatea Jagielloniană din Cracovia și Universitatea Cambridge. Codul complet pentru sistem a fost publicat pe GitHub.

Să examinăm cum au abordat cercetătorii această provocare.

Metodă

Abordarea MiraGe utilizează parametrizarea Gaussian Mesh Splatting (GaMeS), o tehnică dezvoltată de un grup care include doi dintre autorii noului articol. GaMeS permite Splat-urilor Gaussian să fie interpretate ca rețele CGI tradiționale și să devină supuse gamei standard de tehnici de deformare și modificare pe care comunitatea CGI le-a dezvoltat în ultimele decenii.

MiraGe interpretează “Gaussiene plate” într-un spațiu 2D și utilizează GaMeS pentru a “trage” conținutul în spațiul 3D GSplat, temporar.

Fiecare Gaussian plat este reprezentat ca trei puncte într-un nor de triunghiuri, numit ‘supă de triunghiuri’, deschizând imaginea inferată pentru manipulare. Sursă: https://arxiv.org/pdf/2410.01521

Putem vedea în colțul din stânga jos al imaginii de mai sus că MiraGe creează o “imagine oglinde” a secțiunii unei imagini care urmează a fi interpretată.

Autorii afirmă:

‘[Noi] folosim o abordare inovatoare care utilizează două camere opuse poziționate de-a lungul axei Y, aliniate simetric în jurul originii și îndreptate una spre alta. Prima cameră este însărcinată cu reconstruirea imaginii originale, în timp ce a doua modelează reflexia oglindei.

‘Fotografia este astfel conceptualizată ca o foaie de hârtie transparentă, încorporată în contextul spațial 3D. Reflexia poate fi reprezentată eficient prin răsturnarea orizontală a [imaginii]. Această configurație a camerei oglinde îmbunătățește fidelitatea reflexiilor generate, oferind o soluție robustă pentru capturarea precisă a elementelor vizuale.’

Articolul notează că odată ce această extragere a fost realizată, ajustările de perspectivă care ar fi de obicei dificile devin accesibile prin editarea directă în 3D. În exemplul de mai jos, vedem o selecție a unei imagini cu o femeie care cuprinde doar brațul ei. În acest caz, utilizatorul a înclinat mâna în jos într-un mod plauzibil, ceea ce ar fi o sarcină dificilă prin simpla deplasare a pixelilor.

Un exemplu al tehnicii de editare MiraGe.

Încercarea de a face acest lucru utilizând uneltele generative Firefly din Photoshop ar însemna de obicei că mâna este înlocuită cu o mână sintetizată, imaginată prin difuzie, ceea ce ar rupe autenticitatea editării. Chiar și sistemele mai capabile, cum ar fi ControlNet, un sistem auxiliar pentru Stable Diffusion și alte modele de difuzie latentă, cum ar fi Flux, au dificultăți în a realiza acest tip de editare într-un flux de imagine la imagine.

Această urmărire a fost dominată de metode care utilizează reprezentări neuronale implicite (INR), cum ar fi SIREN și WIRE. Diferența dintre o reprezentare implicită și una explicită este că coordonatele modelului nu sunt direct adresabile în INR, care utilizează o funcție continuă.

În schimb, Gaussian Splatting oferă coordonate carteziene X/Y/Z explicite și adresabile, chiar dacă utilizează elipse Gaussiane în loc de voxel sau alte metode de reprezentare a conținutului într-un spațiu 3D.

Idea de a utiliza GSplat într-un spațiu 2D a fost prezentată cel mai prominent, notează autorii, în colaborarea academică chineză din 2024 GaussianImage, care a oferit o versiune 2D a Gaussian Splatting, permițând rate de inferență de 1000fps. Cu toate acestea, acest model nu are nicio implementare legată de editarea imaginilor.

După ce parametrizarea GaMeS extrage zona selectată într-o reprezentare Gaussiană/mesh, imaginea este reconstruită utilizând tehnica Material Points Method (MPM) descrisă pentru prima dată într-un articol CSAIL din 2018.

În MiraGe, în timpul procesului de alterare, Splat-ul Gaussian există ca un proxy ghid pentru o versiune echivalentă de rețea, similar cu cum modelele 3DMM CGI sunt frecvent utilizate ca metode de orchestrare pentru tehnici de renderare neuronală implicită, cum ar fi Neural Radiance Fields (NeRF).

În proces, obiectele bidimensionale sunt modelate în spațiu 3D, iar părțile imaginii care nu sunt influențate nu sunt vizibile utilizatorului final, astfel încât efectul contextual al manipulărilor nu este evident până când procesul nu este finalizat.

MiraGe poate fi integrat în programul 3D open source popular Blender, care este acum frecvent utilizat în fluxuri de lucru care includ AI, în principal pentru scopuri de imagine la imagine.

Un flux de lucru pentru MiraGe în Blender, implicând mișcarea brațului unei figuri reprezentate într-o imagine 2D.

Autorii oferă două versiuni ale unei abordări de deformare bazate pe Gaussian Splatting – Amorphous și Graphite.

Abordarea Amorphous utilizează direct metoda GaMeS și permite selecția 2D extrasă să se miște liber în spațiu 3D, în timp ce abordarea Graphite constrânește Gaussienele în spațiu 2D în timpul inițializării și antrenamentului.

Cercetătorii au constatat că, deși abordarea Amorphous ar putea gestiona forme complexe mai bine decât Graphite, “rupturi” sau artefacte de rift erau mai evidente, acolo unde marginea deformării se aliniază cu porțiunea neatinsă a imaginii*.

Prin urmare, au dezvoltat sistemul “imagine oglinde” menționat anterior:

‘[Noi] folosim o abordare inovatoare care utilizează două camere opuse poziționate de-a lungul axei Y, aliniate simetric în jurul originii și îndreptate una spre alta.

‘Prima cameră este însărcinată cu reconstruirea imaginii originale, în timp ce a doua modelează reflexia oglindei. Fotografia este astfel conceptualizată ca o foaie de hârtie transparentă, încorporată în contextul spațial 3D. Reflexia poate fi reprezentată eficient prin răsturnarea orizontală a [imaginii].

‘Această configurație a camerei oglinde îmbunătățește fidelitatea reflexiilor generate, oferind o soluție robustă pentru capturarea precisă a elementelor vizuale.’

Articolul notează că MiraGe poate utiliza motoare de fizică externe, cum ar fi cele disponibile în Blender sau în Taichi_Elements.

Date și teste

Pentru evaluarea calității imaginilor în testele efectuate pentru MiraGe, au fost utilizate raportul semnal-zgomot (SNR) și metrica MS-SIM.

Seturile de date utilizate au fost Kodak Lossless True Color Image Suite și setul de validare DIV2K. Rezoluțiile acestor seturi de date s-au potrivit unei comparații cu lucrările anterioare, Gaussian Image. Celelalte cadre rivale testate au fost SIREN, WIRE, Primitive Grafice Neuronale Instantanee (I-NGP) de la NVIDIA și NeuRBF.

Experimentele au avut loc pe un laptop NVIDIA GEFORCE RTX 4070 și pe un NVIDIA RTX 2080.

MiraGe oferă rezultate de top față de cadrele anterioare, conform rezultatelor prezentate în noul articol.

Dintre aceste rezultate, autorii afirmă:

‘Vedem că propunerea noastră depășește soluțiile anterioare pe ambele seturi de date. Calitatea măsurată de ambele metrice arată o îmbunătățire semnificativă în comparație cu toate abordările anterioare.’

Concluzie

Adaptarea de către MiraGe a Gaussian Splatting 2D este clar o încercare nouă și tentativă în ceea ce poate dovedi a fi o alternativă foarte interesantă la capriciile și fanteziile utilizării modelelor de difuzie pentru a efectua modificări asupra unei imagini (de exemplu, prin Firefly și alte metode de difuzie bazate pe API, și prin arhitecturi open source, cum ar fi Stable Diffusion și Flux).

Deși există multe modele de difuzie care pot efectua modificări minore asupra imaginilor, LDM sunt limitate de abordarea lor semantică și adesea “prea imagistică” față de o solicitare de modificare bazată pe text.

Prin urmare, capacitatea de a trage temporar o parte a unei imagini în spațiu 3D, de a o manipula și de a o înlocui înapoi în imagine, utilizând doar imaginea sursă ca referință, pare a fi o sarcină pentru care Gaussian Splatting ar putea fi bine adaptat în viitor.

* Există o anumită confuzie în articol, întrucât se face referire la ‘Amorphous-Mirage’ ca fiind cea mai eficientă și capabilă metodă, în ciuda tendinței sale de a produce Gaussiene nedorite (artefacte), în timp ce se argumentează că ‘Graphite-Mirage’ este mai flexibil. Se pare că Amorphous-Mirage obține cel mai bun detaliu, iar Graphite-Mirage cea mai bună flexibilitate. Deoarece ambele metode sunt prezentate în articol, cu punctele lor forte și slabe diverse, preferința autorilor, dacă există, nu pare a fi clară la acest moment.

Publicat pentru prima dată joi, 3 octombrie 2024