Inteligență artificială
Editare imagine cu Gaussian Splatting

O nouă colaborare între cercetători din Polonia și Regatul Unit propune perspectiva utilizării Gaussian Splatting pentru editarea imaginilor, prin interpretarea temporară a unei părți selectate a imaginii în spațiu 3D, permițând utilizatorului să modifice și să manipuleze reprezentarea 3D a imaginii, și apoi să aplice transformarea.

Pentru a schimba orientarea capului pisicii, secțiunea relevantă este mutată în spațiu 3D prin Gaussian Splatting, și apoi manipulată de utilizator. Modificarea este apoi aplicată. Procesul este analog cu diverse tehnici modale în software-ul Adobe, care blochează interfața până când un proces complex curent este finalizat. Sursă: https://github.com/waczjoan/MiraGe/
Deoarece elementul Gaussian Splat este reprezentat temporar printr-o rețea de triunghiuri, și intră momentan într-o stare ‘CGI’, un motor de fizică integrat în proces poate interpreta mișcarea naturală, fie pentru a schimba starea statică a unui obiect, fie pentru a produce o animație.

Un motor de fizică incorporat în noul sistem MiraGe poate efectua interpretări naturale ale mișcării fizice, fie pentru animații, fie pentru modificări statice ale unei imagini.
Nu există inteligență artificială generativă implicată în proces, ceea ce înseamnă că nu există Modele de difuzie latente (LDM) implicate, în contrast cu sistemul Firefly al Adobe, care este antrenat pe Adobe Stock (fost Fotolia).
Sistemul – numit MiraGe – interpretează selecții în spațiu 3D și inferă geometria prin crearea unei imagini oglindă a selecției, și aproximarea coordonatelor 3D care pot fi încorporate într-un Splat, care apoi interpretează imaginea într-o rețea.
Apăsați pentru a juca. Exemple suplimentare de elemente care au fost modificate manual de un utilizator al sistemului MiraGe, sau supuse deformării bazate pe fizică.
Autorii au comparat sistemul MiraGe cu abordările anterioare, și au constatat că acesta atinge performanța de top în sarcina țintă.
Utilizatorii sistemului de modelare zBrush vor fi familiarizați cu acest proces, deoarece zBrush permite utilizatorului să “întindă” un model 3D și să adauge detalii 2D, păstrând rețeaua subiacentă, și interpretând noul detaliu în aceasta – o “înghețare” care este opusul metodei MiraGe, care funcționează mai mult ca Firefly sau alte manipulări modale în stil Photoshop, cum ar fi deformarea sau interpretarea 3D grosieră.

Splats Gaussian parametrizați permit sistemului MiraGe să creeze reconstrucții de înaltă calitate ale zonelor selectate ale unei imagini 2D, și să aplice fizică cu corp moale selecției temporar-3D.
Articolul afirmă:
‘[Noi] introducem un model care codifică imagini 2D prin simularea interpretării umane. În special, modelul nostru percepe o imagine 2D ca o fotografie sau o foaie de hârtie, tratând-o ca un obiect plat într-un spațiu 3D.
‘Acestă abordare permite editarea intuitivă și flexibilă a imaginilor, capturând nuanțele percepției umane, în timp ce permite transformări complexe.’
Articolul nou este intitulat MiraGe: Imagini 2D editabile utilizând Gaussian Splatting, și provine de la patru autori de la Universitatea Jagielloniană din Cracovia și Universitatea din Cambridge. Codul complet pentru sistem a fost eliberat pe GitHub.
Să examinăm cum au abordat cercetătorii această provocare.
Metodă
Abordarea MiraGe utilizează parametrizarea Gaussian Mesh Splatting (GaMeS), o tehnică dezvoltată de un grup care include doi dintre autorii articolului nou. GaMeS permite Splats Gaussian să fie interpretați ca rețele CGI tradiționale, și să devină supuse gamei standard de tehnici de deformare și modificare pe care comunitatea CGI le-a dezvoltat în ultimele decenii.
MiraGe interpretează “Gaussiene plate” într-un spațiu 2D, și utilizează GaMeS pentru a “trage” conținutul în spațiul 3D GSplat, temporar.

Fiecare Gaussian plat este reprezentat ca trei puncte într-un nor de triunghiuri, numit ‘supă de triunghiuri’, deschizând imaginea inferată pentru manipulare. Sursă: https://arxiv.org/pdf/2410.01521
Putem vedea în colțul din stânga jos al imaginii de mai sus că MiraGe creează o “imagine oglindă” a secțiunii unei imagini care urmează a fi interpretată.
Autorii afirmă:
‘[Noi] utilizăm o abordare nouă care utilizează două camere opuse poziționate de-a lungul axei Y, aliniate simetric în jurul originii și îndreptate una către alta. Prima cameră este însărcinată cu reconstruirea imaginii originale, în timp ce a doua modelează reflexia oglinzii.
‘Fotografia este astfel conceptualizată ca o foaie de hârtie transparentă, încorporată în contextul spațial 3D. Reflexia poate fi reprezentată eficient prin răsturnarea orizontală a [imaginii]. Această configurație a camerei oglinzii îmbunătățește fidelitatea reflexiilor generate, oferind o soluție robustă pentru capturarea elementelor vizuale.’
Articolul notează că, odată ce această extragere a fost realizată, ajustările de perspectivă care ar fi de obicei dificile devin accesibile prin editarea directă în 3D. În exemplul de mai jos, vedem o selecție a unei imagini cu o femeie care cuprinde doar brațul ei. În acest caz, utilizatorul a înclinat mâna în jos într-un mod plauzibil, ceea ce ar fi o sarcină dificilă prin simpla deplasare a pixelilor.

Un exemplu al tehnicii de editare MiraGe.
Încercarea de a face acest lucru utilizând instrumentele generative Firefly din Photoshop ar însemna de obicei că mâna este înlocuită cu o mână sintetizată, imaginată prin difuzie, ceea ce ar rupe autenticitatea editării. Chiar și sistemele mai capabile, cum ar fi sistemul auxiliar ControlNet pentru Stable Diffusion și alte Modele de Difuzie Latentă, cum ar fi Flux, luptă pentru a atinge acest tip de editare într-un flux de imagine-la-imagine.
Această urmărire a fost dominată de metode care utilizează Reprezentări Neurale Implicite (INRs), cum ar fi SIREN și WIRE. Diferența dintre o metodă de reprezentare implicită și una explicită este că coordonatele modelului nu sunt direct adresabile în INRs, care utilizează o funcție continuă.
În schimb, Gaussian Splatting oferă coordonate Cartesiane X/Y/Z explicite și adresabile, chiar dacă utilizează elipse Gaussiane în loc de voxeli sau alte metode de reprezentare a conținutului în spațiu 3D.
Ideea de a utiliza GSplat într-un spațiu 2D a fost prezentată cel mai prominent, notează autorii, în colaborarea academică chineză din 2024 GaussianImage, care a oferit o versiune 2D a Gaussian Splatting, permițând rate de inferență de 1000fps. Cu toate acestea, acest model nu are nicio implementare legată de editarea imaginilor.
După ce parametrizarea GaMeS extrage zona selectată într-o reprezentare Gaussiană/rețea, imaginea este reconstruită utilizând tehnica Material Points Method (MPM) descrisă pentru prima dată într-un articol CSAIL din 2018.
În MiraGe, în timpul procesului de alterare, Gaussian Splat există ca un proxy ghid pentru o versiune echivalentă de rețea, similar cu modurile 3DMM CGI care sunt frecvent utilizate ca metode de orchestrare pentru tehnici de render implicit neural, cum ar fi Neural Radiance Fields (NeRF).
În proces, obiectele bidimensionale sunt modelate în spațiu 3D, și părțile imaginii care nu sunt influențate nu sunt vizibile pentru utilizatorul final, astfel încât efectul contextual al manipulărilor nu este evident până când procesul nu este finalizat.
MiraGe poate fi integrat în programul 3D popular open source Blender, care este acum frecvent utilizat în fluxuri de lucru care includ inteligență artificială, în principal pentru scopuri de imagine-la-imagine.

Un flux de lucru pentru MiraGe în Blender, care implică mișcarea brațului unei figuri reprezentate într-o imagine 2D.
Autorii oferă două versiuni ale unei abordări de deformare bazate pe Gaussian Splatting – Amorf și Graphite.
Abordarea Amorf utilizează direct metoda GaMeS, și permite selecția 2D extrasă să se miște liber în spațiu 3D, în timp ce abordarea Graphite constrânește Gaussienele în spațiu 2D în timpul inițializării și antrenării.
Cercetătorii au constatat că, deși abordarea Amorf poate gestiona forme complexe mai bine decât Graphite, “rupturi” sau artefacte de rift erau mai evidente, acolo unde marginea deformării se aliniază cu partea neatinsă a imaginii*.
Prin urmare, ei au dezvoltat sistemul “imagine oglindă” menționat anterior:
‘[Noi] utilizăm o abordare nouă care utilizează două camere opuse poziționate de-a lungul axei Y, aliniate simetric în jurul originii și îndreptate una către alta.
‘Prima cameră este însărcinată cu reconstruirea imaginii originale, în timp ce a doua modelează reflexia oglinzii. Imaginea este astfel conceptualizată ca o foaie de hârtie transparentă, încorporată în contextul spațial 3D. Reflexia poate fi reprezentată eficient prin răsturnarea orizontală a [imaginii].
‘Această configurație a camerei oglinzii îmbunătățește fidelitatea reflexiilor generate, oferind o soluție robustă pentru capturarea elementelor vizuale.’
Articolul notează că MiraGe poate utiliza motoare de fizică externe, cum ar fi cele disponibile în Blender, sau în Taichi_Elements.
Date și teste
Pentru evaluarea calității imaginilor în testele efectuate pentru MiraGe, au fost utilizate metricele Raportul Semnal-Zgomot (SNR) și MS-SIM.
Seturile de date utilizate au fost Kodak Lossless True Color Image Suite, și setul de validare DIV2K. Rezoluțiile acestor seturi de date s-au potrivit unei comparații cu lucrarea anterioară cea mai apropiată, Gaussian Image. Celelalte cadre rivale testate au fost SIREN, WIRE, Primitivii Grafici Neurali Instantanee (I-NGP) de la NVIDIA, și NeuRBF.
Experimentele au avut loc pe un laptop NVIDIA GEFORCE RTX 4070 și pe un NVIDIA RTX 2080.

MiraGe oferă rezultate de top împotriva cadrului anterior, conform rezultatelor prezentate în articolul nou.
Dintre aceste rezultate, autorii afirmă:
‘Vedem că propunerea noastră depășește soluțiile anterioare pe ambele seturi de date. Calitatea măsurată de ambele metrice arată o îmbunătățire semnificativă față de toate abordările anterioare.’
Concluzie
Adaptarea MiraGe a Gaussian Splatting 2D este clar o încercare timidă și tentativă în ceea ce poate dovedi a fi o alternativă foarte interesantă la capriciile și viciile utilizării modelelor de difuzie pentru a efectua modificări ale unei imagini (de exemplu, prin Firefly și alte metode de difuzie bazate pe API, și prin arhitecturi open source cum ar fi Stable Diffusion și Flux).
Deși există multe modele de difuzie care pot efectua modificări minore în imagini, LDM-urile sunt limitate de abordarea lor semantică și adesea “prea imagistică” a unei solicitări de modificare bazate pe text.
Prin urmare, capacitatea de a trage temporar o parte a unei imagini în spațiu 3D, de a o manipula și de a o înlocui înapoi în imagine, utilizând doar imaginea sursă ca referință, pare a fi o sarcină pentru care Gaussian Splatting ar putea fi bine potrivit în viitor.
* Există o anumită confuzie în articol, întrucât se face referire la ‘Amorf-Miraj’ ca fiind cea mai eficientă și capabilă metodă, în ciuda tendinței sale de a produce Gaussiene nedorite (artefacte), în timp ce se argumentează că ‘Graphite-Miraj’ este mai flexibil. Se pare că Amorf-Miraj obține cel mai bun detaliu, și Graphite-Miraj cea mai bună flexibilitate. Deoarece ambele metode sunt prezentate în articol, cu punctele lor forte și slabe diverse, preferința autorilor, dacă există, nu pare a fi clară în acest moment.
A fost publicat pentru prima dată joi, 3 octombrie 2024












