Intelligenza artificiale

Modifica di immagini con Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Una nuova collaborazione tra ricercatori in Polonia e Regno Unito propone la prospettiva di utilizzare Gaussian Splatting per modificare immagini, interpretando temporaneamente una parte selezionata dell’immagine in uno spazio 3D, consentendo all’utente di modificare e manipolare la rappresentazione 3D dell’immagine e quindi applicare la trasformazione.

Per cambiare l’orientamento della testa del gatto, la sezione rilevante viene spostata nello spazio 3D tramite Gaussian Splatting, e quindi manipolata dall’utente. La modifica viene quindi applicata. Il processo è analogo a varie tecniche modali nel software Adobe, che bloccano l’interfaccia fino a quando non viene completato un processo complesso corrente. Source: https://github.com/waczjoan/MiraGe/

Poiché l’elemento Gaussian Splat è rappresentato temporaneamente da una mesh di triangoli, e momentaneamente entra in uno ‘stato CGI’, un motore fisico integrato nel processo può interpretare movimenti naturali, sia per cambiare lo stato statico di un oggetto, sia per produrre un’animazione.

Un motore fisico incorporato nel nuovo sistema MiraGe può eseguire interpretazioni naturali di movimenti fisici, sia per animazioni che per alterazioni statiche di un’immagine.

Non è coinvolto alcun modello di intelligenza artificiale generativa nel processo, il che significa che non sono coinvolti Latent Diffusion Models (LDM), a differenza del sistema Firefly di Adobe, che è stato addestrato su Adobe Stock (in precedenza Fotolia).

Il sistema – chiamato MiraGe – interpreta le selezioni in uno spazio 3D e inferisce la geometria creando un mirror image della selezione, e approssimando le coordinate 3D che possono essere incorporate in uno Splat, che quindi interpreta l’immagine in una mesh.

Click to play. Ulteriori esempi di elementi che sono stati modificati manualmente da un utente del sistema MiraGe, o soggetti a deformazioni basate sulla fisica.

Gli autori hanno confrontato il sistema MiraGe con approcci precedenti e hanno scoperto che raggiunge le prestazioni dello stato dell’arte nel compito target.

Gli utenti del sistema di modellazione zBrush saranno familiari con questo processo, poiché zBrush consente all’utente di fondamentalmente ‘appiattire’ un modello 3D e aggiungere dettagli 2D, preservando la mesh sottostante, e interpretando il nuovo dettaglio in esso – un ‘congelamento’ che è l’opposto del metodo MiraGe, che funziona più come Firefly o altre manipolazioni modali di Photoshop, come la deformazione o le interpretazioni 3D grezze.

I Gaussian Splats parametrizzati consentono a MiraGe di creare ricostruzioni di alta qualità di aree selezionate di un’immagine 2D e applicare fisica del corpo morbido alla selezione temporaneamente 3D.

Il documento afferma:

‘[Noi] introduciamo un modello che codifica immagini 2D simulando l’interpretazione umana. In particolare, il nostro modello percepisce un’immagine 2D come un essere umano vedrebbe una fotografia o un foglio di carta, trattandola come un oggetto piatto all’interno di uno spazio 3D.

‘Questo approccio consente una modifica di immagini intuitiva e flessibile, catturando le sfumature della percezione umana mentre consente trasformazioni complesse.’

Il nuovo documento è intitolato MiraGe: immagini 2D modificabili utilizzando Gaussian Splatting, e proviene da quattro autori dell’Università Jagellonica di Cracovia e dell’Università di Cambridge. Il codice completo del sistema è stato rilasciato su GitHub.

Vediamo come i ricercatori hanno affrontato la sfida.

Metodo

L’approccio MiraGe utilizza la parametrizzazione Gaussian Mesh Splatting (GaMeS), una tecnica sviluppata da un gruppo che include due degli autori del nuovo documento. GaMeS consente ai Gaussian Splats di essere interpretati come mesh CGI tradizionali, e di essere soggetti alla gamma standard di tecniche di deformazione e modifica che la comunità CGI ha sviluppato nel corso degli ultimi decenni.

MiraGe interpreta ‘Gaussian piatti’, in uno spazio 2D, e utilizza GaMeS per ‘tirare’ il contenuto nello spazio 3D abilitato da GSplat, temporaneamente.

Ogni Gaussian piatto è rappresentato come tre punti in una nuvola di triangoli, chiamata ‘zuppa di triangoli’, aprendo l’immagine inferita alla manipolazione. Source: https://arxiv.org/pdf/2410.01521

Possiamo vedere nell’angolo inferiore sinistro dell’immagine sopra che MiraGe crea un ‘mirror image’ della sezione di un’immagine da interpretare.

Gli autori affermano:

‘[Noi] impieghiamo un approccio innovativo che utilizza due telecamere opposte posizionate lungo l’asse Y, allineate simmetricamente intorno all’origine e dirette l’una verso l’altra. La prima telecamera è incaricata di ricostruire l’immagine originale, mentre la seconda modella la riflessione speculare.

‘La fotografia è così concettualizzata come un foglio di carta da disegno traslucido, incorporato all’interno del contesto spaziale 3D. La riflessione può essere effettivamente rappresentata capovolgendo orizzontalmente l'[immagine].

‘Questo setup della telecamera speculare migliora la fedeltà delle riflessioni generate, fornendo una soluzione robusta per catturare accuratamente gli elementi visivi.’

Il documento nota che una volta raggiunta questa estrazione, gli aggiustamenti prospettici che sarebbero normalmente impegnativi diventano accessibili tramite la modifica diretta in 3D. Nell’esempio seguente, vediamo una selezione di un’immagine di una donna che comprende solo il suo braccio. In questo caso, l’utente ha inclinato la mano verso il basso in modo plausibile, il che sarebbe un compito impegnativo semplicemente spingendo i pixel intorno.

Un esempio della tecnica di modifica MiraGe.

Tentare di fare ciò utilizzando gli strumenti generativi Firefly in Photoshop significherebbe normalmente che la mano viene sostituita da una mano sintetizzata, immaginata dalla diffusione, rompendo l’autenticità della modifica. Anche i sistemi più capaci, come il ControlNet sistema ausiliario per Stable Diffusion e altri Latent Diffusion Models, come Flux, lottano per raggiungere questo tipo di modifica in un pipeline di immagine-per-immagine.

Questa particolare ricerca è stata dominata da metodi che utilizzano rappresentazioni neurali implicite (INR), come SIREN e WIRE. La differenza tra un metodo di rappresentazione implicito ed esplicito è che le coordinate del modello non sono direttamente indirizzabili nelle INR, che utilizzano una funzione continua.

Al contrario, Gaussian Splatting offre coordinate cartesiane X / Y / Z esplicite e indirizzabili, anche se utilizza ellissi gaussiane anziché voxel o altri metodi per rappresentare il contenuto in uno spazio 3D.

L’idea di utilizzare GSplat in uno spazio 2D è stata presentata più prominentemente, gli autori notano, nella collaborazione accademica cinese del 2024 GaussianImage, che ha offerto una versione 2D di Gaussian Splatting, abilitando tassi di inferenza di 1000 fps. Tuttavia, questo modello non ha alcuna implementazione relativa alla modifica di immagini.

Dopo la parametrizzazione GaMeS estrae l’area selezionata in una rappresentazione Gaussian/mesh, l’immagine viene ricostruita utilizzando la tecnica Material Points Method (MPM) descritta per la prima volta in un documento CSAIL del 2018.

In MiraGe, durante il processo di alterazione, il Gaussian Splat esiste come proxy guida per una versione mesh equivalente, proprio come i modelli CGI 3DMM sono frequentemente utilizzati come metodi di orchestrazione per tecniche di rendering neurale implicito come Neural Radiance Fields (NeRF).

Nel processo, gli oggetti bidimensionali sono modellati in uno spazio 3D, e le parti dell’immagine che non sono influenzate non sono visibili all’utente finale, in modo che l’effetto contestuale delle manipolazioni non sia evidente fino a quando il processo non sia concluso.

MiraGe può essere integrato nel popolare programma 3D open source Blender, che è ora frequentemente utilizzato in flussi di lavoro che includono l’intelligenza artificiale, principalmente per scopi di immagine-per-immagine.

Un flusso di lavoro per MiraGe in Blender, che coinvolge lo spostamento del braccio di una figura rappresentata in un’immagine 2D.

Gli autori offrono due versioni di un approccio di deformazione basato su Gaussian Splatting – Amorphous e Graphite.

L’approccio Amorphous utilizza direttamente il metodo GaMeS, e consente all’estratto 2D di muoversi liberamente nello spazio 3D, mentre l’approccio Graphite costringe i Gaussiani a uno spazio 2D durante l’inizializzazione e l’addestramento.

I ricercatori hanno scoperto che sebbene l’approccio Amorphous possa gestire meglio le forme complesse rispetto a Graphite, ‘lacrime’ o artefatti di rift erano più evidenti, dove il bordo della deformazione si allinea con la parte non influenzata dell’immagine*.

Pertanto, hanno sviluppato il sopracitato sistema ‘mirror image’:

‘[Noi] impieghiamo un approccio innovativo che utilizza due telecamere opposte posizionate lungo l’asse Y, allineate simmetricamente intorno all’origine e dirette l’una verso l’altra.

‘La prima telecamera è incaricata di ricostruire l’immagine originale, mentre la seconda modella la riflessione speculare. La fotografia è così concettualizzata come un foglio di carta da disegno traslucido, incorporato all’interno del contesto spaziale 3D. La riflessione può essere effettivamente rappresentata capovolgendo orizzontalmente l'[immagine].

‘Questo setup della telecamera speculare migliora la fedeltà delle riflessioni generate, fornendo una soluzione robusta per catturare accuratamente gli elementi visivi.’

Il documento nota che MiraGe può utilizzare motori fisici esterni come quelli disponibili in Blender, o in Taichi_Elements.

Dati e test

Per le valutazioni della qualità delle immagini nei test eseguiti per MiraGe, sono stati utilizzati il rapporto segnale/rumore (SNR) e le metriche MS-SIM.

I set di dati utilizzati sono stati il Kodak Lossless True Color Image Suite e il set di convalida DIV2K. Le risoluzioni di questi set di dati si adattavano a un confronto con il lavoro precedente più vicino, Gaussian Image. Gli altri framework rivali provati sono stati SIREN, WIRE, Instant Neural Graphics Primitives (I-NGP) di NVIDIA e NeuRBF.

Gli esperimenti si sono svolti su un laptop NVIDIA GEFORCE RTX 4070 e su un NVIDIA RTX 2080.

MiraGe offre risultati dello stato dell’arte rispetto ai framework precedenti scelti, secondo i risultati presentati nel nuovo documento.

Di questi risultati, gli autori affermano:

‘Vediamo che la nostra proposta supera le soluzioni precedenti in entrambi i set di dati. La qualità misurata da entrambe le metriche mostra un miglioramento significativo rispetto a tutti gli approcci precedenti.’

Conclusione

L’adattamento di MiraGe di Gaussian Splatting 2D è chiaramente una incursione nascente e tentativa in ciò che potrebbe rivelarsi un’alternativa molto interessante alle vaghezze e ai capricci dell’utilizzo di modelli di diffusione per apportare modifiche a un’immagine (ad esempio, tramite Firefly e altri metodi di diffusione basati su API, e tramite architetture open source come Stable Diffusion e Flux).

Sebbene ci siano molti modelli di diffusione che possono apportare modifiche minori alle immagini, i LDM sono limitati dal loro approccio semantico e spesso ‘troppo immaginativo’ a una richiesta di modifica basata su testo.

Pertanto, la capacità di tirare temporaneamente una parte di un’immagine nello spazio 3D, manipolarla e sostituirla nuovamente nell’immagine, utilizzando solo l’immagine originale come riferimento, sembra un compito che Gaussian Splatting potrebbe essere ben adatto a svolgere in futuro.

* C’è una certa confusione nel documento, in quanto cita ‘Amorphous-Mirage’ come il metodo più efficace e capace, nonostante la sua tendenza a produrre Gaussiani indesiderati (artefatti), mentre sostiene che ‘Graphite-Mirage’ è più flessibile. Sembra che Amorphous-Mirage ottenga il miglior dettaglio, e Graphite-Mirage la migliore flessibilità. Dal momento che entrambi i metodi sono presentati nel documento, con le loro diverse forze e debolezze, la preferenza degli autori, se presente, non sembra essere chiara al momento.

Pubblicato per la prima volta giovedì 3 ottobre 2024