Artificiell intelligens

Bildredigering med Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Ett nytt samarbete mellan forskare i Polen och Storbritannien föreslår möjligheten att använda Gaussian Splatting för att redigera bilder, genom att tillfälligt tolka en vald del av bilden till 3D-utrymme, vilket gör det möjligt för användaren att modifiera och manipulera den 3D-representationen av bilden, och sedan tillämpa transformationen.

För att ändra riktningen på kattens huvud flyttas den relevanta delen till 3D-utrymme via Gaussian Splatting, och sedan manipuleras av användaren. Ändringen tillämpas sedan. Processen är analog med olika modaltekniker i Adobe-program, som låser gränssnittet tills en aktuell komplex process är slutförd. Källa: https://github.com/waczjoan/MiraGe/

Eftersom Gaussian Splat-elementet tillfälligt representeras av en mesh av trianglar och tillfälligt hamnar i en ‘CGI-tillstånd’, kan en fysikmotor som integreras i processen tolka naturlig rörelse, antingen för att ändra det statiska tillståndet för ett objekt eller för att producera en animation.

En fysikmotor som integreras i det nya MiraGe-systemet kan utföra naturliga tolkningar av fysisk rörelse, antingen för animationer eller statiska ändringar av en bild.

Det finns ingen generativ AI involverad i processen, vilket innebär att inga Latent Diffusion Models (LDMs) är involverade, till skillnad från Adobes Firefly-system, som är tränad på Adobe Stock (tidigare Fotolia).

Systemet – som kallas MiraGe – tolkar urval till 3D-utrymme och härleder geometri genom att skapa en spegelbild av urvalet och approximera 3D-koordinater som kan inkorporeras i en Splat, som sedan tolkar bilden till en mesh.

Klicka för att spela upp. Ytterligare exempel på element som har ändrats manuellt av en användare av MiraGe-systemet eller som har utsatts för fysikbaserad deformation.

Författarna jämförde MiraGe-systemet med tidigare metoder och fann att det uppnår toppprestationer i måluppgiften.

Användare av zBrush-modelleringssystemet kommer att känna igen sig i denna process, eftersom zBrush tillåter användaren att i princip ‘platta till’ ett 3D-modell och lägga till 2D-detajl, samtidigt som den underliggande meshen bevaras, och den nya detaljen tolkas in i den – en ‘frys’ som är motsatsen till MiraGe-metoden, som fungerar mer som Firefly eller andra Photoshop-liknande modalmanipulationer, såsom deformation eller grova 3D-tolkningar.

Parametrerade Gaussian Splats tillåter MiraGe att skapa högkvalitativa rekonstruktioner av valda områden av en 2D-bild och tillämpa mjukkropps-fysik på det tillfälligt 3D-valda området.

Artikeln säger:

‘[Vi] introducerar en modell som kodar 2D-bilder genom att simulera mänsklig tolkning. Specifikt kodar vår modell en 2D-bild som en människa skulle se en fotografi eller ett pappersark, och behandlar den som ett platt föremål inom ett 3D-utrymme.

‘Denna metod tillåter intuitiv och flexibel bildredigering, som fångar nyanserna av mänsklig perception samtidigt som den möjliggör komplexa transformationer.’

Den nya artikeln heter MiraGe: Redigering av 2D-bilder med Gaussian Splatting, och kommer från fyra författare på Jagiellonian University i Kraków och University of Cambridge. Den fullständiga koden för systemet har släppts på GitHub.

Låt oss ta en titt på hur forskarna angrep utmaningen.

Metod

MiraGe-metoden använder Gaussian Mesh Splatting (GaMeS) parametrering, en teknik som utvecklats av en grupp som inkluderar två av författarna till den nya artikeln. GaMeS tillåter Gaussian Splats att tolkas som traditionella CGI-meshar och att bli föremål för standardområdet av deformation och modifieringstekniker som CGI-gemenskapen har utvecklat under de senaste decennierna.

MiraGe tolkar ‘platta’ Gaussiska former i ett 2D-utrymme och använder GaMeS för att ‘dra’ innehåll till GSplat-aktiverat 3D-utrymme, tillfälligt.

Varje platt Gaussisk form representeras som tre punkter i en moln av trianglar, kallad ‘trianglesoppa’, som öppnar upp den infererade bilden för manipulation. Källa: https://arxiv.org/pdf/2410.01521

Vi kan se i nedre vänstra hörnet av bilden ovan att MiraGe skapar en ‘spegelbild’ av den delen av bilden som ska tolkas.

Författarna säger:

‘[Vi] använder en ny metod som använder två motsatta kameror placerade längs Y-axeln, symmetriskt placerade runt ursprunget och riktade mot varandra. Den första kameran är uppgiften att rekonstruera den ursprungliga bilden, medan den andra modellerar spegelreflektionen.

‘Fotografiet konceptualiseras således som ett genomskinligt ritpappersark, inbäddat i 3D-rumsligt sammanhang. Reflektionen kan effektivt representeras genom att vända den [bilden] horisontellt. Denna spegelkamerainställning förbättrar troheten hos de genererade reflektionerna, vilket ger en robust lösning för att exakt fånga visuella element.’

Artikeln noterar att när denna extraktion har uppnåtts, blir perspektivjusteringar som vanligtvis skulle vara utmanande tillgängliga via direkt redigering i 3D. I exemplet nedan ser vi ett urval av en bild av en kvinna som omfattar endast hennes arm. I detta fall har användaren lutat handen nedåt på ett trovärdigt sätt, vilket skulle vara en utmanande uppgift genom att bara flytta pixlar runt.

Ett exempel på MiraGe-redigeringsmetoden.

Att försöka göra detta med hjälp av Firefly-generativa verktyg i Photoshop skulle vanligtvis innebära att handen ersätts av en syntetiserad, diffusion-föreställd hand, vilket bryter mot äktheten i redigeringen. Även de mer kapabla systemen, som ControlNet hjälpsystem för Stable Diffusion och andra Latent Diffusion Models, såsom Flux, kämpar för att uppnå denna typ av redigering i en bild-till-bild-pipeline.

Denna särskilda strävan har dominerats av metoder som använder Implicita Neurala Representationer (INR), såsom SIREN och WIRE. Skillnaden mellan en implicit och explicit representationmetod är att koordinaterna för modellen inte är direkt adresserbara i INR, som använder en kontinuerlig funktion.

Till skillnad från detta erbjuder Gaussian Splatting explicita och adresserbara X/Y/Z Cartesiska koordinater, även om det använder Gaussiska ellipser istället för voxlar eller andra metoder för att avbilda innehåll i ett 3D-utrymme.

Idén att använda GSplat i ett 2D-utrymme har presenterats mest framträdande, noterar författarna, i den kinesiska akademiska samarbetet GaussianImage, som erbjöd en 2D-version av Gaussian Splatting, som möjliggjorde inferensramhastigheter på 1000fps. Men denna modell har ingen implementering relaterad till bildredigering.

Efter GaMeS-parametrering extraherar det valda området till en Gaussisk/mesh-representation, rekonstrueras bilden med hjälp av Material Points Method (MPM)-tekniken, som först presenterades i en 2018 CSAIL-artikel.

I MiraGe, under processen för ändring, existerar Gaussian Splat som en guide för en motsvarande mesh-version, liknande 3DMM-CGI-modeller som ofta används som orkestreringsmetoder för implicita neurala renderingstekniker som Neural Radiance Fields (NeRF).

I processen modelleras tvådimensionella föremål i 3D-utrymme, och de delar av bilden som inte påverkas är inte synliga för slutanvändaren, så att den kontextuella effekten av manipulationerna inte är uppenbara förrän processen är slutförd.

MiraGe kan integreras i den populära öppna källkods-3D-programvaran Blender, som nu ofta används i AI-inclusive arbetsflöden, främst för bild-till-bild-ändamål.

Ett arbetsflöde för MiraGe i Blender, som involverar rörelse av armen på en figur som avbildas i en 2D-bild.

Författarna erbjuder två versioner av en deformationsteknik baserad på Gaussian Splatting – Amorf och Graphite.

Amorf-metoden använder direkt GaMeS-metoden och tillåter det extraherade 2D-urvalet att flytta fritt i 3D-utrymme, medan Graphite-metoden begränsar Gaussiska former till 2D-utrymme under initiering och träning.

Forskarna fann att Amorf-metoden kanske hanterar komplexa former bättre än Graphite, men ‘sprickor’ eller rift-arterefakter var mer tydliga, där kanten av deformationen sammanfaller med den opåverkade delen av bilden*.

Därför utvecklade de den ovannämnda ‘spegelbild’-systemet:

‘[Vi] använder en ny metod som använder två motsatta kameror placerade längs Y-axeln, symmetriskt placerade runt ursprunget och riktade mot varandra.

‘Den första kameran är uppgiften att rekonstruera den ursprungliga bilden, medan den andra modellerar spegelreflektionen. Fotografiet konceptualiseras således som ett genomskinligt ritpappersark, inbäddat i 3D-rumsligt sammanhang. Reflektionen kan effektivt representeras genom att vända den [bilden] horisontellt. Denna spegelkamerainställning förbättrar troheten hos de genererade reflektionerna, vilket ger en robust lösning för att exakt fånga visuella element.’

‘Denna spegelkamerainställning förbättrar troheten hos de genererade reflektionerna, vilket ger en robust lösning för att exakt fånga visuella element.’

Artikeln noterar att MiraGe kan använda externa fysikmotorer som finns tillgängliga i Blender, eller i Taichi_Elements.

Data och tester

För bildkvalitetsbedömningar i tester som utfördes för MiraGe, användes Signal-till-brus-förhållandet (SNR) och MS-SIM-metriker.

Datamängder som användes var Kodak Lossless True Color Image Suite och DIV2K valideringsuppsättning. Upplösningarna för dessa datamängder passade en jämförelse med den närmaste tidigare arbetet, Gaussian Image. De andra rivaliserande ramverken som testades var SIREN, WIRE, NVIDIAs Instant Neural Graphics Primitives (I-NGP) och NeuRBF.

Experimenten ägde rum på en NVIDIA GEFORCE RTX 4070-laptop och på en NVIDIA RTX 2080.

MiraGe erbjuder toppresultat mot de valda tidigare ramverken, enligt resultaten som presenteras i den nya artikeln.

Av dessa resultat säger författarna:

‘Vi ser att vår proposition överträffar de tidigare lösningarna på båda datamängderna. Kvaliteten som mäts av båda metrikerna visar en betydande förbättring jämfört med alla tidigare tillvägagångssätt.’

Slutsats

MiraGes anpassning av 2D Gaussian Splatting är tydligt en ny och försiktig framstöt in i vad som kan visa sig vara en mycket intressant alternativ till de oförutsägbarheter och nyckerna till att använda diffusionsmodeller för att påverka ändringar i en bild (dvs. via Firefly och andra API-baserade diffusionsmetoder, och via öppen källkodsarkitekturer som Stable Diffusion och Flux).

Även om det finns många diffusionsmodeller som kan påverka mindre ändringar i bilder, är LDM begränsade av sin semantiska och ofta ‘över-imaginativa’ tillvägagångssätt för en textbaserad användarbegäran om en ändring.

Därför verkar förmågan att tillfälligt dra en del av en bild till 3D-utrymme, manipulera den och ersätta den tillbaka i bilden, medan endast den ursprungliga bilden används som referens, vara en uppgift som Gaussian Splatting kan vara väl lämpad för i framtiden.

* Det finns viss förvirring i artikeln, eftersom den citerar ‘Amorf-Mirage’ som den mest effektiva och kapabla metoden, trots dess tendens att producera oönskade Gaussiska former (artefakter), medan den hävdar att ‘Graphite-Mirage’ är mer flexibel. Det verkar som att Amorf-Mirage uppnår den bästa detaljen, och Graphite-Mirage den bästa flexibiliteten. Eftersom båda metoderna presenteras i artikeln, med sina olika styrkor och svagheter, verkar författarnas preferens, om någon, inte vara tydlig vid denna tid.

Publicerad första gången torsdag, 3 oktober 2024