Kunstmatige intelligentie

Beeldbewerking met Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Een nieuwe samenwerking tussen onderzoekers in Polen en het VK stelt het perspectief voor van het gebruik van Gaussian Splatting om afbeeldingen te bewerken, door tijdelijk een geselecteerd deel van de afbeelding te interpreteren in 3D-ruimte, waardoor de gebruiker de 3D-weergave van de afbeelding kan wijzigen en manipuleren, en vervolgens de transformatie kan toepassen.

Om de oriëntatie van de kop van de kat te veranderen, wordt het relevante gedeelte via Gaussian Splatting verplaatst naar 3D-ruimte en vervolgens door de gebruiker gemanipuleerd. De wijziging wordt vervolgens toegepast. Het proces is analoog aan diverse modale technieken in Adobe-software, die de interface blokkeren totdat een complex proces is voltooid. Bron: https://github.com/waczjoan/MiraGe/

Aangezien het Gaussian Splat-element tijdelijk wordt weergegeven als een mesh van driehoeken en kortstondig een ‘CGI-toestand’ bereikt, kan een fysica-engine die in het proces is geïntegreerd, natuurlijke beweging interpreteren, hetzij om de statische toestand van een object te veranderen, hetzij om een animatie te produceren.

Een fysica-engine die is geïntegreerd in het nieuwe MiraGe-systeem, kan natuurlijke interpretaties van fysieke beweging uitvoeren, hetzij voor animaties of statische wijzigingen in een afbeelding.

Er is geen generatieve AI betrokken bij het proces, wat betekent dat er geen Latent Diffusion Models (LDM’s) zijn betrokken, in tegenstelling tot Adobe’s Firefly-systeem, dat is getraind op Adobe Stock (voorheen Fotolia).

Het systeem – genaamd MiraGe – interpreteert selecties in 3D-ruimte en leidt geometrie af door een spiegelbeeld van de selectie te creëren en 3D-coördinaten te benaderen die kunnen worden belichaamd in een Splat, die vervolgens de afbeelding interpreteert in een mesh.

Klik om af te spelen. Verdere voorbeelden van elementen die zijn gewijzigd door een gebruiker van het MiraGe-systeem, of onderworpen aan fysica-gebaseerde vervorming.

De auteurs vergeleken het MiraGe-systeem met eerdere benaderingen en ontdekten dat het state-of-the-art-prestaties bereikt in de doeltaak.

Gebruikers van het zBrush-modelsysteem zullen vertrouwd zijn met dit proces, omdat zBrush de gebruiker in wezen toelaat ‘plat te maken’ en 2D-details toe te voegen, terwijl het onderliggende mesh behouden blijft en de nieuwe details erin interpreteert – een ‘bevriezing’ die het tegenovergestelde is van de MiraGe-methode, die meer werkt als Firefly of andere Photoshop-achtige modale manipulaties, zoals verwringen of grove 3D-interpretaties.

Geparametriseerde Gaussian Splats laten MiraGe toe om hoge-kwaliteit reconstructies te maken van geselecteerde gebieden van een 2D-afbeelding en zachte lichaamsfysica toe te passen op de tijdelijk-3D-selectie.

Het artikel vermeldt:

‘[We] introduceren een model dat 2D-afbeeldingen codeert door menselijke interpretatie te simuleren. Specifiek behandelt ons model een 2D-afbeelding als een mens zou doen bij het bekijken van een foto of een vel papier, waarbij het als een plat voorwerp in een 3D-ruimte wordt behandeld.

‘Deze aanpak stelt intuïtieve en flexibele afbeeldingsbewerking toe, waarbij de nuances van menselijke perceptie worden vastgelegd en complexe transformaties mogelijk worden gemaakt.’

Het nieuwe artikel heeft als titel MiraGe: Bewerkbare 2D-afbeeldingen met Gaussian Splatting en komt van vier auteurs uit de Jagiellonian University in Krakau en de University of Cambridge. De volledige code voor het systeem is uitgegeven op GitHub.

Laten we eens kijken hoe de onderzoekers de uitdaging aanpakten.

Methode

De MiraGe-aanpak maakt gebruik van Gaussian Mesh Splatting (GaMeS) parametrisatie, een techniek ontwikkeld door een groep die twee van de auteurs van het nieuwe artikel omvat. GaMeS laat Gaussian Splats toe om te worden geïnterpreteerd als traditionele CGI-meshes en om onderhevig te zijn aan de standaardreeks van verwringings- en modificatietechnieken die de CGI-gemeenschap de afgelopen decennia heeft ontwikkeld.

MiraGe interpreteert ‘platte’ Gaussians in een 2D-ruimte en gebruikt GaMeS om inhoud naar GSplat-geactiveerde 3D-ruimte te ‘trekken’, tijdelijk.

Elk plat Gaussian wordt weergegeven als drie punten in een wolk van driehoeken, genaamd ‘triangle soup’, waardoor de afgeleide afbeelding openstaat voor manipulatie. Bron: https://arxiv.org/pdf/2410.01521

We kunnen zien in de linkeronderhoek van de afbeelding hierboven dat MiraGe een ‘spiegelbeeld’ van het gedeelte van een afbeelding creëert dat moet worden geïnterpreteerd.

De auteurs vermelden:

‘[We] gebruiken een novatieve aanpak met behulp van twee tegenovergestelde camera’s die langs de Y-as zijn gepositioneerd, symmetrisch uitgelijnd rond het oorsprong en gericht op elkaar. De eerste camera is belast met het reconstrueren van de oorspronkelijke afbeelding, terwijl de tweede de spiegelreflectie modelleert.

‘De foto wordt dus geconceptualiseerd als een doorschijnend vel papier, ingebed in de 3D-ruimtelijke context. De reflectie kan effectief worden weergegeven door de [afbeelding] horizontaal om te keren. Deze spiegel-camera-opstelling verhoogt de geloofwaardigheid van de gegenereerde reflecties, waardoor een robuuste oplossing wordt geboden voor het nauwkeurig vastleggen van visuele elementen.’

Het artikel vermeldt dat zodra deze extractie is bereikt, perspectiefaanpassingen die typisch moeilijk zouden zijn, toegankelijk worden via directe bewerking in 3D. In het onderstaande voorbeeld zien we een selectie van een afbeelding van een vrouw die alleen haar arm omvat. In dit geval heeft de gebruiker de hand omlaag gekanteld op een geloofwaardige manier, wat een moeilijke taak zou zijn door alleen pixels te verplaatsen.

Een voorbeeld van de MiraGe-bewerkingsmethode.

Het proberen hiervan met de Firefly-generatieve tools in Photoshop zou meestal betekenen dat de hand wordt vervangen door een gesynthetiseerde, diffusie-geïmagineerde hand, waardoor de authenticiteit van de bewerking wordt verbroken. Zelfs de meer capabele systemen, zoals het ControlNet-hulpsysteem voor Stable Diffusion en andere Latent Diffusion Models, zoals Flux, hebben moeite om dit type bewerking in een afbeelding-tot-afbeelding-pijplijn te bereiken.

Deze specifieke vervolging is gedomineerd door methoden die gebruikmaken van impliciete neurale representaties (INR’s), zoals SIREN en WIRE. Het verschil tussen een impliciete en expliciete representatiemethode is dat de coördinaten van het model niet direct toegankelijk zijn in INR’s, die een continue functie gebruiken.

In tegenstelling tot Gaussian Splatting biedt expliciete en toegankelijke X/Y/Z Cartesiaanse coördinaten, zelfs als het Gaussian-ellipsen gebruikt in plaats van voxels of andere methoden voor het weergeven van inhoud in een 3D-ruimte.

Het idee om GSplat in een 2D-ruimte te gebruiken, is het meest prominent gepresenteerd, zoals de auteurs opmerken, in de Chinese academische samenwerking van 2024 GaussianImage, die een 2D-versie van Gaussian Splatting bood, waardoor inferentieframesnelheden van 1000 fps mogelijk werden. Echter, dit model heeft geen implementatie gerelateerd aan afbeeldingsbewerking.

Nadat GaMeS-parametrisatie het geselecteerde gebied heeft geëxtraheerd naar een Gaussian/mesh-representatie, wordt de afbeelding gereconstrueerd met behulp van de Material Points Method (MPM)-techniek, die voor het eerst is uiteengezet in een 2018 CSAIL-artikel.

In MiraGe bestaat de Gaussian Splat tijdens het proces van wijziging als een richtlijn voor een equivalente mesh-versie, net zoals 3DMM-CGI-modellen vaak worden gebruikt als orkestratiemethoden voor impliciete neurale renderingtechnieken zoals Neural Radiance Fields (NeRF).

In het proces worden tweedimensionale objecten gemodelleerd in 3D-ruimte en zijn de delen van de afbeelding die niet worden beïnvloed niet zichtbaar voor de eindgebruiker, zodat de contextuele werking van de manipulaties niet duidelijk is totdat het proces is voltooid.

MiraGe kan worden geïntegreerd in het populaire open source 3D-programma Blender, dat nu vaak wordt gebruikt in AI-inclusieve workflows, voornamelijk voor afbeelding-tot-afbeelding-doelen.

Een workflow voor MiraGe in Blender, waarbij de arm van een figuur in een 2D-afbeelding wordt verplaatst.

De auteurs bieden twee versies van een vervormingsaanpak op basis van Gaussian Splatting – Amorf en Grafiet.

De Amorf-aanpak gebruikt de GaMeS-methode rechtstreeks en laat de geëxtraheerde 2D-selectie vrij bewegen in 3D-ruimte, terwijl de Grafiet-aanpak de Gaussians beperkt tot 2D-ruimte tijdens initialisatie en training.

De onderzoekers ontdekten dat hoewel de Amorf-aanpak complexe vormen mogelijk beter aanpakt dan Grafiet, ‘scheuren’ of breuken meer zichtbaar waren, waar de rand van de vervorming samenvalt met het onbeïnvloede deel van de afbeelding*.

Daarom ontwikkelden ze het eerdergenoemde ‘spiegelbeeldsysteem’:

‘[We] gebruiken een novatieve aanpak met behulp van twee tegenovergestelde camera’s die langs de Y-as zijn gepositioneerd, symmetrisch uitgelijnd rond het oorsprong en gericht op elkaar.

‘De eerste camera is belast met het reconstrueren van de oorspronkelijke afbeelding, terwijl de tweede de spiegelreflectie modelleert. De foto wordt dus geconceptualiseerd als een doorschijnend vel papier, ingebed in de 3D-ruimtelijke context. De reflectie kan effectief worden weergegeven door de [afbeelding] horizontaal om te keren. Deze spiegel-camera-opstelling verhoogt de geloofwaardigheid van de gegenereerde reflecties, waardoor een robuuste oplossing wordt geboden voor het nauwkeurig vastleggen van visuele elementen.’

‘Deze spiegel-camera-opstelling verhoogt de geloofwaardigheid van de gegenereerde reflecties, waardoor een robuuste oplossing wordt geboden voor het nauwkeurig vastleggen van visuele elementen.’

Het artikel vermeldt dat MiraGe externe fysica-engines kan gebruiken, zoals die beschikbaar zijn in Blender, of in Taichi_Elements.

Gegevens en tests

Voor beeldkwaliteitbeoordelingen in tests die zijn uitgevoerd voor MiraGe, werden de Signaal-ruisverhouding (SNR) en MS-SIM-metrieken gebruikt.

De datasets die werden gebruikt, waren de Kodak Lossless True Color Image Suite en de DIV2K validatieset. De resoluties van deze datasets waren geschikt voor een vergelijking met de meest recente eerdere werk, Gaussian Image. De andere rivaliserende frameworks die zijn getest, waren SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP) en NeuRBF.

De experimenten vonden plaats op een NVIDIA GEFORCE RTX 4070-laptop en op een NVIDIA RTX 2080.

MiraGe biedt state-of-the-art-resultaten tegen de geselecteerde eerdere frameworks, volgens de resultaten die zijn gepresenteerd in het nieuwe artikel.

Van deze resultaten vermelden de auteurs:

‘We zien dat onze voorstel de vorige oplossingen overtreft op beide datasets. De kwaliteit gemeten door beide metrieken toont een aanzienlijke verbetering ten opzichte van alle eerdere benaderingen.’

Conclusie

MiraGe’s aanpassing van 2D Gaussian Splatting is duidelijk een embryonale en voorzichtige stap in wat mogelijk een zeer interessant alternatief kan blijken voor de grilligheden en willekeur van het gebruik van diffusiemodellen om wijzigingen aan te brengen in een afbeelding (d.w.z. via Firefly en andere API-gebaseerde diffusiemethoden, en via open source-architecturen zoals Stable Diffusion en Flux).

Hoewel er veel diffusiemodellen zijn die kleine wijzigingen in afbeeldingen kunnen aanbrengen, zijn LDM’s beperkt door hun semantische en vaak ‘over-imaginatieve’ aanpak van een tekstgebaseerde gebruikersaanvraag voor een wijziging.

Daarom lijkt de mogelijkheid om tijdelijk een deel van een afbeelding naar 3D-ruimte te trekken, te manipuleren en terug te plaatsen in de afbeelding, terwijl alleen de bronafbeelding als referentie wordt gebruikt, een taak die Gaussian Splatting mogelijk goed geschikt voor is in de toekomst.

* Er is enige verwarring in het artikel, in die zin dat het ‘Amorf-Mirage’ citeert als de meest effectieve en capabele methode, ondanks de neiging om ongewenste Gaussians (artefacten) te produceren, terwijl het argumenteert dat ‘Grafiet-Mirage’ flexibeler is. Het lijkt erop dat Amorf-Mirage de beste details bereikt, en Grafiet-Mirage de beste flexibiliteit. Aangezien beide methoden in het artikel worden gepresenteerd, met hun diverse sterke en zwakke punten, lijkt de voorkeur van de auteurs, indien aanwezig, niet duidelijk op dit moment.

Voor het eerst gepubliceerd op donderdag 3 oktober 2024