Andersons hoek

Verbetering van de nauwkeurigheid van AI-afbeeldingsbewerking

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Hoewel Adobe’s Firefly latent diffusion model (LDM) waarschijnlijk een van de beste is die momenteel beschikbaar is, zullen gebruikers van Photoshop die de generatieve functies hebben uitgeprobeerd, hebben opgemerkt dat het niet gemakkelijk is om bestaande afbeeldingen te bewerken – in plaats daarvan vervangt het de geselecteerde gebieden van de gebruiker volledig met beelden op basis van de tekstprompt van de gebruiker (hoewel Firefly goed is in het integreren van het gegenereerde gedeelte in de context van de afbeelding).

In de huidige bètaversie kan Photoshop ten minste een referentieafbeelding opnemen als een gedeeltelijke afbeeldingsprompt, waarmee Adobe’s vlaggenschipproduct wordt bijgewerkt naar het soort functionaliteit dat Stable Diffusion -gebruikers al meer dan twee jaar genieten, dankzij externe frameworks zoals Controlnet:

De huidige bètaversie van Adobe Photoshop biedt de mogelijkheid om referentieafbeeldingen te gebruiken bij het genereren van nieuwe inhoud binnen een selectie – hoewel het op dit moment een kwestie van trial en error is.

Dit illustreert een open probleem in beeldsyntheseronderzoek – de moeilijkheid die diffusiemodellen hebben om bestaande afbeeldingen te bewerken zonder een volledige ‘herbeelding’ van de door de gebruiker aangegeven selectie te implementeren.

Hoewel deze diffusiegebaseerde inpaint de prompt van de gebruiker opvolgt, vindt het een complete heruitvinding van de brononderwerp plaats zonder de oorspronkelijke afbeelding in overweging te nemen (behalve door de nieuwe generatie te mengen met de omgeving). Bron: https://arxiv.org/pdf/2502.20376

Dit probleem doet zich voor omdat LDM’s afbeeldingen genereren door middel van iteratieve ruisreductie, waarbij elke fase van het proces wordt geconditioneerd op de tekstprompt die door de gebruiker is opgegeven. Met de tekstpromptinhoud omgezet in embeddingtokens, en met een hyperschaalmodel zoals Stable Diffusion of Flux dat honderdduizenden (of miljoenen) near-matching embeddings bevat die verband houden met de prompt, heeft het proces een berekende conditionele verdeling om naar te streven; en elke stap die wordt genomen, is een stap naar dit ‘conditionele distributiedoel’.

Dus dat is tekst naar afbeelding – een scenario waarin de gebruiker ‘het beste hoopt’, aangezien er geen manier is om exact te weten wat de generatie zal zijn.

In plaats daarvan hebben velen geprobeerd om de krachtige generatieve capaciteit van een LDM te gebruiken om bestaande afbeeldingen te bewerken – maar dit houdt een evenwichtsact in tussen trouw en flexibiliteit.

Wanneer een afbeelding wordt geprojecteerd in de latent ruimte van het model door methoden zoals DDIM inversie, is het doel om de oorspronkelijke afbeelding zo nauwkeurig mogelijk te reconstrueren, terwijl er nog steeds ruimte is voor betekenisvolle bewerkingen. Het probleem is dat hoe nauwkeuriger een afbeelding wordt gereconstrueerd, hoe meer het model zich houdt aan zijn oorspronkelijke structuur, waardoor grote wijzigingen moeilijk worden.

In overeenstemming met veel andere diffusiegebaseerde beeldbewerkingsframeworks die in recente jaren zijn voorgesteld, heeft de Renoise-architectuur moeite om enige echte verandering aan te brengen in de verschijning van de afbeelding, met alleen een perfunctoire indicatie van een strik die verschijnt aan de basis van de keel van de kat.

Aan de andere kant, als het proces prioriteit geeft aan bewerkbaarheid, vermindert het model zijn greep op de oorspronkelijke afbeelding, waardoor het gemakkelijker wordt om veranderingen aan te brengen – maar ten koste van de algehele consistentie met de bronafbeelding:

Missie geslaagd – maar het is een transformatie in plaats van een aanpassing, voor de meeste AI-gebaseerde beeldbewerkingsframeworks.

Aangezien het een probleem is dat zelfs Adobe’s aanzienlijke middelen moeite hebben om aan te pakken, kunnen we redelijkerwijs concluderen dat de uitdaging opmerkelijk is en mogelijk geen gemakkelijke oplossingen toelaat, als die al bestaan.

Strikte inversie

Daarom trokken de voorbeelden in een nieuw artikel dat deze week werd gepubliceerd, mijn aandacht, omdat het werk een waardevolle en opmerkelijke verbetering biedt ten opzichte van de huidige stand van zaken in dit gebied, door te bewijzen dat het in staat is om subtiele en verfijnde bewerkingen aan te brengen op afbeeldingen die zijn geprojecteerd in de latent ruimte van een model – zonder dat de bewerkingen te gering of te overweldigend zijn voor de oorspronkelijke inhoud in de bronafbeelding:

Met Strikte inversie toegepast op bestaande inversiemethoden, wordt de bronselectie op een veel meer granulaire manier overwogen, en voldoen de transformaties aan het oorspronkelijke materiaal in plaats van het te overschrijven.

LDM-hobbyisten en -praktijkmensen kunnen dit soort resultaten herkennen, aangezien veel ervan kan worden gemaakt in een complexe workflow met externe systemen zoals Controlnet en IP-Adapter.

In feite maakt de nieuwe methode – Strikte inversie genoemd – gebruik van IP-Adapter, samen met een specifiek model voor menselijke afbeeldingen.

Uit het originele IP-Adapter-artikel van 2023, voorbeelden van het maken van passende bewerkingen aan het bronmateriaal. Bron: https://arxiv.org/pdf/2308.06721

De belangrijkste prestatie van Strikte inversie is dus om complexe technieken te proceduraliseren in een enkele drop-in plug-in modality die kan worden toegepast op bestaande systemen, inclusief veel van de meest populaire LDM-distributies.

Natuurlijk betekent dit dat Strikte inversie (TI), net als de adjunctsystemen die het gebruikt, de bronafbeelding gebruikt als een conditioneringsfactor voor de bewerkte versie, in plaats van alleen te vertrouwen op nauwkeurige tekstprompts:

Verdere voorbeelden van de mogelijkheid van Strikte inversie om echt geïntegreerde bewerkingen aan te brengen op bronmateriaal.

Hoewel de auteurs toegeven dat hun benadering niet vrij is van de traditionele en voortdurende spanning tussen trouw en bewerkbaarheid in diffusiegebaseerde beeldbewerkingsTechnieken, melden ze state-of-the-art resultaten wanneer ze TI injecteren in bestaande systemen, versus de baseline-prestaties.

Het nieuwe werk heeft de titel Strikte inversie: beeld-geconditioneerde inversie voor echte beeldbewerking, en komt van vijf onderzoekers van de Tel Aviv University en Snap Research.

Methode

Aanvankelijk wordt een Large Language Model (LLM) gebruikt om een reeks gevarieerde tekstprompts te genereren waaruit een afbeelding wordt gegenereerd. Vervolgens wordt de eerder genoemde DDIM-inversie toegepast op elke afbeelding met drie tekstcondities: de tekstprompt die wordt gebruikt om de afbeelding te genereren; een verkorte versie van dezelfde; en een null (lege) prompt.

Met de omgekeerde ruis die wordt geretourneerd uit deze processen, worden de afbeeldingen opnieuw gegenereerd met dezelfde conditie, en zonder classifier-free guidance (CFG).

DDIM-inversiescores over verschillende metrics met variabele promptinstellingen.

Zoals we kunnen zien uit de grafiek hierboven, worden de scores over verschillende metrics verbeterd met toenemende tekstlengte. De metrics die werden gebruikt, waren Peak Signal-to-Noise Ratio (PSNR); L2 -afstand; Structural Similarity Index (SSIM); en Learned Perceptual Image Patch Similarity (LPIPS).

Beeldbewust

Effectief verandert Strikte inversie de manier waarop een host-diffusiemodel echte afbeeldingen bewerkt door de inversieprocedure te conditioneren op de afbeelding zelf, in plaats van alleen te vertrouwen op tekst.

Normaal gesproken vereist het omkeren van een afbeelding in de ruimte van een diffusiemodel het schatten van de startruis die, wanneer deze wordt gedenoise, de invoer reconstrueert. Standaardmethoden gebruiken een tekstprompt om dit proces te leiden; maar een onvolmaakte prompt kan leiden tot fouten, waardoor details verloren gaan of structuren worden gewijzigd.

Strikte inversie gebruikt in plaats daarvan IP-Adapter om visuele informatie naar het model te sturen, zodat het de afbeelding met grotere nauwkeurigheid reconstrueert, door de bronafbeeldingen om te zetten in conditionerende tokens en deze te projecteren in de inversiepijplijn.

Deze parameters zijn bewerkbaar: het verhogen van de invloed van de bronafbeelding maakt de reconstructie bijna perfect, terwijl het verlagen ervan meer creatieve veranderingen toelaat. Dit maakt Strikte inversie nuttig voor zowel subtiele modificaties, zoals het wijzigen van een shirtkleur, als voor meer significante bewerkingen, zoals het verwisselen van objecten – zonder de gebruikelijke neveneffecten van andere inversiemethoden, zoals het verlies van fijne details of onverwachte aberraties in de achtergrondinhoud.

De auteurs verklaren:

‘We merken op dat Strikte inversie gemakkelijk kan worden geïntegreerd met eerdere inversiemethoden (bijv. Edit Friendly DDPM, ReNoise) door [de native diffusiekernel te vervangen door het IP-Adapter-gewijzigde model], [en] Strikte inversie verbetert deze methoden consequent in termen van zowel reconstructie als bewerkbaarheid.’

Gegevens en tests

De onderzoekers evalueerden TI op zijn capaciteit om echte wereldbronafbeeldingen te reconstrueren en te bewerken. Alle experimenten gebruikten Stable Diffusion XL met een DDIM-planner zoals beschreven in het originele Stable Diffusion-artikel; en alle tests gebruikten 50 denoising-stappen bij een standaardguidanceschaal van 7,5.

Voor beeldconditionering werd IP-Adapter-plus sdxl vit-h gebruikt. Voor few-step-tests gebruikten de onderzoekers SDXL-Turbo met een Euler-planner, en voerden ook experimenten uit met FLUX.1-dev, waarbij het model werd geconditioneerd op PuLID-Flux, met behulp van RF-Inversie bij 28 stappen.

PulID werd alleen gebruikt in gevallen met menselijke gezichten, aangezien dit het domein is waarvoor PulID werd getraind – en hoewel het opmerkelijk is dat een gespecialiseerd subsysteem wordt gebruikt voor dit ene mogelijke prompttype, wijst onze buitensporige interesse in het genereren van menselijke gezichten erop dat het vertrouwen op de bredere gewichten van een basismodel zoals Stable Diffusion mogelijk niet voldoende is voor deze specifieke taak.

Reconstructietests werden uitgevoerd voor kwalitatieve en kwantitatieve evaluatie. In de afbeelding hieronder zien we kwalitatieve voorbeelden voor DDIM-inversie:

Kwalitatieve resultaten voor DDIM-inversie. Elke rij toont een zeer gedetailleerde afbeelding naast de gereconstrueerde versies, met elke stap die gebruik maakt van steeds nauwkeurigere condities tijdens inversie en denoising.

Het artikel vermeldt:

‘Deze voorbeelden benadrukken dat het conditioneren van het inversieproces op een afbeelding de reconstructie aanzienlijk verbetert in zeer gedetailleerde gebieden.

‘Opmerkelijk is dat onze methode in het derde voorbeeld van [de afbeelding hieronder] de tattoo op de rug van de rechterbokser met succes reconstrueert. Bovendien wordt de pose van de bokser meer nauwkeurig bewaard en wordt de tattoo op het been zichtbaar.’

Verdere kwalitatieve resultaten voor DDIM-inversie. Beschrijvende condities verbeteren DDIM-inversie, met beeldconditionering die tekst overtreft, vooral bij complexe afbeeldingen.

De auteurs testten Strikte inversie ook als een drop-in module voor bestaande systemen, waarbij ze de gemodificeerde versies tegen hun baseline-prestaties zetten.

De drie geteste systemen waren de eerder genoemde DDIM-inversie en RF-inversie; en ook ReNoise, die enkele auteurs deelt met het artikel dat hier wordt besproken. Aangezien DDIM-resultaten geen moeite hebben om 100% reconstructie te bereiken, richtten de onderzoekers zich alleen op bewerkbaarheid.

(De kwalitatieve resultaatafbeeldingen zijn op een manier geformatteerd die moeilijk te reproduceren is, dus verwijzen we de lezer naar het bron-PDF voor volledige dekking en betere resolutie, ondanks dat enkele selecties hieronder worden weergegeven)

Links, kwalitatieve reconstructieresultaten voor Strikte inversie met SDXL. Rechts, reconstructie met Flux.

Hier merken de auteurs op:

‘Zoals geïllustreerd, verbetert Strikte inversie bestaande methoden consequent. Voor [voorbeeld,] onze methode reconstrueert de leuning van de trap in het linkse voorbeeld en de man met het blauwe shirt in het rechtse voorbeeld [in figuur 5 van het artikel] met grote nauwkeurigheid.’

De auteurs testten het systeem ook kwantitatief. In overeenstemming met eerdere werken, gebruikten ze de validatieset van MS-COCO, en merken op dat de resultaten (weergegeven hieronder) de reconstructie over alle metrics voor alle methoden verbeterden.

Vergelijking van de metrics voor de prestaties van de systemen met en zonder Strikte inversie.

Vervolgens testten de auteurs de mogelijkheid van het systeem om foto’s te bewerken, waarbij ze het tegen baseline-versies van eerdere benaderingen prompt2prompt; Edit Friendly DDPM; LED-ITS++; en RF-inversie zetten.

Weergegeven hieronder zijn een selectie van de kwalitatieve resultaten van het artikel voor SDXL en Flux (en we verwijzen de lezer naar de vrijwel onleesbare lay-out van het originele artikel voor verdere voorbeelden).

Selecties uit de uitgebreide kwalitatieve resultaten (die vrijwel onleesbaar zijn) die door het hele artikel heen zijn verspreid.

De auteurs beweren dat Strikte inversie consequent beter presteert dan bestaande inversietechnieken door een betere balans te vinden tussen reconstructie en bewerkbaarheid. Standaardmethoden zoals DDIM-inversie en ReNoise kunnen een afbeelding goed reconstrueren, maar het artikel stelt dat ze vaak moeite hebben om fijne details te behouden wanneer bewerkingen worden toegepast.

In tegenstelling tot Strikte inversie, die beeldconditionering gebruikt om het modeloutput meer vast te maken aan de oorspronkelijke afbeelding, waardoor ongewenste vertekeningen worden voorkomen. De auteurs beweren dat zelfs wanneer concurrerende benaderingen reconstructies produceren die lijken nauwkeurig, de introductie van bewerkingen vaak leidt tot artefacten of structurele inconsistenties, en dat Strikte inversie deze problemen vermindert.

Ten slotte werden kwantitatieve resultaten verkregen door Strikte inversie te evalueren tegen de MagicBrush -benchmark, met behulp van DDIM-inversie en LEDITS++, gemeten met CLIP Sim.

Kwantitatieve vergelijkingen van Strikte inversie tegen de MagicBrush-benchmark.

De auteurs concluderen:

‘In beide grafieken is de afweging tussen beeldbehoud en naleving van de doelbewerking duidelijk [waarneembaar]. Strikte inversie biedt een betere controle over deze afweging en behoudt de invoerbeeld beter, terwijl deze nog steeds overeenkomt met de bewerking [prompt]. ‘

‘Opmerking, een CLIP-overeenkomst van boven 0,3 tussen een afbeelding en een tekstprompt geeft aan dat de afbeelding en de prompt plausibel overeenkomen.’

Conclusie

Hoewel Strikte inversie geen ‘doorbraak’ vertegenwoordigt in een van de meest hardnekkige uitdagingen in LDM-gebaseerde beeldsynthese, consolideert het een aantal lastige aanvullende benaderingen in een geïntegreerde methode voor AI-gebaseerde beeldbewerking.

Hoewel de spanning tussen bewerkbaarheid en trouw niet verdwenen is onder deze methode, is deze volgens de resultaten aanzienlijk verminderd. Gezien het feit dat de centrale uitdaging die dit werk aanpakt, mogelijk uiteindelijk onoverkomelijk kan blijken te zijn als het op zichzelf wordt aangepakt (in plaats van naar andere LDM-gebaseerde architectuur te kijken in toekomstige systemen), vertegenwoordigt Strikte inversie een welkome incrementele verbetering in de stand van zaken.

Origineel gepubliceerd op vrijdag 28 februari 2025