Andersons vinkel

Förbättring av noggrannheten i AI-bildredigering

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Även om Adobes Firefly latent diffusionsmodell (LDM) är en av de bästa som för närvarande finns tillgänglig, har Photoshop-användare som har testat dess generativa funktioner märkt att den inte kan enkelt redigera befintliga bilder – istället ersätter den helt användarens valda område med bilder baserade på användarens textprompt (även om Firefly är skicklig på att integrera den resulterande genererade delen i bildens sammanhang).

I den nuvarande betaversionen kan Photoshop åtminstone inkorporera en referensbild som en delvis bildprompt, vilket får Adobes flaggskepp att nå samma funktionalitet som Stable Diffusion-användare har njutit av i över två år, tack vare tredjepartsramverk som Controlnet:

Den nuvarande betaversionen av Adobe Photoshop tillåter användning av referensbilder när generering av nytt innehåll inuti ett urval – även om det är en hit-or-miss-affär för närvarande.

Detta illustrerar ett öppet problem inom bildsyntesforskning – svårigheten som diffusionsmodeller har att redigera befintliga bilder utan att implementera en fullskalig “omföreställning” av användarens valda område.

Även om denna diffusionsbaserade inpaint följer användarens prompt, återskapar den helt källämnet utan att ta den ursprungliga bilden i beaktande (förutom genom att blanda den nya generationen med miljön). Källa: https://arxiv.org/pdf/2502.20376

Detta problem uppstår eftersom LDM genererar bilder genom iterativ brusreducering, där varje steg i processen är villkorat av den textprompt som tillhandahålls av användaren. Med textpromptinnehållet omvandlat till inbäddningstoken och med en hyperskalemodell som Stable Diffusion eller Flux som innehåller hundratusentals (eller miljoner) nästan matchande inbäddningar relaterade till prompten, har processen en beräknad villkorad fördelning att sträva efter; och varje steg som tas är ett steg mot denna “villkorade fördelningsmål”.

Så det är text till bild – ett scenario där användaren “hoppas på det bästa”, eftersom det inte finns något sätt att exakt veta vad generationen kommer att vara som.

Istället har många sökt att använda en LDM:s kraftfulla generativa kapacitet för att redigera befintliga bilder – men detta medför en balansgång mellan trohet och flexibilitet.

När en bild projiceras in i modellens latenta utrymme med metoder som DDIM-inversion, är målet att återställa originalet så nära som möjligt medan man fortfarande tillåter meningsfulla redigeringar. Problemet är att ju mer exakt en bild återges, desto mer följer modellen sin ursprungliga struktur, vilket gör stora ändringar svåra.

I likhet med många andra diffusionsbaserade bildredigeringsramverk som föreslagits under de senaste åren, har Renoise-arkitekturen svårt att göra någon verklig förändring av bildens utseende, med endast en perfunctorisk indikation av en fluga som syns vid basen av kattens hals.

Å andra sidan, om processen prioriterar redigerbarhet, lossar modellen sitt grepp om originalet, vilket gör det lättare att införa förändringar – men till priset av övergripande konsekvens med källbilden:

Uppdraget slutfört – men det är en transformation snarare än en justering, för de flesta AI-baserade bildredigeringsramverk.

Eftersom det är ett problem som till och med Adobes betydande resurser kämpar för att hantera, kan vi rimligen betrakta utmaningen som betydande och kanske inte tillåter lätta lösningar, om några.

Tight Inversion

Därför fick exemplen i en ny artikel som släpptes i veckan min uppmärksamhet, eftersom arbetet erbjuder en värdig och värt att notera förbättring av den nuvarande tillståndskonsten inom detta område, genom att visa sig kunna tillämpa subtila och raffinerade redigeringar på bilder projicerade in i den latenta utrymmet för en modell – utan att redigeringarna antingen är obetydliga eller överväldigar den ursprungliga innehållet i källbilden:

Med Tight Inversion tillämpad på befintliga inersionsmetoder, betraktas källurvalet på ett långt mer granulärt sätt, och transformationerna följer den ursprungliga materialet istället för att skriva över det.

LDM-hobbyister och praktiker kan känna igen sig i detta slags resultat, eftersom mycket av det kan skapas i en komplex arbetsflöde med hjälp av externa system som Controlnet och IP-Adapter.

I själva verket använder den nya metoden – som kallas Tight Inversion – faktiskt IP-Adapter, tillsammans med en dedikerad ansiktsbaserad modell, för mänskliga avbildningar.

Från den ursprungliga 2023 IP-Adapter-artikeln, exempel på att skapa lämpliga redigeringar av källmaterialet. Källa: https://arxiv.org/pdf/2308.06721

Tight Inversions signifikanta prestation är att ha proceduriserat komplexa tekniker till en enda drop-in-plugin-modality som kan tillämpas på befintliga system, inklusive många av de mest populära LDM-distributionerna.

Naturligtvis innebär detta att Tight Inversion (TI), likt de adjungerade system som den utnyttjar, använder källbilden som en villkorsfaktor för sin egen redigerade version, istället för att enbart förlita sig på precisa textprompt:

Ytterligare exempel på Tight Inversions förmåga att tillämpa riktigt blandade redigeringar på källmaterial.

Även om författarna medger att deras tillvägagångssätt inte är fritt från den traditionella och pågående spänningen mellan trohet och redigerbarhet i diffusionsbaserade bildredigeringsmetoder, rapporterar de om toppmoderna resultat när de injicerar TI i befintliga system, jämfört med baseline-prestanda.

Det nya arbetet heter Tight Inversion: Image-Conditioned Inversion for Real Image Editing och kommer från fem forskare på Tel Aviv University och Snap Research.

Metod

Initialt används en stor språkmodell (LLM) för att generera en uppsättning varierande textprompt från vilken en bild genereras. Sedan tillämpas den ovannämnda DDIM-inversionen på varje bild med tre textvillkor: textprompten som användes för att generera bilden; en förkortad version av samma; och en null (tom) prompt.

Med den invertade bruset som returneras från dessa processer, genereras bilderna igen med samma villkor, och utan klassificeringsfri vägledning (CFG).

DDIM-inversionspoäng över olika mått med varierande promptinställningar.

Som vi kan se från grafen ovan, förbättras poängen över olika mått med ökad textlängd. Måtten som användes var Peak Signal-to-Noise Ratio (PSNR); L2-avstånd; Structural Similarity Index (SSIM); och Learned Perceptual Image Patch Similarity (LPIPS).

Bildmedveten

Effektivt ändrar Tight Inversion hur en värdiffusionsmodell redigerar riktiga bilder genom att villkora inersionsprocessen på bilden själv snarare än att enbart förlita sig på text.

Vanligtvis kräver invertering av en bild in i en diffusionsmodells brusutrymme en uppskattning av den startbrus som, när den avbrusas, återställer indata. Standardmetoder använder en textprompt för att vägleda denna process; men en ofullständig prompt kan leda till fel, vilket förlorar detaljer eller ändrar strukturer.

Tight Inversion använder istället IP-Adapter för att mata in visuell information i modellen, så att den återställer bilden med större noggrannhet, omvandlar källbilderna till villkorstoken och projicerar dem in i inersionspipelinen.

Dessa parametrar är redigerbara: ökning av källbildens inflytande gör rekonstruktionen nästan perfekt, medan minskning tillåter mer kreativa förändringar. Detta gör Tight Inversion användbart för både subtila modifieringar, såsom att ändra en skjortfärg, eller mer betydande redigeringar, såsom att byta ut föremål – utan de vanliga bieffekterna av andra inersionsmetoder, såsom förlust av fina detaljer eller oväntade avvikelser i bakgrundsinnehållet.

Författarna påstår:

‘Vi noterar att Tight Inversion kan enkelt integreras med tidigare inersionsmetoder (t.ex. Edit Friendly DDPM, ReNoise) genom [att byta ut den naturliga diffusionskärnan för IP-Adapter-justerad modell], [och] Tight Inversion förbättrar konsekvent dessa metoder i termer av både rekonstruktion och redigerbarhet.’

Data och tester

Forskarna utvärderade TI på dess förmåga att återställa och redigera riktiga världbilder. Alla experiment använde Stable Diffusion XL med en DDIM-schemaläggare som beskrivs i den ursprungliga Stable Diffusion-artikeln; och alla tester använde 50 avbrusningssteg vid en standardvägledningsskala på 7,5.

För bildvillkor användes IP-Adapter-plus sdxl vit-h. För fåstegstester användes SDXL-Turbo med en Euler-schemaläggare, och även experiment med FLUX.1-dev, som villkorade modellen i det senare fallet på PuLID-Flux, med hjälp av RF-Inversion vid 28 steg.

PulID användes enbart i fall som innehöll mänskliga ansikten, eftersom detta är det område som PulID tränades för att hantera – och medan det är värt att notera att ett specialiserat undersystem används för denna ena möjliga prompttyp, tyder vår ovanliga intresse för att generera mänskliga ansikten på att förlita sig enbart på de breda viktorna av en grundmodell som Stable Diffusion kanske inte är tillräckligt för de standarder vi kräver för denna specifika uppgift.

Rekonstruktions tester utfördes för kvalitativ och kvantitativ utvärdering. I bilden nedan ser vi kvalitativa exempel för DDIM-inversion:

Kvalitativa resultat för DDIM-inversion. Varje rad visar en högdetaljerad bild bredvid dess rekonstruerade versioner, med varje steg som använder alltmer precisa villkor under inversion och avbrusning. Ju mer precisa villkoren blir, desto bättre blir rekonstruktionskvaliteten. Den högersta kolumnen visar de bästa resultaten, där den ursprungliga bilden själv används som villkor, vilket uppnår den högsta troheten. CFG användes inte i något skede. Vänligen se källdokumentet för bättre upplösning och detalj.

Artikeln påstår:

‘Dessa exempel belyser att villkorsinversionen av processen förbättrar rekonstruktionen avsevärt i högdetaljerade områden.

‘Notabelt, i det tredje exemplet [i bilden nedan], återställer vår metod framgångsrikt tatueringen på ryggen av den högra boxaren. Dessutom bevaras boxarens benställning mer exakt, och tatueringen på benet blir synlig.’

Ytterligare kvalitativa resultat för DDIM-inversion. Deskriptiva villkor förbättrar DDIM-inversion, med bildvillkor som överträffar text, särskilt på komplexa bilder.

Författarna testade också Tight Inversion som en drop-in-modul för befintliga system, och jämförde de modifierade versionerna med deras baseline-prestanda.

De tre system som testades var den ovannämnda DDIM-inversionen och RF-inversionen; och även ReNoise, som delar några författare med artikeln under diskussion här.

Författarna hävdar att Tight Inversion konsekvent överträffar befintliga inersionsmetoder genom att uppnå en bättre balans mellan rekonstruktion och redigerbarhet. Standardmetoder som DDIM-inversion och ReNoise kan återställa en bild väl, men artikeln påstår att de ofta kämpar för att bevara fina detaljer när redigeringar tillämpas.

Till skillnad från detta utnyttjar Tight Inversion bildvillkor för att fästa modellens utdata närmare originalet, och förhindrar därmed oönskade distorsioner. Författarna hävdar att även när konkurrerande metoder producerar rekonstruktioner som verkar korrekta, leder införandet av redigeringar ofta till artefakter eller strukturkonsekvenser, och att Tight Inversion mildrar dessa problem.

Slutligen erhölls kvantitativa resultat genom att utvärdera Tight Inversion mot MagicBrush-benchmarken, med DDIM-inversion och LEDITS++, mätt med CLIP Sim.

Kvantitativa jämförelser av Tight Inversion mot MagicBrush-benchmarken.

Författarna avslutar:

‘I båda graferna observeras den avvägning mellan bildbevarande och anpassning till målredigeringen. Tight Inversion erbjuder bättre kontroll över denna avvägning och bevarar bättre ingångsbilden samtidigt som den fortfarande anpassar sig till redigeringen [prompt].

‘Notera att en CLIP-likhet på över 0,3 mellan en bild och en textprompt indikerar en trovärdig anpassning mellan bilden och prompten.’

Slutsats

Även om det inte representerar ett “genombrott” i en av de törnigaste utmaningarna inom LDM-baserad bildsyntes, konsoliderar Tight Inversion ett antal betungande tillhörande tillvägagångssätt till en enhetlig metod för AI-baserad bildredigering.

Även om spänningen mellan redigerbarhet och trohet inte har försvunnit med denna metod, är den märkbart minskad, enligt de resultat som presenteras. Med tanke på att den centrala utmaning som detta arbete hanterar kan visa sig vara slutgiltigt olöslig om den hanteras på sina egna villkor (i stället för att se bortom LDM-baserade arkitekturer i framtida system), representerar Tight Inversion en välkommen inkrementell förbättring av tillståndskonsten.

Publicerad första gången fredag, 28 februari 2025