Andersons vinkel
Forbedring af nøjagtigheden af AI-billede-redigering

Selvom Adobes Firefly latent diffusion model (LDM) kan siges at være en af de bedste, der i øjeblikket er tilgængelige, vil Photoshop-brugere, der har prøvet dens generative funktioner, have lagt mærke til, at den ikke kan redigere eksisterende billeder let – i stedet erstatter den helt brugerens valgte område med billeder baseret på brugerens tekstprompt (selvom Firefly er dygtig til at integrere den resulterende genererede sektion i billedets kontekst).
I den nuværende beta-version kan Photoshop i hvert fald inkorporere et referencebillede som en delvis billedprompt, hvilket bringer Adobes flagskibprodukt op på niveau med den type funktionalitet, som Stable Diffusion-brugere har nydt godt af i over to år, takket være tredjepartsframeworks som Controlnet:

Den nuværende beta af Adobe Photoshop tillader brugen af referencebilleder, når der genereres nye indhold inden for en markering – selvom det er en hit-or-miss-sag i øjeblikket.
Dette illustrerer et åbent problem i billedsyntheseforskning – den svigt, der opstår, når diffusionmodeller har svigt at redigere eksisterende billeder uden at implementere en fuldstændig ‘genforestilling’ af den markering, der er angivet af brugeren.

Selvom denne diffusion-baserede inpaint adlyder brugerens prompt, genopfinder den helt kildebilledets emne uden at tage det originale billede i betragtning (bortset fra ved at blande den nye generation med omgivelserne). Kilde: https://arxiv.org/pdf/2502.20376
Dette problem opstår, fordi LDM genererer billeder gennem iterativ støjreducering, hvor hver fase af processen er betinget af den tekstprompt, der er leveret af brugeren. Med tekstpromptindholdet konverteret til embedding-tokens, og med en hyperskala-model som Stable Diffusion eller Flux, der indeholder hundredtusinder (eller millioner) af nært matchende embeddings i forhold til prompten, har processen en beregnet betinget distribution at sigte mod; og hver fase, der tages, er et skridt mod denne ‘betingede distributionsmål’.
Så det er tekst til billede – en scenarie, hvor brugeren ‘håber på det bedste’, da der ikke er noget, der kan sige nøjagtigt, hvordan generationen vil være.
I stedet har mange søgt at bruge en LDMs kraftige generative kapacitet til at redigere eksisterende billeder – men dette indebærer en balanceakt mellem trofasthed og fleksibilitet.
Når et billede projiceres ind i modellens latente rum ved metoder som DDIM-inversion, er målet at genskabe det originale så nøjagtigt som muligt, samtidig med at det stadig tillader meningsfulde redigeringer. Problemet er, at jo mere præcis et billede genskabes, jo mere holder modellen fast i sin originale struktur, hvilket gør større ændringer svære.

I fællesskab med mange andre diffusion-baserede billedredigeringsframeworks, der er foreslået i de seneste år, har Renoise-arkitekturen svigt at foretage nogen ændring i billedets udseende, med kun en perfunctorisk indication af en butterfly, der viser sig ved katteens hals.
På den anden side, hvis processen prioriterer redigering, løsner modellen sit greb om det originale, hvilket gør det lettere at introducere ændringer – men til en pris af samlet konsistens med kildebilledet:

Mission accomplished – men det er en transformation snarere end en justering for de fleste AI-baserede billedredigeringsframeworks.
Da det er et problem, som selv Adobes betydelige ressourcer kæmper med at løse, kan vi rimeligt overveje, at udfordringen er bemærkelsesværdig og måske ikke tillader lette løsninger, hvis nogen.
Tight Inversion
Derfor fik eksemplerne i en ny artikel, der udkom denne uge, min opmærksomhed, da arbejdet tilbyder en værdig og bemærkelsesværdig forbedring af den nuværende tilstand af kunst i dette område, ved at bevise, at det kan anvende subtile og raffinerede redigeringer til billeder, der er projiceret ind i et modells latente rum – uden at redigeringerne enten er ubetydelige eller overvælder det originale indhold i kildebilledet:

Med Tight Inversion anvendt på eksisterende inversionsmetoder, overvejes kildevalget på en langt mere granuleret måde, og transformationerne overensstemmer med det originale materiale i stedet for at overskrive det.
LDM-hobbyister og -praktikere kan genkende denne type resultat, da meget af det kan skabes i en kompleks arbejdsgang ved hjælp af eksterne systemer som Controlnet og IP-Adapter.
I virkeligheden er den nye metode – kaldet Tight Inversion – udnytter IP-Adapter, sammen med en dedikeret face-baseret model, til menneskelige skildringer.

Fra den originale 2023 IP-Adapter-artikel, eksempler på at skabe passende redigeringer af kildematerialet. Kilde: https://arxiv.org/pdf/2308.06721
Den signifikante præstation af Tight Inversion er altså at have proceduraliseret komplekse teknikker til en enkelt drop-in plug-in modalitet, der kan anvendes på eksisterende systemer, herunder mange af de mest populære LDM-distributioner.
Naturligt betyder dette, at Tight Inversion (TI), ligesom de tilhørende systemer, som det udnytter, bruger kildebilledet som en betingende faktor for sin egen redigerede version, i stedet for kun at afhænge af nøjagtige tekstprompt:

Yderligere eksempler på Tight Inversions evne til at anvende sandt blandede redigeringer til kildemateriale.
Selvom forfatterne indrømmer, at deres tilgang ikke er fri for den traditionelle og fortsatte spænding mellem trofasthed og redigering i diffusion-baserede billedredigeringsmetoder, rapporterer de om kunstens tilstand, når de injicere TI i eksisterende systemer, vs. baseline-præstationen.
Det nye arbejde er titlen Tight Inversion: Image-Conditioned Inversion for Real Image Editing, og kommer fra fem forskere på tværs af Tel Aviv Universitet og Snap Research.
Metode
Initialt bruges et stort sprogmodel (LLM) til at generere en række varierede tekstprompt fra hvilket et billede genereres. Derefter anvendes den ovennævnte DDIM-inversion på hvert billede med tre tekstbetingelser: den tekstprompt, der blev brugt til at generere billedet; en forkortet version af den samme; og en tom (tom) prompt.
Med den inverse støj, der returneres fra disse processer, genereres billederne igen med samme betingelse, og uden klassifikator-fri vejledning (CFG).

DDIM-inversionskorer over forskellige metrikker med varierende prompt-indstillinger.
Som vi kan se fra grafen ovenfor, er skorerne over forskellige metrikker forbedret med øget tekstlængde. De metrikker, der blev brugt, var Peak Signal-to-Noise Ratio (PSNR); L2-afstand; Structural Similarity Index (SSIM); og Learned Perceptual Image Patch Similarity (LPIPS).
Billede-bevidst
Effektivt ændrer Tight Inversion, hvordan en vært-diffusionsmodel redigerer virkelige billeder ved at betinge inversionsprocessen på billedet selv i stedet for kun at afhænge af tekst.
Normalt kræver inversering af et billede ind i en diffusionsmodells støjrum en estimering af den startstøj, der, når den afstøjes, genskaber input. Standardmetoder bruger en tekstprompt til at guide denne proces; men en uperfet prompt kan føre til fejl, tab af detaljer eller ændring af strukturer.
Tight Inversion bruger i stedet IP-Adapter til at føre visuel information ind i modellen, så den genskaber billedet med større nøjagtighed, konverterer kildebillederne til betingede tokens og projicerer dem ind i inversionsrøret.
Disse parametre er redigérbar: øgning af kildebilledets indflydelse gør genskabningen næsten perfekt, mens reduktion af den tillader mere kreative ændringer. Dette gør Tight Inversion nyttig både til subtile ændringer, såsom ændring af skjortefarve, eller mere betydelige redigeringer, såsom udskiftning af objekter – uden de almindelige bivirkninger af andre inversionsmetoder, såsom tab af fine detaljer eller uventede afvigelser i baggrundens indhold.
Forfatterne skriver:
‘Vi bemærker, at Tight Inversion kan integreres let med tidligere inversionsmetoder (f.eks. Edit Friendly DDPM, ReNoise) ved [at erstatte den native diffusionskerne med IP-Adapter-ændret model], [og] Tight Inversion forbedrer konsekvent disse metoder i forhold til både rekonstruktion og redigering.’
Data og tests
Forskerne evaluerede TI på dets evne til at genskabe og redigere virkelige verdens kildebilleder. Alle eksperimenter brugte Stable Diffusion XL med en DDIM-scheduler, som beskrevet i den originale Stable Diffusion-artikel; og alle tests brugte 50 afstøjningsstadier med en standard vejledningsskala på 7,5.
Til billedbetingelse brugte de IP-Adapter-plus sdxl vit-h. Til few-step-tests brugte de SDXL-Turbo med en Euler-scheduler, og de udførte også eksperimenter med FLUX.1-dev, hvor de betinged modellen i sidstnævnte tilfælde på PuLID-Flux, ved hjælp af RF-Inversion på 28 trin.
PulID blev kun brugt i tilfælde, der omfattede menneskeansigter, da dette er det domæne, som PulID er trænet til at håndtere – og selvom det er bemærkelsesværdigt, at et specialiseret undersystem bruges til denne ene mulige prompt-type, viser vores uforholdsmæssige interesse for at generere menneskeansigter, at afhængighed af kun de bredere vægte af en grundmodel som Stable Diffusion måske ikke er tilstrækkeligt til de standarder, vi kræver for denne bestemte opgave.
Rekonstruktions-tests blev udført til kvalitativ og kvantitativ evaluering. I billedet nedenfor ser vi kvalitative eksempler for DDIM-inversion:

Kvalitative resultater for DDIM-inversion. Hver række viser et højtdetaljeret billede sammen med dets genskabte versioner, hvor hver fase bruger progressivt mere præcise betingelser under inversion og afstøjning. Som betingelsen bliver mere nøjagtig, forbedres genskabningskvaliteten. Den højre kolonne demonstrerer de bedste resultater, hvor det originale billede selv bruges som betingelse, og opnår den højeste trofasthed. CFG blev ikke brugt på noget tidspunkt. Venligst se den oprindelige dokumentation for bedre opløsning og detaljer.
Artiklen skriver:
‘Disse eksempler fremhæver, at betingelse af inversionsprocessen på et billede betydeligt forbedrer genskabning i højtdetaljerede områder.
‘Bemærkelsesværdigt, i det tredje eksempel på [billedet nedenfor], genskaber vores metode med succes tatoveringen på ryggen af den højre bokser. Desuden er boksens benstilling mere præcis bevaret, og tatoveringen på benet bliver synlig.’

Yderligere kvalitative resultater for DDIM-inversion. Beskrivende betingelser forbedrer DDIM-inversion, med billedbetingelse, der overgår tekst, især på komplekse billeder.
Forfatterne testede også Tight Inversion som en drop-in-modul for eksisterende systemer, hvor de satte de modificerede versioner op imod deres baseline-præstation.
De tre systemer, der blev testet, var den ovennævnte DDIM-Inversion og RF-Inversion; og også ReNoise, som deler nogen forfattere med artiklen under diskussion her. Da DDIM-resultater ikke har svigt ved at opnå 100% genskabning, fokuserede forskerne kun på redigering.
(De kvalitative resultater er formateret på en måde, der er svær at reproducere her, så vi henviser læseren til den oprindelige PDF for bedre opløsning og meningsfuld klarhed)

Venstre, kvalitative rekonstruktionsresultater for Tight Inversion med SDXL. Højre, rekonstruktion med Flux. Layoutet af disse resultater i den publicerede artikel gør det svært at reproducere her, så venligst se den oprindelige PDF for en sand fornemmelse af forskellene, der opnås.
Her kommenterer forfatterne:
‘Som vist, integrerer Tight Inversion konsekvent med eksisterende metoder og forbedrer rekonstruktion. For [eksempel], vores metode genskaber med præcision håndrækket i det venstre eksempel og manden med den blå skjorte i det højre eksempel [i figur 5 i artiklen].’
Forfatterne testede også systemet kvantitativt. I overensstemmelse med tidligere arbejder brugte de valideringsmængden af MS-COCO, og bemærker, at resultaterne (illustreret nedenfor) forbedrede rekonstruktion over alle metrikker for alle metoderne.

Sammenligning af metrikker for systemernes præstation med og uden Tight Inversion.
Derefter testede forfatterne systemets evne til at redigere billeder, hvor de satte det op imod baseline-versioner af tidligere tilgange prompt2prompt; Edit Friendly DDPM; LED-ITS++; og RF-Inversion.
Visninger nedenfor er et udvalg af artiklens kvalitative resultater for SDXL og Flux (og vi henviser læseren til den noget komprimerede layout af den oprindelige artikel for yderligere eksempler).

Udvalg af de udbredte kvalitative resultater (noget forvirrende) spredt over artiklen. Vi henviser læseren til den oprindelige PDF for bedre opløsning og meningsfuld klarhed.
Forfatterne påstår, at Tight Inversion konsekvent overgår eksisterende inversionsmetoder ved at finde en bedre balance mellem rekonstruktion og redigering. Standardmetoder som DDIM-inversion og ReNoise kan genskabe et billede godt, men artiklen påstår, at de ofte kæmper med at bevare fine detaljer, når redigeringer anvendes.
Tight Inversion udnytter i stedet billedbetingelse til at fastgøre modellens output mere tæt til det originale, og forhindrer uønskede forvrængninger. Forfatterne påstår, at selv når konkurrerende tilgange producerer rekonstruktioner, der ser nøjagtige ud, fører introduktionen af redigeringer ofte til artefakter eller strukturelle inkonsistenser, og at Tight Inversion mildner disse problemer.
Til sidst fik kvantitative resultater ved at evaluere Tight Inversion mod MagicBrush-benchmarket, ved hjælp af DDIM-inversion og LEDITS++, målt med CLIP Sim.

Kvantitative sammenligninger af Tight Inversion mod MagicBrush-benchmarket.
Forfatterne konkluderer:
‘I begge grafer er kompromisset mellem billedbevarelse og overensstemmelse med mål-redigeringen tydeligt [observerbart]. Tight Inversion giver bedre kontrol over dette kompromis og bevareler bedre inputbilledet, samtidig med at det stadig er i overensstemmelse med redigeringen [prompt]. ‘
‘Bemærk, at en CLIP-lighed på over 0,3 mellem et billede og en tekstprompt indikerer en plausibel overensstemmelse mellem billedet og prompten.’
Konklusion
Selvom det ikke repræsenterer et ‘gennembrud’ i en af de torneste udfordringer i LDM-baseret billedsynthese, konsoliderer Tight Inversion en række besværlige tilhørende tilgange til en samlet metode til AI-baseret billedredigering.
Selvom spændingen mellem redigering og trofasthed ikke er væk under denne metode, er den dog bemærkelsesværdigt reduceret, ifølge resultaterne, der præsenteres. Da den centrale udfordring, dette arbejde adresserer, måske vil vise sig at være ultimativt uovervindelig, hvis den håndteres på sine egne betingelser (i stedet for at se beyond LDM-baserede arkitekturer i fremtidige systemer), repræsenterer Tight Inversion en velkommen inkrementel forbedring af kunstens tilstand.
Først publiceret fredag, 28. februar 2025












