Connect with us

Andersons vinkel

Forbedring av nøyaktigheten i AI-bildebehandling

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Selv om Adobe’s Firefly latent diffusjonsmodell (LDM) kan være en av de beste som for tiden er tilgjengelig, har Photoshop-brukere som har prøvd funksjonene til generering, lagt merke til at den ikke kan enkelt redigere eksisterende bilder – i stedet erstatter den helt brukerens valgte område med bildebasert på brukerens tekstprompt (selv om Firefly er dyktig til å integrere den resulterende genererte delen i bildets kontekst).

I den nåværende beta-versjonen kan Photoshop i det minste inkorporere et referansebilde som en delvis bildeprompt, som bringer Adobe’s flaggskipprodukt opp til funksjonaliteten som Stable Diffusion-brukere har nytt av i over to år, takket være tredjepartsrammeverk som Controlnet:

Den nåværende beta-versjonen av Adobe Photoshop tillater bruk av referansebilder når det genereres nytt innhold innenfor et utvalg – selv om det er en hit-and-miss affære for tiden.

Den nåværende beta-versjonen av Adobe Photoshop tillater bruk av referansebilder når det genereres nytt innhold innenfor et utvalg – selv om det er en hit-and-miss affære for tiden.

Dette illustrerer et åpent problem i bilde-synteseforskning – vanskeligheten diffusjonsmodellene har med å redigere eksisterende bilder uten å implementere en fullstendig ‘gjenskapelse’ av brukerens valgte område.

Selv om denne diffusjonsbaserte innfylling adlyder brukerens prompt, gjenskaper den helt kildebildens emne uten å ta den opprinnelige bildet i betraktning (bortsett fra å blande den nye genereringen med omgivelsene). Kilde: https://arxiv.org/pdf/2502.20376

Selv om denne diffusjonsbaserte innfylling adlyder brukerens prompt, gjenskaper den helt kildebildets emne uten å ta den opprinnelige bildet i betraktning (bortsett fra å blande den nye genereringen med omgivelsene). Kilde: https://arxiv.org/pdf/2502.20376

Dette problemet oppstår fordi LDM genererer bilder gjennom iterativ støyreduksjon, hvor hver fase i prosessen er betinget av tekstprompten som er gitt av brukeren. Med tekstpromptens innhold konvertert til innlemmings-token, og med en hyperskala-modell som Stable Diffusion eller Flux som inneholder hundredtusener (eller millioner) av nærmest matchende innlemminger relatert til prompten, har prosessen en beregnet betinget distribusjon å sikte mot; og hver fase som tas, er et skritt mot denne ‘betingede distribusjonsmålet’.

Så det er tekst-til-bilde – en scenario hvor brukeren ‘håper på det beste’, siden det ikke er noen måte å vite nøyaktig hva genereringen vil være som.

I stedet har mange søkt å bruke en LDMs kraftige genereringskapasitet til å redigere eksisterende bilder – men dette innebærer en balanseakt mellom trofasthet og fleksibilitet.

Når et bilde projiseres inn i modellens latente rom ved metoder som DDIM-inversjon, er målet å gjenopprette det opprinnelige så nært som mulig, samtidig som det fortsatt tillater meningsfulle redigeringer. Problemet er at jo mer nøyaktig et bilde rekonstrueres, jo mer modellen holder fast ved sin opprinnelige struktur, og gjør større endringer vanskelige.

I fellesskap med mange andre diffusjonsbaserte bilde-redigeringsrammeverk som er foreslått de siste årene, har Renoise-arkitekturen vanskeligheter med å gjøre noen virkelige endringer i bildets utseende, med bare en perfunctorisk indikasjon av en sløyfe som dukker opp ved kattens hals.

I fellesskap med mange andre diffusjonsbaserte bilde-redigeringsrammeverk som er foreslått de siste årene, har Renoise-arkitekturen vanskeligheter med å gjøre noen virkelige endringer i bildets utseende, med bare en perfunctorisk indikasjon av en sløyfe som dukker opp ved kattens hals.

På den andre siden, hvis prosessen prioriterer redigerbarhet, løsner modellen grepet sitt på det opprinnelige, og gjør det enklere å innføre endringer – men til en kostnad av samlet konsistens med kildebildet:

Oppdrag fullført – men det er en transformasjon snarere enn en justering, for de fleste AI-baserte bilde-redigeringsrammeverk.

Oppdrag fullført – men det er en transformasjon snarere enn en justering, for de fleste AI-baserte bilde-redigeringsrammeverk.

Siden det er et problem som selv Adobe’s betydelige ressurser sliter med å løse, kan vi rimelig betrakte at utfordringen er merkbart, og kan ikke tillate enkle løsninger, hvis noen.

Tight Inversjon

Derfor fanget eksemplene i en ny artikkel som ble utgitt denne uken min oppmerksomhet, da arbeidet tilbyr en verdifull og merkbart forbedring av den nåværende tilstanden i dette området, ved å vise seg i stand til å anvende subtile og raffinerte redigeringer av bilder projisert inn i modellens latente rom – uten at redigeringene enten er ubetydelige eller overveldende det opprinnelige innholdet i kildebildet:

Med Tight Inversjon anvendt på eksisterende inversjonsmetoder, blir kildeutvalget betraktet på en langt mer granulert måte, og transformasjonene konformerer seg til det opprinnelige materialet i stedet for å overskrive dem.

Med Tight Inversjon anvendt på eksisterende inversjonsmetoder, blir kildeutvalget betraktet på en langt mer granulert måte, og transformasjonene konformerer seg til det opprinnelige materialet i stedet for å overskrive det.

LDM-hobbyister og -praktikere kan kjenne igjen denne type resultat, da mye av det kan skapes i en kompleks arbeidsflyt med eksterne systemer som Controlnet og IP-Adapter.

I virkeligheten er den nye metoden – kalt Tight Inversjon – en metode som utnytter IP-Adapter, sammen med en dedikert modell for menneskelige avbildninger.

Fra den opprinnelige 2023 IP-Adapter-artikkelen, eksempler på å lage passende redigeringer av kildebildet. Kilde: https://arxiv.org/pdf/2308.06721

Fra den opprinnelige 2023 IP-Adapter-artikkelen, eksempler på å lage passende redigeringer av kildebildet. Kilde: https://arxiv.org/pdf/2308.06721

Det signifikante ved Tight Inversjon, er å ha prosedyrisert komplekse tekniker til en enkelt innbygging modus som kan anvendes på eksisterende systemer, inkludert mange av de mest populære LDM-distribusjonene.

Naturliig betyr dette at Tight Inversjon (TI), likesom de tilleggs-systemene det utnytter, bruker kildebildet som en betingelsesfaktor for sin egen redigerte versjon, i stedet for å bare basere seg på nøyaktige tekstprompts:

Flere eksempler på Tight Inversjons evne til å anvende sannt blandede redigeringer av kildebildet.

Flere eksempler på Tight Inversjons evne til å anvende sannt blandede redigeringer av kildebildet.

Selv om forfatterne innrømmer at deres tilnærming ikke er fri for den tradisjonelle og pågående spenningen mellom trofasthet og redigerbarhet i diffusjonsbaserte bilde-redigerings-teknikker, rapporterer de om en ledende resultater når de injiserer TI i eksisterende systemer, sammenlignet med baseline-ytelsen.

Det nye arbeidet er tittel Tight Inversjon: Bilde-betinget Inversjon for Sannt Bilde-redigering, og kommer fra fem forskere på Tel Aviv Universitet og Snap Research.

Metode

Initielt brukes en stor språkmodell (LLM) til å generere en mengde varierende tekstprompts fra hvilket et bilde genereres. Deretter anvendes den ovennevnte DDIM-inversjon på hvert bilde med tre tekstbetingelser: tekstprompten som ble brukt til å generere bildet; en forkortet versjon av samme; og en null (tom) prompt.

Med den inverse støyen returnert fra disse prosessene, genereres bildene igjen med samme betingelse, og uten klassifikator-fri veiledning (CFG).

DDIM-inversjons-poeng over forskjellige metrikk med varierende prompt-innstillinger.

DDIM-inversjons-poeng over forskjellige metrikk med varierende prompt-innstillinger.

Som vi kan se fra grafen ovenfor, er poengene over forskjellige metrikk forbedret med økt tekstlengde. Metrikkene som ble brukt var Peak Signal-til-Støy-Forhold (PSNR); L2-avstand; Strukturell Likhet-Indeks (SSIM); og Lært Perseptuell Bilde-Patch-Likhet (LPIPS).

Bilde-Bevisst

Effektivt endrer Tight Inversjon hvordan en vertsdiffusjonsmodell redigerer sannt bilder ved å betingelses-sette inversjonsprosessen på bildet selv i stedet for å bare basere seg på tekst.

Vanligvis krever inversjon av et bilde inn i en diffusjonsmodells støy-rom estimat av den start-støyen som, når den av-støyes, rekonstruerer inndata. Standardmetoder bruker en tekstprompt til å guide denne prosessen; men en ufullstendig prompt kan føre til feil, og tape detaljer eller endre strukturer.

Tight Inversjon bruker i stedet IP-Adapter til å mata visuell informasjon inn i modellen, så den rekonstruerer bildet med større nøyaktighet, konverterer kildebildene til betingelses-token, og projiserer dem inn i inversjons-pipeline.

Disse parameterne er redigerbare: økning av kildebildets innflytelse gjør rekonstruksjonen nesten perfekt, mens reduksjon tillater mer kreative endringer. Dette gjør Tight Inversjon nyttig for både subtile modifikasjoner, som å endre en skjorte-farge, eller mer betydelige redigeringer, som å bytte ut objekter – uten de vanlige bieffektene av andre inversjonsmetoder, som tap av fine detaljer eller uventede feil i bakgrunns-innholdet.

Forfatterne uttaler:

‘Vi bemerker at Tight Inversjon kan enkelt integreres med tidligere inversjonsmetoder (f.eks. Edit Friendly DDPM, ReNoise) ved [å bytte ut den native diffusjonskjerne med IP-Adapter-modellen], [og] Tight Inversjon forbedrer konsistent disse metodene i forhold til både rekonstruksjon og redigerbarhet.’

Data og Tester

Forskerne evaluerte TI på dens evne til å rekonstruere og redigere sannt verdens kildebilder. Alle eksperimenter brukte Stable Diffusion XL med en DDIM-scheduler som beskrevet i den opprinnelige Stable Diffusion-artikkelen; og alle tester brukte 50 av-støyings-steg ved en standard veilednings-skala på 7,5.

For bilde-betingelse ble IP-Adapter-plus sdxl vit-h brukt. For few-step-tester brukte forskerne SDXL-Turbo med en Euler-scheduler, og også utførte eksperimenter med FLUX.1-dev, betinget modellen i sistnevnte tilfelle på PuLID-Flux, ved å bruke RF-Inversjon på 28 steg.

PulID ble brukt utelukkende i tilfeller med menneskelige ansikter, siden dette er domenet som PulID ble trent til å håndtere – og selv om det er merkbart at et spesialisert under-system brukes for denne ene mulige prompt-typen, viser vår uforholdsmessige interesse for å generere menneskelige ansikter at å basere seg kun på de bredere vektene til en grunn-modell som Stable Diffusion, kan ikke være tilstrekkelig til standardene vi krever for denne bestemte oppgaven.

Rekonstruksjonstester ble utført for kvalitativ og kvantitativ evaluering. I bildet under ser vi kvalitative eksempler for DDIM-inversjon:

Kvalitative resultater for DDIM-inversjon. Hver rad viser et høyt detaljert bilde sammen med sine rekonstruerede versjoner, med hver fase som bruker progressivt mer presise betingelser under inversjon og av-støyning. Etterhvert som betingelsene blir mer nøyaktige, forbedres rekonstruksjonskvaliteten. Den høyre kolonnen demonstrerer de beste resultater, hvor det opprinnelige bildet selv brukes som betingelse, og oppnår den høyeste trofastheten. CFG ble ikke brukt på noen stadium. Vennligst se kilde-dokumentet for bedre oppløsning og detalj.

Kvalitative resultater for DDIM-inversjon. Hver rad viser et høyt detaljert bilde sammen med sine rekonstruerede versjoner, med hver fase som bruker progressivt mer presise betingelser under inversjon og av-støyning.

Forfatterne uttaler:

‘Disse eksemplene understreker at å betingelses-sette inversjonsprosessen på et bilde forbedrer rekonstruksjon i høyt detaljerte regioner.

‘Merkbart er at vår metode suksessfullt rekonstruerer tattooen på ryggen av den høyre bokseren. Videre er bokserens ben-stilling mer nøyaktig bevart, og tattooen på benet blir synlig.’

Flere kvalitative resultater for DDIM-inversjon. Beskrivende betingelser forbedrer DDIM-inversjon, med bilde-betingelse som overgår tekst, spesielt på komplekse bilder.

Flere kvalitative resultater for DDIM-inversjon. Beskrivende betingelser forbedrer DDIM-inversjon, med bilde-betingelse som overgår tekst, spesielt på komplekse bilder.

Forfatterne testet også Tight Inversjon som en innbygging modul for eksisterende systemer, og sammenlignet de modifiserte versjonene med deres baseline-ytelse.

De tre systemene som ble testet var den ovennevnte DDIM-inversjon og RF-inversjon; og også ReNoise, som deler noen forfattere med artikkelen under diskusjon her. Ettersom DDIM-resultatene ikke har noen vanskeligheter med å oppnå 100 % rekonstruksjon, fokuserte forskerne kun på redigerbarhet.

Venstre, kvalitative rekonstruksjonsresultater for Tight Inversjon med SDXL. Høyre, rekonstruksjon med Flux. Layouten av disse resultater i den publiserte artikkelen gjør det vanskelig å gjengi her, så vennligst se kilde-PDF for en sann representasjon av forskjellene oppnådd.

Venstre, kvalitative rekonstruksjonsresultater for Tight Inversjon med SDXL. Høyre, rekonstruksjon med Flux.

Her kommenterer forfatterne:

‘Som vist, integrerer Tight Inversjon konsistent med eksisterende metoder, og forbedrer rekonstruksjon. For [eksempel] vår metode rekonstruerer nøyaktig hånd-railen i det venstre eksempelet og mannen med blå skjorte i det høyre eksempelet [i figur 5 i artikkelen].’

Forfatterne testet også systemet kvantitativt. I linje med tidligere arbeider, brukte de valideringssettet av MS-COCO, og noterer at resultater (illustrert under) forbedrer rekonstruksjon over alle metrikk for alle metodene.

Sammenligning av metrikk for ytelse av systemene med og uten Tight Inversjon.

Sammenligning av metrikk for ytelse av systemene med og uten Tight Inversjon.

Deretter testet forfatterne systemets evne til å redigere bilder, og sammenlignet det med baseline-versjoner av tidligere tilnærminger prompt2prompt; Edit Friendly DDPM; LED-ITS++; og RF-Inversjon.

Vist under er en utvalg av artikkelen kvalitative resultater for SDXL og Flux (og vi henviser leseren til den ganske komprimerte layouten av den opprinnelige artikkelen for flere eksempler).

Utvalg fra de spredte kvalitative resultater (ganske forvirrende) spredt over artikkelen. Vi henviser leseren til kilde-PDF for bedre oppløsning og meningsfull klarhet.

Utvalg fra de spredte kvalitative resultater (ganske forvirrende) spredt over artikkelen.

Forfatterne hevder at Tight Inversjon konsistent overgår eksisterende inversjons-teknikker ved å slå en bedre balanse mellom rekonstruksjon og redigerbarhet. Standardmetoder som DDIM-inversjon og ReNoise kan gjenopprette et bilde godt, men artikkelen sier at de ofte sliter med å bevare fine detaljer når redigeringer anvendes.

Ved å utnytte bilde-betingelse,anker modellens utgang mer nær det opprinnelige, og forhindrer uønskede forvrengninger. Forfatterne hevder at selv når konkurranse-tilnærminger produserer rekonstruksjoner som ser ut nøyaktige, fører innføringen av redigeringer ofte til feil eller strukturelle inkonsistenser, og at Tight Inversjon mildner disse problemene.

Til slutt ble kvantitative resultater oppnådd ved å evaluere Tight Inversjon mot MagicBrush-benchmark, ved å bruke DDIM-inversjon og LEDITS++, målt med CLIP Sim.

Kvantitative sammenligninger av Tight Inversjon mot MagicBrush-benchmark.

Kvantitative sammenligninger av Tight Inversjon mot MagicBrush-benchmark.

Forfatterne konkluderer:

‘I begge grafene er avveien mellom bilde-bevarelse og tilpasning til mål-redigering tydelig [observert]. Tight Inversjon gir bedre kontroll over denne avveien, og bedre bevare det innledende bildet samtidig som det fortsatt tilpasser seg redigeringen [prompt]. ‘

‘Merkt at en CLIP-lignhet på over 0,3 mellom et bilde og en tekstprompt indikerer plausibel tilpasning mellom bildet og prompten.’

Konklusjon

Selv om det ikke representerer et ‘gjennombrudd’ i en av de tornete utfordringene i LDM-basert bilde-syntese, konsoliderer Tight Inversjon en rekke besværlige tilleggs-tilnærminger til en samlet metode for AI-basert bilde-redigering.

Selv om spenningen mellom redigerbarhet og trofasthet ikke er borte under denne metoden, er den merkbart redusert, ifølge resultater presentert. Da den sentrale utfordringen dette arbeidet adresserer, kan vise seg å være ultimate uovervinnelig hvis den håndteres på egne premisser (i stedet for å se bort fra LDM-baserte arkitekturer i fremtidige systemer), representerer Tight Inversjon en velkommen inkrementell forbedring av den nåværende tilstanden.

 

Publisert først fredag, 28. februar 2025

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.