Connect with us

Kunstig intelligens

HD-Painter: Høyoppløst tekstveiledet bildeinpaining med diffusjonsmodeller

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Diffusjonsmodeller har uten tvil revolusjonert AI- og ML-industrien, med deres anvendelser i sanntid som en integrert del av våre daglige liv. Etter at tekst-til-bilde-modeller viste sine bemerkelsesverdige evner, oppstod diffusjonsbaserte bilde-manipulasjonsteknikker, som kontrollerbar generering, spesialisert og personlig bilde-syntese, objekt-nivå bilde-redigering, prompt-betingede variasjoner og redigering, som varme forskningsemner på grunn av deres anvendelser i datavisjonsindustrien.

Men, til tross for deres imponerende evner og eksepsjonelle resultater, tekst-til-bilde-rammeverk, spesielt tekst-til-bilde-inpaining-rammeverk, har fortsatt potensielle områder for utvikling. Disse inkluderer evnen til å forstå globale scener, spesielt når de støyer bildet i høye diffusjons-tidssteg. For å løse dette problemet, introduserte forskerne HD-Painter, et fullstendig trening-fritt rammeverk som nøyaktig følger prompt-instruksjoner og skalerer til høyoppløst bilde-inpaining sammenhengende. HD-Painter-rammeverket anvender en Prompt Aware Introverted Attention (PAIntA)-lag som utnytter prompt-informasjon til å forbedre selv-oppmerksomhetsskårer, noe som resulterer i bedre tekst-alignment-generering.

For å ytterligere forbedre sammenhengen av prompten, introduserer HD-Painter-modellen en Reweighting Attention Score Guidance (RASG)-tilnærming. Denne tilnærmingen integrerer en post-hoc-sampling-strategi i den generelle formen av DDIM-komponenten sammenhengende, og forhindrer latent-forflytninger utenfor distribusjonen. I tillegg har HD-Painter-rammeverket en spesialisert super-oppløsningsteknikk tilpasset inpaining, som gjør det mulig å utvide til større skalaer og fullføre manglende regioner i bildet med oppløsninger opptil 2K.

HD-Painter: Tekstveiledet bildeinpaining

Tekst-til-bilde-diffusjonsmodeller har faktisk vært et betydelig tema i AI- og ML-industrien de siste månedene, med modeller som demonstrerer imponerende sanntids-egenskaper over forskjellige praktiske anvendelser. Forhånds-trente tekst-til-bilde-genereringsmodeller som DALL-E, Imagen og Stable Diffusion har vist sin egnethet for bilde-fullføring ved å slå sammen støyde (genererte) ukjente regioner med diffuserte kjente regioner under den bakovergående diffusjonsprosessen. Til tross for å produsere visuelt tiltalende og veltilpassede utdata, strever eksisterende modeller med å forstå den globale scenen, spesielt under den høye diffusjons-tidssteg-støy-prosessen. Ved å modifisere forhånds-trente tekst-til-bilde-diffusjonsmodeller for å inkorporere ekstra kontekst-informasjon, kan de finjusteres for tekst-veiledet bilde-fullføring.

Videre, innenfor diffusjonsmodeller, er tekst-veiledet inpaining og tekst-veiledet bilde-fullføring viktige områder for forskere. Dette interessen er drevet av det faktum at tekst-veiledet inpaining-modeller kan generere innhold i bestemte regioner av et inndata-bilde basert på tekst-prompter, noe som fører til potensielle anvendelser som retusjering av bestemte bilde-regioner, modifisering av subjekt-egenskaper som farger eller klær, og tilføying eller erstattning av objekter. For å sammenfatte, tekst-til-bilde-diffusjonsmodeller har nylig oppnådd utenforliggende suksess, på grunn av deres eksepsjonelt realistiske og visuelt tiltalende genererings-egenskaper.

Men, en majoritet av eksisterende rammeverk demonstrerer prompt-fornekting i to scenarier. Det første er Bakgrunn-dominans når modellen fullfører den ukjente regionen ved å ignorere prompten i bakgrunnen, mens det andre scenariet er nær-objekt-dominans når modellen propagerer de kjente region-objektene til den ukjente regionen ved å bruke visuell kontekst-sannsynlighet i stedet for inndata-prompten. Det er en mulighet at begge disse problemene kan være et resultat av vanlig inpaining-diffusjons evne til å tolke den tekstuelle prompten nøyaktig eller blande den med kontekst-informasjonen fra den kjente regionen. 

For å takle disse hindringene, introduserer HD-Painter-rammeverket Prompt Aware Introverted Attention eller PAIntA-laget, som bruker prompt-informasjon til å forbedre selv-oppmerksomhetsskårer, noe som resulterer i bedre tekst-alignment-generering. PAIntA bruker den gitte tekstuelle betingelsen til å forbedre selv-oppmerksomhet-skårer med målet å redusere innvirkningen av ikke-prompt-relevant informasjon fra bilde-regionen, samtidig som den øker bidraget fra de kjente pikslene som er justert med prompten. For å ytterligere forbedre tekst-alignmenten av de genererte resultater, implementerer HD-Painter-rammeverket en post-hoc-guidance-metode som utnytter kryss-oppmerksomhetsskårer. Men, implementeringen av den vanlige post-hoc-guidance-mekanismen kan føre til latent-forflytninger utenfor distribusjonen som et resultat av den ekstra gradient-termen i diffusjons-ligningen. Den latent-forflytningen utenfor distribusjonen vil ultimate resultere i kvalitets-forverring av det genererte utgangspunktet. For å takle denne hindringen, implementerer HD-Painter-rammeverket en Reweighting Attention Score Guidance eller RASG, en metode som integrerer en post-hoc-sampling-strategi i den generelle formen av DDIM-komponenten sammenhengende. Den tillater rammeverket å generere visuelt plausibelt inpaining-resultater ved å guide prøven mot prompt-justerte latenter, og holde dem i deres trente domene.

Ved å deployere både RASH- og PAIntA-komponentene i sin arkitektur, har HD-Painter-rammeverket en betydelig fordel over eksisterende, inkludert state-of-the-art, inpaining- og tekst-til-bilde-diffusjonsmodeller, fordi det klarer å løse det eksisterende problemet med prompt-fornekting. I tillegg tilbyr både RASH- og PAIntA-komponentene plug-and-play-funksjonalitet, noe som gjør dem kompatible med diffusjons-baserte inpaining-modeller for å takle de nevnte utfordringene. Videre, ved å implementere en tid-iterativ blending-teknologi og ved å utnytte evnene til høyoppløst diffusjonsmodell, kan HD-Painter-pipeline operere effektivt for opptil 2K-oppløsning-inpaining. 

For å sammenfatte, HD-Painter har til hensikt å bidra i feltet på følgende måter:

  1. Det har til hensikt å løse prompt-fornektings-problemet med bakgrunn-dominans og nær-objekt-dominans som tekst-veiledet bilde-inpaining-rammeverk opplever, ved å implementere Prompt Aware Introverted Attention eller PAIntA-laget i sin arkitektur. 
  2. Det har til hensikt å forbedre tekst-alignmenten av utgangspunktet ved å implementere Reweighting Attention Score Guidance eller RASG-laget i sin arkitektur, som gjør det mulig for HD-Painter-rammeverket å utføre post-hoc-guidert sampling samtidig som det forhindrer latent-forflytninger utenfor distribusjonen. 
  3. For å designe en effektiv trening-fri tekst-veiledet bilde-fullførings-pipeline som kan overgå eksisterende state-of-the-art-rammeverk, og ved å bruke den enkle, men effektive inpaining-spesialiserte super-oppløsningsteknikken til å utføre tekst-veiledet bilde-inpaining opptil 2K-oppløsning. 

HD-Painter: Metode og Arkitektur

Før vi ser på arkitekturen, er det viktig å forstå de tre grunnleggende konseptene som danner grunnlaget for HD-Painter-rammeverket: Bilde-inpaining, Post-Hoc-Guidance i Diffusjons-rammeverk, og Inpaining-Spesifikke Arkitektur-Blokker. 

Bilde-inpaining er en tilnærming som har til hensikt å fylle de manglende regionene i et bilde, samtidig som den sikrer den visuelle tiltalende effekten av det genererte bildet. Tradisjonelle dypt-lærende rammeverk implementerte metoder som brukte kjente regioner til å propagerer dypt-funksjoner. Men, introduksjonen av diffusjonsmodeller har ført til utviklingen av inpaining-modeller, spesielt tekst-veiledet bilde-inpaining-rammeverk. Tradisjonelt erstatter en forhånds-trent tekst-til-bilde-diffusjonsmodell den umaskerte regionen av latenter med den støyde versjonen av den kjente regionen under sampling-prosessen. Selv om denne tilnærmingen fungerer til en viss grad, forverrer den kvaliteten av det genererte utgangspunktet betydelig, siden den støyde nettverket bare ser den støyde versjonen av den kjente regionen. For å takle denne hindringen, hadde noen tilnærminger til hensikt å finjustere den forhånds-trente tekst-til-bilde-modellen for å oppnå tekst-veiledet bilde-inpaining. Ved å implementere denne tilnærmingen, er rammeverket i stand til å generere en tilfeldig maske via konkatenering, siden modellen kan betingelse den støyde rammeverket på den umaskerte regionen. 

Videre, implementerte tradisjonelle dypt-lærende modeller spesialdesignede lag for effektiv inpaining, med noen rammeverk som kunne trekke ut informasjon effektivt og produsere visuelt tiltalende bilder ved å introdusere spesial-konvolusjonslag for å håndtere de kjente regionene av bildet. Noen rammeverk tilføyde sogar en kontekstuell oppmerksomhets-lag i sin arkitektur for å redusere de uønskede tunge komputasjonelle kravene til alle-til-alle-selv-oppmerksomhet for høykvalitets-inpaining. 

Til slutt, er post-hoc-guidance-metodene bakovergående diffusjons-sampling-metoder som guider den neste latent-prediksjonen mot en bestemt funksjons-minimerings-objekt. Post-hoc-guidance-metodene er av stor hjelp når det gjelder å generere visuelt innhold, spesielt i nærvær av ekstra begrensninger. Men, post-hoc-guidance-metodene har en betydelig ulempe: de er kjent for å føre til bilde-kvalitets-forverring, siden de tenderer å flytte den latente-genererings-prosessen med en gradient-terme. 

Kommer til arkitekturen av HD-Painter, formulerer rammeverket først tekst-veiledet bilde-fullførings-problemet, og introduserer deretter to diffusjonsmodeller, nemlig Stable Inpaining og Stable Diffusion. HD-Painter-modellen introduserer deretter PAIntA- og RASG-blokkene, og til slutt kommer vi til inpaining-spesifikke super-oppløsningsteknikken. 

Stable Diffusion og Stable Inpaining

Stable Diffusion er en diffusjonsmodell som opererer innenfor latens-rommet til en auto-encoder. For tekst-til-bilde-syntese, implementerer Stable Diffusion-rammeverket en tekstuell prompt for å guide prosessen. Guiding-funksjonen har en struktur lignende UNet-arkitekturen, og kryss-oppmerksomhets-lagene betingelse den på tekstuelle prompter. I tillegg kan Stable Diffusion-modellen utføre bilde-inpaining med noen modifikasjoner og finjusteringer. For å oppnå dette, konkateneres funksjonene av den maskerte bildet generert av encoderen med den nedskalerte binære masken til latenter. Den resulterende tensoren blir deretter input i UNet-arkitekturen for å oppnå den estimerte støyen. Rammeverket initialiserer deretter de nytt tilføyde konvolusjons-filtrene med null, mens resten av UNet initialiseres ved å bruke forhånds-trente sjekkpunkter fra Stable Diffusion-modellen. 

Den ovenstående figuren demonstrerer oversikten over HD-Painter-rammeverket, bestående av to stadier. I det første stadiet, implementerer HD-Painter-rammeverket tekst-veiledet bilde-maling, mens i det andre stadiet, inpainerer modellen bestemte super-oppløsninger av utgangspunktet. For å fylle de manglende regionene og være konsistent med inndata-prompten, tar modellen en forhånds-trent inpaining-diffusjonsmodell, erstatter selv-oppmerksomhets-lagene med PAIntA-lag, og implementerer RASG-mekanismen for å utføre en bakovergående diffusjons-prosess. Modellen dekoder deretter den endelige estimerte latent, noe som resulterer i et inpaintet bilde. HD-Painter implementerer deretter den stabile diffusjons-modellen for å inpainte det opprinnelige størrelse-bildet, og implementerer den bakovergående diffusjons-prosessen til Stable Diffusion-rammeverket, betinget på det lav-oppløsning-inndata-bildet. Modellen blander den støyde prediksjonen med den opprinnelige bildets encoding etter hver steg i den kjente regionen, og avleder den neste latent. Til slutt dekoder modellen latent og implementerer Poisson-blending for å unngå kant-arter. 

Prompt Aware Introverted Attention eller PAIntA

Eksisterende inpaining-modeller som Stable Inpaining tenderer til å være mer avhengige av den visuelle konteksten rundt inpaining-området og ignorere inndata-prompten. Basert på bruker-erfaringen, kan dette problemet kategoriseres i to klasser: nær-objekt-dominans og bakgrunn-dominans. Problemene med visuell kontekst-dominans over inndata-prompten kan være et resultat av den bare-romlige og prompt-frie naturen til selv-oppmerksomhets-lagene. For å takle dette problemet, introduserer HD-Painter-rammeverket Prompt Aware Introverted Attention eller PAIntA, som bruker kryss-oppmerksomhets-matriser og en inpaining-maske for å kontrollere utgangspunktet til selv-oppmerksomhets-lagene i den ukjente regionen. 

Prompt Aware Introverted Attention-komponenten anvender først projeksjons-lag for å få nøkler, verdier og spørsmål, samt likhets-matrisen. Modellen justerer deretter oppmerksomhets-skårer for de kjente pikslene for å mildne den sterke innvirkningen av den kjente regionen over den ukjente regionen, og definerer en ny likhets-matrise ved å utnytte den tekstuelle prompten. 

Reweighting Attention Score Guidance eller RASG

HD-Painter-rammeverket adopterer en post-hoc-sampling-guidance-metode for å forbedre genererings-alignmenten med tekstuelle prompter enda mer. Sammen med et objekt-funksjon, har post-hoc-sampling-guidance-tilnærmingen til hensikt å utnytte åpne-vokabular-segmenterings-egenskaper til kryss-oppmerksomhets-lagene. Men, denne tilnærmingen av vanlig post-hoc-guidance har potensialet til å flytte domenet til diffusjons-latent, noe som kan forverre kvaliteten av det genererte bildet. For å takle dette problemet, implementerer HD-Painter-modellen Reweighting Attention Score Guidance eller RASG-mekanismen, som introduserer en gradient-omveiings-mekanisme, noe som resulterer i latent-domen-bevaring. 

HD-Painter : Eksperimenter og Resultater

For å analysere dens ytelse, sammenlignes HD-Painter-rammeverket med nåværende state-of-the-art-modeller, inkludert Stable Inpaining, GLIDE og BLD eller Blended Latent Diffusion, over 10000 tilfeldige prøver hvor prompten er valgt som etiketten til den valgte instans-masken. 

Som det kan observeres, overgår HD-Painter-rammeverket eksisterende rammeverk på tre forskjellige metrikker med en betydelig margin, spesielt forbedringen på 1,5 poeng på CLIP-metrikken og forskjellen i generert nøyaktighets-score på ca. 10% fra andre state-of-the-art-metoder. 

Videre, demonstrerer den følgende figuren en kvalitativ sammenligning av HD-Painter-rammeverket med andre inpaining-rammeverk. Som det kan observeres, rekonstruerer andre baseline-modeller enten de manglende regionene i bildet som en fortsettelse av de kjente region-objektene, uten å ta hensyn til prompten, eller de genererer en bakgrunn. På den andre siden, er HD-Painter-rammeverket i stand til å generere mål-objektene suksessfullt, takket være implementeringen av PAIntA- og RASG-komponentene i sin arkitektur. 

Slutt-tanker

I denne artikkelen, har vi talt om HD-Painter, en trening-fri tekst-veiledet høyoppløst inpaining-tilnærming som takler utfordringene som eksisterende inpaining-rammeverk opplever, inkludert prompt-fornekting og nær-objekt-dominans. HD-Painter-rammeverket implementerer en Prompt Aware Introverted Attention eller PAIntA-lag, som bruker prompt-informasjon til å forbedre selv-oppmerksomhets-skårer, noe som resulterer i bedre tekst-alignment-generering. 

For å forbedre sammenhengen av prompten enda mer, introduserer HD-Painter-modellen en Reweighting Attention Score Guidance eller RASG-tilnærming, som integrerer en post-hoc-sampling-strategi i den generelle formen av DDIM-komponenten sammenhengende, for å forhindre latent-forflytninger utenfor distribusjonen. I tillegg introduserer HD-Painter-rammeverket en spesialisert super-oppløsningsteknikk tilpasset inpaining, noe som resulterer i utvidelse til større skalaer, og tillater HD-Painter-rammeverket å fullføre de manglende regionene i bildet med oppløsninger opptil 2K.

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.