Kunstig intelligens

HD-Painter: Høyoppløst tekststyrt bildeinpainting med diffusjonsmodeller

Publisert 13. februar 2024

Oppdatert 22. mai 2026

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Diffusjonsmodeller har uten tvil revolusjonert AI- og ML-industrien, med deres anvendelser i sanntid som en integrert del av våre daglige liv. Etter at tekst-til-bilde-modeller viste sine bemerkelsesverdige evner, oppstod diffusjonsbasert bilde-manipulasjonsteknikker, som kontrollerbar generering, spesialisert og personlig bilde-syntese, objekt-nivå bilde-redigering, prompt-kondisjonerte variasjoner og redigering, som varme forsknings-emner på grunn av deres anvendelser i datavisjons-industrien.

Likevel, til tross for deres imponerende evner og usedvanlige resultater, tekst-til-bilde-rammeverk, spesielt tekst-til-bilde-inpainting-rammeverk, har fortsatt potensielle utviklingsområder. Disse inkluderer evnen til å forstå globale scener, spesielt når støy-reduksjonen av bildet i høye diffusjons-tidssteg. For å løse dette problemet, introduserte forskerne HD-Painter, et fullstendig trening-fritt rammeverk som nøyaktig følger prompt-instruksjoner og skalerer til høyoppløst bilde-inpainting sammenhengende. HD-Painter-rammeverket anvender en Prompt Aware Introverted Attention (PAIntA)-lag, som utnytter prompt-informasjon til å forbedre selv-oppmerksomhet-scorene, noe som resulterer i bedre tekst-alignment-generering.

For å ytterligere forbedre sammenhengen av prompten, introduserer HD-Painter-modellen en Reweighting Attention Score Guidance (RASG)-tilnærming. Denne tilnærmingen integrerer en post-hoc-sampling-strategi i den generelle formen av DDIM-komponenten sammenhengende, og forhindrer ut-av-distribusjon-latent-skift. I tillegg har HD-Painter-rammeverket en spesialisert super-oppløsningsteknikk tilpasset for inpainting, som tillater det å utvide til større skalaer og fullføre manglende regioner i bildet med oppløsninger opptil 2K.

HD-Painter: Tekst-styrt bilde-inpainting

Tekst-til-bilde-diffusjonsmodeller har faktisk vært et betydelig tema i AI- og ML-industrien i de siste månedene, med modeller som demonstrerer imponerende sanntids-kapasiteter over ulike praktiske anvendelser. Forhånds-trente tekst-til-bilde-genereringsmodeller som DALL-E, Imagen og Stable Diffusion har vist sin egnethet for bilde-fullføring ved å slå sammen støy-reduksjon (generert) ukjente regioner med diffusjonelle kjente regioner under den bakovergående diffusjonsprosessen. Til tross for å produsere visuelt tiltalende og velsammenhengende utdata, har eksisterende modeller vanskeligheter med å forstå den globale scenen, spesielt under den høye diffusjons-tidssteg-støy-reduksjonsprosessen. Ved å modifisere forhånds-trente tekst-til-bilde-diffusjonsmodeller til å inkorporere ekstra kontekst-informasjon, kan de bli finjustert for tekst-styrt bilde-fullføring.

Videre, innenfor diffusjonsmodeller, er tekst-styrt inpainting og tekst-styrt bilde-fullføring viktige områder for forskere. Dette interessen er drevet av det faktum at tekst-styrt inpainting-modeller kan generere innhold i bestemte regioner av et inndata-bilde basert på tekst-prompter, noe som kan føre til potensielle anvendelser som retusjering av bestemte bilde-regioner, modifisering av subjekt-egenskaper som farger eller klær, og tilføying eller erstattning av objekter. I sammenfatning, har tekst-til-bilde-diffusjonsmodeller nylig oppnådd utenforliggende suksess, takket være deres usedvanlig realistiske og visuelt tiltalende genererings-kapasiteter.

Likevel, en majoritet av eksisterende rammeverk demonstrerer prompt-fornekting i to scenarier. Det første er Bakgrunn-dominans når modellen fullfører den ukjente regionen ved å ignorere prompten i bakgrunnen, mens det andre scenariet er nær-objekt-dominans når modellen propagerer de kjente region-objektene til den ukjente regionen ved å bruke visuell kontekst-sannsynlighet i stedet for inndata-prompten. Det er en mulighet at begge disse problemene kan være et resultat av vanlig inpainting-diffusjons evne til å tolke den tekstuelle prompten nøyaktig eller blande den med kontekst-informasjonen fra den kjente regionen.

For å løse disse hindringene, introduserer HD-Painter-rammeverket Prompt Aware Introverted Attention eller PAIntA-laget, som bruker prompt-informasjon til å forbedre selv-oppmerksomhet-scorene, noe som resulterer i bedre tekst-alignment-generering. PAIntA bruker den gitte tekstuelle betingelse til å forbedre selv-oppmerksomheten med målet å redusere innflytelsen av ikke-prompt-relevant informasjon fra bilde-regionen, mens den samtidig øker bidraget fra de kjente pikslene som er alignert med prompten. For å ytterligere forbedre tekst-alignmenten av de genererte resultater, implementerer HD-Painter-rammeverket en post-hoc-guidance-metode som utnytter kryss-oppmerksomhet-scorene. Likevel, implementeringen av den vanlige post-hoc-guidance-mekanismen kan føre til ut-av-distribusjon-skift som et resultat av den ekstra gradient-termen i diffusjons-ligningen. Ut-av-distribusjon-skiftet vil til slutt føre til kvalitets-degradering av den genererte utdata. For å løse dette problemet, implementerer HD-Painter-rammeverket Reweighting Attention Score Guidance eller RASG-mekanismen, som introduserer en gradient-omveiings-mekanisme som resulterer i latent-domen-bevaring.

Ved å deployere både RASH- og PAIntA-komponentene i sin arkitektur, har HD-Painter-rammeverket en betydelig fordel over eksisterende, inkludert state-of-the-art, inpainting- og tekst-til-bilde-diffusjonsmodeller, fordi det klarer å løse det eksisterende problemet med prompt-fornekting. I tillegg tilbyr både RASH- og PAIntA-komponentene plug-and-play-funksjonalitet, noe som gjør dem kompatible med diffusjons-basert inpainting-modeller for å løse de nevnte utfordringene. Videre, ved å implementere en tid-iterativ blandingsteknologi og ved å utnytte kapasitetene til høyoppløst diffusjonsmodell, kan HD-Painter-pipeline operere effektivt for opptil 2K-oppløsning-inpainting.

For å sammenfatte, har HD-Painter til hensikt å bidra med følgende i feltet:

Det har til hensikt å løse prompt-fornektings-problemet til bakgrunnen og nære-objekt-dominans som tekst-styrt bilde-inpainting-rammeverk erfaringer ved å implementere Prompt Aware Introverted Attention eller PAIntA-laget i sin arkitektur.
Det har til hensikt å forbedre tekst-alignmenten av utdata ved å implementere Reweighting Attention Score Guidance eller RASG-laget i sin arkitektur, som gjør det mulig for HD-Painter-rammeverket å utføre post-hoc-guidert sampling mens det forhindrer ut-av-distribusjon-skift.
Det har til hensikt å designe en effektiv trening-fri tekst-styrt bilde-fullføring-pipeline som kan overgå eksisterende state-of-the-art-rammeverk, og som bruker den enkle, men effektive inpainting-spesialiserte super-oppløsning-rammeverket for å utføre tekst-styrt bilde-inpainting opptil 2K-oppløsning.

HD-Painter: Metode og Arkitektur

Før vi ser på arkitekturen, er det viktig å forstå de tre grunnleggende konseptene som danner grunnlaget for HD-Painter-rammeverket: Bilde-inpainting, Post-Hoc-Guidance i Diffusjons-rammeverk, og Inpainting-Spesifikke Arkitektur-Blokker.

Bilde-inpainting er en tilnærming som har til hensikt å fylle de manglende regionene i et bilde mens den sikrer den visuelle tiltalende genererte bildet. Tradisjonelle dyptelæring-rammeverk implementerte metoder som brukte kjente regioner til å propagerer dypt-funksjoner. Likevel, introduksjonen av diffusjonsmodeller har ført til utviklingen av inpainting-modeller, spesielt tekst-styrt bilde-inpainting-rammeverk. Tradisjonelt erstatter en forhånds-trent tekst-til-bilde-diffusjonsmodell den umaskerte regionen av latenten ved å bruke den støy-reduksjonerte versjonen av den kjente regionen under sampling-prosessen. Selv om denne tilnærmingen fungerer til en viss grad, degraderer den kvaliteten på den genererte utdata betydelig, siden den støy-reduksjonelle nettverket bare ser den støy-reduksjonerte versjonen av den kjente regionen. For å løse denne hindringen, har noen tilnærminger til hensikt å finjustere den forhånds-trente tekst-til-bilde-modellen for å oppnå tekst-styrt bilde-inpainting. Ved å implementere denne tilnærmingen, kan rammeverket generere en tilfeldig maske via konkatenering, siden modellen kan kondisjonere den støy-reduksjonelle rammeverket på den umaskerte regionen.

Videre, innenfor diffusjonsmodeller, er post-hoc-guidance-metoder bakover-diffusjons-sampling-metoder som guider den neste latent-prediksjonen mot en bestemt funksjon-minimering-objekt. Post-hoc-guidance-metoder er av stor hjelp når det gjelder å generere visuelt innhold, spesielt i nærvær av ekstra begrensninger. Likevel, har post-hoc-guidance-metodene en betydelig ulempe: de er kjent for å føre til bilde-kvalitets-degradering, siden de tenderer til å skifte den latente-genererings-prosessen med en gradient-terme.

Kommende til arkitekturen av HD-Painter, formulerer rammeverket først tekst-styrt bilde-fullføring-problemet, og introduserer to diffusjonsmodeller, nemlig Stable Inpainting og Stable Diffusion. HD-Painter-modellen introduserer deretter PAIntA- og RASG-blokkene, og til slutt kommer vi til inpainting-spesifikke super-oppløsningsteknikken.

Stable Diffusion og Stable Inpainting

Stable Diffusion er en diffusjonsmodell som opererer innenfor latent-rommet til en auto-encoder. For tekst-til-bilde-syntese, implementerer Stable Diffusion-rammeverket en tekstuell prompt til å guide prosessen. Guiding-funksjonen har en struktur lignende UNet-arkitekturen, og kryss-oppmerksomhets-lagene konditionerer den på tekstuelle prompter. Videre, kan Stable Diffusion-modellen utføre bilde-inpainting med noen modifikasjoner og finjusteringer. For å oppnå dette, konkateneres funksjonene av den maskerte bildet generert av encoderen med den nedskalerte binære masken til latentene. Den resulterende tensoren blir deretter input i UNet-arkitekturen for å få estimert støy. Rammeverket initialiserer deretter de nytt tilføyde konvolusjons-filterne med null, mens resten av UNet initialiseres ved hjelp av forhånds-trente kontrollpunkter fra Stable Diffusion-modellen.

Den ovenstående figuren demonstrerer oversikten over HD-Painter-rammeverket, som består av to stadier. I det første stadiet, implementerer HD-Painter-rammeverket tekst-styrt bilde-maling, mens i det andre stadiet, inpainterer modellen spesifikke super-oppløsninger av utdata. For å fylle de manglende regionene og for å forbli konsistent med inndata-prompten, tar modellen en forhånds-trent inpainting-diffusjonsmodell, erstatter selv-oppmerksomhets-lagene med PAIntA-lag, og implementerer RASG-mekanismen for å utføre en bakover-diffusjons-prosess. Modellen dekoder deretter den endelige estimerte latenten, noe som resulterer i et inpaintet bilde. HD-Painter implementerer deretter super-stabil diffusjonsmodellen for å inpainte det opprinnelige størrelse-bildet, og implementerer diffusjons-bakover-prosessen til Stable Diffusion-rammeverket, kondisjonert på det lav-oppløste inndata-bildet. Modellen blander deretter den støy-reduksjonerte prediksjonen med den opprinnelige bildets encoding etter hver steg i den kjente regionen, og avleder den neste latenten. Til slutt dekoder modellen latenten og implementerer Poisson-blanding for å unngå kant-arter.

Prompt Aware Introverted Attention eller PAIntA

Eksisterende inpainting-modeller, som Stable Inpainting, tenderer til å stole mer på den visuelle konteksten rundt inpainting-området og ignorere inndata-prompten. Basert på bruker-erfaringen, kan dette problemet kategoriseres i to klasser: nær-objekt-dominans og bakgrunn-dominans. Problemet med visuell kontekst-dominans over inndata-prompten kan være et resultat av den bare-romlige og prompt-frie naturen til selv-oppmerksomhets-lagene. For å løse dette problemet, introduserer HD-Painter-rammeverket Prompt Aware Introverted Attention eller PAIntA, som bruker kryss-oppmerksomhets-matriser og en inpainting-maske til å kontrollere utgangen av selv-oppmerksomhets-lagene i den ukjente regionen.

Prompt Aware Introverted Attention-komponenten anvender først projeksjons-lag for å få nøkkel, verdier og forespørsler, samt likhet-matrisen. Modellen justerer deretter oppmerksomhet-scoren til de kjente pikslene for å mitigere den sterke innflytelsen av den kjente regionen over den ukjente regionen, og definerer en ny likhet-matrise ved å utnytte den tekstuelle prompten.

Reweighting Attention Score Guidance eller RASG

HD-Painter-rammeverket adopterer en post-hoc-sampling-guidance-metode for å forbedre genererings-alignmenten med tekstuelle prompter enda mer. Sammen med et objekt-funksjons-mål, har post-hoc-sampling-guidance-tilnærmingen til hensikt å utnytte åpen-vokabular-segmenterings-egenskapene til kryss-oppmerksomhets-lagene. Likevel, har denne tilnærmingen av vanlig post-hoc-guidance potensialet til å skifte den latente-diffusjon-domænet, noe som kan degradere kvaliteten på den genererte bildet. For å løse dette problemet, implementerer HD-Painter-rammeverket Reweighting Attention Score Guidance eller RASG-mekanismen, som introduserer en gradient-omveiings-mekanisme som resulterer i latent-domen-bevaring.

HD-Painter: Eksperimenter og Resultater

For å analysere dens ytelse, sammenlignes HD-Painter-rammeverket med nåværende state-of-the-art-modeller, inkludert Stable Inpainting, GLIDE og BLD eller Blended Latent Diffusion, over 10000 tilfeldige eksempler hvor prompten er valgt som etiketten til det valgte instans-masken.

Som det kan observeres, overgår HD-Painter-rammeverket eksisterende rammeverk på tre forskjellige metrikkene med en betydelig margin, spesielt forbedringen på 1,5 poeng på CLIP-metrikken og forskjellen i generert nøyaktighet-score på ca. 10% fra andre state-of-the-art-metoder.

Videre, demonstrerer den følgende figuren den kvalitative sammenligningen av HD-Painter-rammeverket med andre inpainting-rammeverk. Som det kan observeres, rekonstruerer andre basis-modeller enten de manglende regionene i bildet som en fortsettelse av de kjente region-objektene, uten å ta hensyn til prompten, eller de genererer en bakgrunn. På den andre siden, er HD-Painter-rammeverket i stand til å generere mål-objektene med hell, takket være implementeringen av PAIntA- og RASG-komponentene i sin arkitektur.

Slutt-tanker

I denne artikkelen, har vi talt om HD-Painter, et trening-fritt tekst-styrt høyoppløst inpainting-tilnærming som løser utfordringene som eksisterende inpainting-rammeverk erfaringer, inkludert prompt-fornekting og nær-objekt-dominans. HD-Painter-rammeverket implementerer et Prompt Aware Introverted Attention eller PAIntA-lag, som bruker prompt-informasjon til å forbedre selv-oppmerksomhet-scorene, noe som resulterer i bedre tekst-alignment-generering.

For å forbedre sammenhengen av prompten enda mer, introduserer HD-Painter-modellen en Reweighting Attention Score Guidance eller RASG-tilnærming, som integrerer en post-hoc-sampling-strategi i den generelle formen av DDIM-komponenten sammenhengende, for å forhindre ut-av-distribusjon-latent-skift. I tillegg, introduserer HD-Painter-rammeverket en spesialisert super-oppløsningsteknikk tilpasset for inpainting, som tillater det å utvide til større skalaer og fullføre manglende regioner i bildet med oppløsninger opptil 2K.