Tekoäly
HD-Painter: Korkean resoluution teksti-ohjattu kuvauskorjaus diffuusiomalleilla

Diffuusiomallit ovat epäilemättä vallanneet tekoäly- ja koneoppimisalaa, ja niiden sovellukset ovat nykyään olennainen osa arkipäivämme. Teksti-kuvamallejen osoittauduttua merkittäviksi, diffuusiopohjaiset kuvauskorjaustekniikat, kuten ohjattu generointi, erikoistunut ja personoitu kuvasynteesi, objektipohjainen kuvankorjaus, ohjattu variointi ja korjaus, ovat nousseet kuumaan tutkimusaiheeseen tietokonegrafiikka-alalla.
Kuitenkin, vaikka teksti-kuvakehykset, erityisesti teksti-kuvakorjauskehykset, ovat edelleen kehittymässä. Näihin kuuluvat kyky ymmärtää globaaleja kohtauksia, erityisesti kun denoiidaan kuvaa korkeissa diffuusioiden aikaskaalassa. Tätä ongelmaa ratkaisemaan tutkijat esittivät HD-Painterin, täysin koulutusvapaan kehyksen, joka seuraa tarkasti ohjausohjeita ja skaalautuu korkearesoluutioisen kuvakorjaamiseen johdonmukaisesti. HD-Painter-kehys käyttää Prompt Aware Introverted Attention (PAIntA) -kerrosta, joka hyödyntää ohjausohjeita parantamaan itsehuomioarvoja, johtaen parempaan tekstikohtaisuuden luomiseen.
Jotta ohjausohjeen yhdenmukaisuutta voitaisiin parantaa edelleen, HD-Painter-malli esittää Reweighting Attention Score Guidance (RASG) -lähestymistavan. Tämä lähestymistapa integroi jälkikäteen näytteenottostategian yleiseen DDIM-komponentin muotoon vaivattomasti, estäen latenttijakautumisen siirtymisen. Lisäksi HD-Painter-kehys sisältää erikoistuneen superresoluutio-tekniikan, joka on suunniteltu kuvakorjaamiseen, mahdollistaen sen laajentamisen suurempiin mittakaavoisiin ja täyttämisen puuttuvia alueita kuvassa resoluutiolla jopa 2K.
HD-Painter: Teksti-ohjattu kuvakorjaus
Teksti-kuvadiffuusiomallit ovat olleet merkittävä aihe tekoäly- ja koneoppimisalalla viime kuukausina, ja mallit ovat osoittaneet vaikuttavat reaaliaikaiset kykynsä erilaisissa käytännön sovelluksissa. Esikoulutetut teksti-kuvagenerointimallit, kuten DALL-E, Imagen ja Stable Diffusion, ovat osoittaneet soveltuvuutensa kuvakorjaamiseen yhdistämällä denoisoituja (luotuja) tuntemattomia alueita diffuusoiduilla tunnetuilla alueilla takaisin diffuusioprosessissa. Vaikka olemassa olevat mallit tuottavat visuaalisesti miellyttäviä ja hyvin harmonisoituja tuloksia, ne kamppailevat globaalin kohtauksen ymmärtämisessä, erityisesti korkean diffuusioiden aikaskaalan denoising-prosessissa. Muokkaamalla esikoulutettuja teksti-kuvadiffuusiomalleja sisältämään lisäkontekstiinformaatiota, niitä voidaan hienosäätää teksti-ohjatuksi kuvakorjaamiseksi.
Lisäksi diffuusiomalleissa teksti-ohjattu kuvakorjaus ja teksti-ohjattu kuvan täydentäminen ovat merkittäviä tutkimusalueita. Tämä kiinnostus johtuu siitä, että teksti-ohjattu kuvakorjausmallit voivat luoda sisältöä tiettyihin syötekuvan alueisiin perustuen tekstipohjaisiin ohjeisiin, johtaen mahdollisiin sovelluksiin, kuten tietyn kuvan alueen retusoimiseen, aiheen ominaisuuksien muuttamiseen, kuten värin tai vaatetus, ja esineiden lisäämiseen tai korvaamiseen. Yhteenvetona, teksti-kuvadiffuusiomallit ovat saavuttaneet poikkeuksellisen realistisen ja visuaalisesti miellyttävän luomisen kyvyn.

Kuitenkin, useimmat olemassa olevat kehykset osoittavat ohjausohjeen laiminlyöntiä kahtena skenaariona. Ensimmäinen on taustan hallitsevuus, kun malli täydentää tuntemattoman alueen ohjausohjeen laiminlyöntiin taustalla, kun taas toinen skenaario on läheisen esineen hallitsevuus, kun malli siirtää tunnetun alueen esineitä tuntemattomaan alueeseen visuaalisen kontekstin todennäköisyyden sijaan kuin syöteohjeen perusteella. On mahdollista, että molemmat ongelmat johtuvat diffuusiokorjausmallien kyvystä tulkita tekstipohjaisia ohjeita tarkasti tai sekoittaa niitä kontekstiinformaatiota, jota saadaan tunnetusta alueesta.
Tätä esteitä vastaan, HD-Painter-kehys esittää Prompt Aware Introverted Attention eli PAIntA-kerroksen, joka käyttää ohjausohjeita parantamaan itsehuomioarvoja, johtaen parempaan tekstikohtaisuuden luomiseen. PAIntA käyttää annettua tekstipohjaista ehdotusta parantamaan itsehuomioarvoa tavoitteena vähentää ei-ohjausohjeen mukaisen tiedon vaikutusta kuvan alueesta ja samalla lisätä tunnettujen pikselien osuutta, jotka ovat ohjausohjeen mukaisia. Jotta tekstikohtaisuutta voitaisiin parantaa edelleen, HD-Painter-kehys toteuttaa jälkikäteen ohjatun menetelmän, joka hyödyntää ristihuomioarvoja. Kuitenkin, perinteisen jälkikäteen ohjausmekanismin toteutus voi aiheuttaa latenttijakautumisen siirtymisen, joka voi heikentää luodun kuvan laatua. Tätä esteitä vastaan, HD-Painter-kehys toteuttaa Reweighting Attention Score Guidance eli RASG-menetelmän, joka esittää gradientin uudelleenpainotusmekanismin, johtaen latenttialueen säilyttämiseen.
Käyttämällä sekä RASH- että PAIntA-komponentteja arkkitehtuurissaan, HD-Painter-kehys tarjoaa merkittävän edun olemassa oleviin, myös valmiisiin, korjaus- ja teksti-kuvadiffuusiomalleihin, koska se ratkaisee olemassa olevan ohjausohjeen laiminlyöntiongelman. Lisäksi sekä RASH- että PAIntA-komponentit tarjoavat plug and play -toiminnallisuuden, mahdollistaen niiden yhdistämisen diffuusiopohjaisiin korjausmalleihin haasteiden ratkaisemiseksi. Lisäksi, toteuttamalla aikaperspektiivin sekoitusTeknologiaa ja hyödyntämällä korkean resoluution diffuusiomalleja, HD-Painter-pipeline voi toimia tehokkaasti jopa 2K-resoluution korjaamiseen.
Yhteenvetona, HD-Painter pyrkii tekemään seuraavat panokset alalla:
- Se pyrkii ratkaisemaan ohjausohjeen laiminlyöntiongelman taustan ja läheisen esineen hallitsevuuden, joita teksti-ohjattu kuvakorjauskehykset kokevat, toteuttamalla Prompt Aware Introverted Attention eli PAIntA-kerroksen arkkitehtuurissaan.
- Se pyrkii parantamaan tulosteen tekstikohtaisuutta toteuttamalla Reweighting Attention Score Guidance eli RASG-kerroksen arkkitehtuurissaan, joka mahdollistaa HD-Painter-kkehyksen suorittaa jälkikäteen ohjattua näytteenottamista estäen latenttijakautumisen siirtymisen.
- Se pyrkii suunnittelemaan tehokkaan koulutusvapaan teksti-ohjatun kuvakorjauspipelineen, joka pystyy ylittämään olemassa olevat valmiit kehykset, ja käyttämällä yksinkertaista mutta tehokasta korjausspesifistä superresoluutiokerrosta suorittamaan teksti-ohjattua kuvakorjausta jopa 2K-resoluutioon.
HD-Painter: Menetelmä ja Arkkitehtuuri
Ennen kuin tarkastelemme arkkitehtuuria, on olennaista ymmärtää kolme perusasiaa, jotka muodostavat HD-Painter-kkehyksen perustan: Kuvakorjaus, Jälkikäteen ohjaus diffuusiokehyksissä ja Korjausspesifiset arkkitehtuuriblokkeja.
Kuvakorjaus on lähestymistapa, joka pyrkii täyttämään puuttuvat alueet kuvassa varmistamalla luodun kuvan visuaalinen viehätys. Perinteiset syväoppimismallit toteuttivat menetelmiä, jotka käyttivät tunnettuja alueita syvien piirteiden propagoimiseen. Kuitenkin diffuusiomallien esittely on johtanut korjausmallien evoluutioon, erityisesti teksti-ohjattuihin kuvakorjauskehyksiin. Perinteisesti esikoulutettu teksti-kuvadiffuusiomalli korvaa latentin tuntemattoman alueen käyttämällä denoisoitua versiota tunnetusta alueesta näytteenottoprosessissa. Vaikka tämä lähestymistapa toimii jossain määrin, se heikentää merkittävästi luodun kuvan laatua, koska denoising-verkko näkee vain denoisoituneen version tunnetusta alueesta. Tätä esteitä vastaan, jotkut lähestymistavat pyrkivät hienosäätämään esikoulutettua teksti-kuvamallia saavuttamaan teksti-ohjatun kuvakorjaamisen. Toteuttamalla tämän lähestymistavan, kehykselle voidaan luoda satunnainen maski liittämällä se, koska malli voi ehdottaa denoising-verkkoa tuntemattomalle alueelle.
Jatkamalla, perinteiset syväoppimismallit toteuttivat erikoissuunnitellut kerrokset tehokkaaseen korjaamiseen, ja jotkut kehykset pystyivät käyttämään tietoa tehokkaasti ja tuottamaan visuaalisesti miellyttäviä kuvia esittelemällä erikoispiirteisiä kerroksia tunnetuille alueille. Jotkut kehykset lisäsivät myös kontekstuaalisen huomiokerroksen arkkitehtuuriinsa vähentämään epätoivottuja raskaita laskennallisia vaatimuksia kaiken kattavalle itsehuomiolle korkealaatuisessa korjaamisessa.
Lopulta, jälkikäteen ohjausmenetelmät ovat takaisin diffuusioprosessin näytteenottomenetelmiä, jotka ohjaavat seuraavan latentin ennusteen tiettyyn funktioon minimointitavoitteeseen. Jälkikäteen ohjausmenetelmät ovat erittäin hyödyllisiä visuaalisen sisällön luomisessa, erityisesti lisärajoitusten läsnä ollessa. Kuitenkin, jälkikäteen ohjausmenetelmillä on merkittävä heikkous: ne voivat johtaa kuvan laadun heikentymiseen, koska ne siirtävät latentin generoimisprosessin gradientin kautta.
Tulevaan HD-Painter-kkehyksen arkkitehtuuriin, kehykselle muodostetaan teksti-ohjattu kuvakorjausongelma, ja sitten esitetään kaksi diffuusiomallia, nimittäin Stable Inpainting ja Stable Diffusion. HD-Painter-malli esittää PAIntA- ja RASG-blokkeja, ja lopulta päädytään korjausspesifiseen superresoluutiotekniikkaan.
Stable Diffusion ja Stable Inpainting
Stable Diffusion on diffuusiomalli, joka toimii autoenkooderin latenttilaissa. Teksti-kuvasynteesille Stable Diffusion -kehyksessä toteutetaan tekstipohjainen ohjausprosessi. Ohjausfunktiolla on samanlainen rakenne kuin UNet-arkkitehtuurilla, ja ristihuomiokerrokset ehdottavat tekstipohjaisia ohjeita. Lisäksi Stable Diffusion -malli voi suorittaa kuvakorjausta joillakin muutoksilla ja hienosäätöllä. Saavuttaakseen tämän, maskatun kuvan piirteet, jotka on luotu kooderin avulla, yhdistetään pienennettyyn binäärimaskiin latenteihin. Tuloksena oleva tensori syötetään sitten UNet-arkkitehtuuriin arvioitua kohinaa varten. Kehys aloittaa uudet konvoluutiofiltrit nollilla, kun taas UNet aloitetaan esikoulutetuilla Stable Diffusion -mallin tarkistuspisteistä.

Yllä oleva kuva havainnollistaa HD-Painter-kkehyksen yleiskatsausta, joka koostuu kahdesta vaiheesta. Ensimmäisessä vaiheessa HD-Painter-kkehyksessä toteutetaan teksti-ohjattu kuvamaalaus, kun taas toisessa vaiheessa malli korjaa tietyn superresoluution tulostetta. Täyttääkseen puuttuvat alueet ja ollakseen yhdenmukainen syöteohjeen kanssa, malli ottaa esikoulutetun korjausdiffuusiomallin, korvaa itsehuomiokerrokset PAIntA-kerroksilla ja toteuttaa RASG-mekanismin suorittaakseen takaisin diffuusioprosessin. Malli dekoodaa lopullisen arvioidun latentin, johtaen korjattuun kuvaan. HD-Painter toteuttaa sitten super-stable diffuusiomallin korjatakseen alkuperäisen kokoisen kuvan ja toteuttaa diffuusioprosessin takaisin Stable Diffusion -kehyksessä, joka on ehdottaa alhaisen resoluution syötekuvaa. Malli sekoittaa denoisoituneet ennustukset alkuperäisen kuvan koodauksen kanssa jokaisen vaiheen jälkeen tunnetussa alueessa ja johtaa seuraavan latentin. Lopulta, malli dekoodaa latentin ja toteuttaa Poisson-sekoituksen välttääksesi reunojen epäilyjä.
Prompt Aware Introverted Attention eli PAIntA
Olemassa olevat korjausmallit, kuten Stable Inpainting, ovat taipuvaisia riippuvaisuuteen visuaalisesta kontekstista korjausalueen ympärillä ja ohjausohjeiden laiminlyöntiin. Tämä ongelma voidaan luokitella kahteen luokkaan: läheisen esineen hallitsevuus ja taustan hallitsevuus. Visuaalisen kontekstin hallitsevuuden ongelma ohjausohjeiden yli voi johtua itsehuomiokerrosten ainoastaan spatiallisen ja ohjausohjeiden puuttumisen luonteesta. Ratkaisemaan tämän ongelman, HD-Painter-kkehyksessä esitetään Prompt Aware Introverted Attention eli PAIntA, joka käyttää ristihuomio-matriisia ja korjausmaskia ohjaamaan itsehuomiokerrosten tulostetta tuntemattomassa alueessa.
Prompt Aware Introverted Attention -komponentti soittaa ensin projektiokerroksia saadakseen avaimet, arvot ja kysymykset sekä samankaltaisuusmatriisin. Malli sitten säätää tunnettujen pikselien huomioarvoa vähentämään tunnetun alueen vahvaa vaikutusta tuntemattomaan alueeseen ja määrittelee uuden samankaltaisuusmatriisin hyödyntämällä tekstipohjaista ehdotusta.

Reweighting Attention Score Guidance eli RASG
HD-Painter-kkehyksessä otetaan käyttöön jälkikäteen näytteenottomenetelmä parantamaan luomisen yhdenmukaisuutta tekstipohjaisilla ohjeilla. Yhdessä objektiivisen funktion kanssa, jälkikäteen näytteenottomenetelmä pyrkii hyödyntämään avoimen sanastotason segmentointiominaisuuksia ristihuomiokerroksissa. Kuitenkin, tämä perinteinen jälkikäteen ohjauslähestymistapa voi siirtää diffuusiolatentin jakautumisen, mikä voi heikentää luodun kuvan laatua. Ratkaisemaan tämän ongelman, HD-Painter-malli toteuttaa Reweighting Attention Score Guidance eli RASG-mekanismin, joka esittää gradientin uudelleenpainotusmekanismin, johtaen latenttialueen säilyttämiseen.
HD-Painter: Kokeet ja Tulokset
Arvioidakseen suorituskykyään, HD-Painter-kkehyksessä verrataan nykyisiin valmiisiin malleihin, mukaan lukien Stable Inpainting, GLIDE ja BLD eli Blended Latent Diffusion, 10000 satunnaista näytettä, joissa ohjausohje valitaan valitun esimerkin maskin merkinnäksi.

Kuten voidaan havaita, HD-Painter-kkehyksessä ylittää olemassa olevat kehykset kolmella eri mittarilla merkittävällä marginaalilla, erityisesti 1,5 pisteen parannus CLIP-mittarilla ja 10 prosentin ero luodun tarkin luotettavuusmittarin välillä muihin valmiisiin menetelmiin.

Jatkamalla, seuraava kuva osoittaa laadullisen vertailun HD-Painter-kkehyksen ja muiden korjauskehyksien välillä. Kuten voidaan havaita, muut perusmallit joko rekonstruoivat puuttuvat alueet kuvassa jatkamalla tunnetun alueen esineitä ohjausohjeiden laiminlyöntiin tai ne luovat taustan. Toisaalta, HD-Painter-kkehyksessä pystyy luomaan kohde-esineitä onnistuneesti PAIntA- ja RASG-komponenttien toteuttamisen ansiosta arkkitehtuurissaan.

Lopputajat
Tässä artikkelissa, olemme puhuneet HD-Painterista, koulutusvapaasta teksti-ohjatusta korkean resoluution korjauslähestymistavasta, joka ratkaisee olemassa olevat haasteet, mukaan lukien ohjausohjeen laiminlyönti ja läheisen esineen hallitsevuuden, jotka teksti-ohjattu kuvakorjauskehykset kokevat. HD-Painter-kkehyksessä toteutetaan Prompt Aware Introverted Attention eli PAIntA-kerros, joka käyttää ohjausohjeita parantamaan itsehuomioarvoja, johtaen parempaan tekstikohtaisuuden luomiseen.
Parantamaan ohjausohjeen yhdenmukaisuutta edelleen, HD-Painter-malli esittää Reweighting Attention Score Guidance eli RASG-lähestymistavan, joka integroi jälkikäteen näytteenottostategian yleiseen DDIM-komponentin muotoon vaivattomasti estäen latenttijakautumisen siirtymisen. Lisäksi, HD-Painter-kkehyksessä esitetään korjausspesifinen superresoluutiotekniikka, joka johtaa laajentamiseen suurempiin mittakaavoisiin ja täyttämisen puuttuvia alueita kuvassa resoluutiolla jopa 2K.












