tynkä Self Attention Guidance: Diffuusiomallien näytteiden laadun parantaminen - Unite.AI
Liity verkostomme!

Tekoäly

Opastus omaan huomioimiseen: Diffuusiomallien näytteiden laadun parantaminen

mm
Päivitetty on
Opastus omaan huomioimiseen : Diffuusiomallien näytteiden laadun parantaminen

Denoising Diffusion -mallit ovat generatiivisia tekoälykehyksiä, jotka syntetisoivat kuvat kohinasta iteratiivisen kohinanpoistoprosessin kautta. Niitä juhlitaan poikkeuksellisista kuvien luontiominaisuuksistaan ​​ja monimuotoisuudestaan, joka johtuu suurelta osin teksti- tai luokkaehdollisista ohjausmenetelmistä, mukaan lukien luokitinohjaus ja luokittelematon opastus. Nämä mallit ovat onnistuneet luomaan monipuolisia, korkealaatuisia kuvia. Viimeaikaiset tutkimukset ovat osoittaneet, että ohjaustekniikat, kuten luokkatekstit ja tarrat, ovat ratkaisevassa asemassa näiden mallien luomien kuvien laadun parantamisessa.

Kuitenkin diffuusiomallit ja ohjausmenetelmät kohtaavat rajoituksia tietyissä ulkoisissa olosuhteissa. Luokitteluvapaa opastus (CFG) -menetelmä, joka käyttää etiketin pudottamista, lisää koulutusprosessin monimutkaisuutta, kun taas Classifier Guidance (CG) -menetelmä edellyttää luokittelijan lisäkoulutusta. Molempia menetelmiä rajoittaa jonkin verran niiden riippuvuus kovalla työllä ansaittuihin ulkoisiin olosuhteisiin, mikä rajoittaa niiden potentiaalia ja rajoittaa ne ehdollisiin asetuksiin.

Näiden rajoitusten korjaamiseksi kehittäjät ovat laatineet yleisemmän lähestymistavan diffuusio-ohjaukseen, joka tunnetaan nimellä Self-Attention Guidance (SAG). Tämä menetelmä hyödyntää diffuusiomallien välinäytteistä saatua tietoa kuvien luomiseksi. Tutkimme SAG:tä tässä artikkelissa ja keskustelemme sen toiminnasta, menetelmistä ja tuloksista verrattuna nykyiseen huipputekniikan kehyksiin ja putkiin.

Opastus omaan huomioimiseen : Diffuusiomallien näytteiden laadun parantaminen

Denoising Diffusion Models (DDM) -mallit ovat saavuttaneet suosiota kyvystään luoda kuvia kohinasta iteratiivisen kohinanpoistoprosessin avulla. Näiden mallien kuvasynteesikyky johtuu suurelta osin käytetyistä diffuusioohjausmenetelmistä. Vahvuuksistaan ​​huolimatta diffuusiomallit ja ohjauspohjaiset menetelmät kohtaavat haasteita, kuten lisääntyneen monimutkaisuuden ja kohonneet laskentakustannukset.

Nykyisten rajoitusten voittamiseksi kehittäjät ovat ottaneet käyttöön Self-Attention Guidance -menetelmän, yleisemmän diffuusio-ohjauksen muotoilun, joka ei perustu diffuusio-ohjauksen ulkoiseen tietoon, mikä helpottaa ehtovapaata ja joustavaa lähestymistapaa ohjaukseen. diffuusiokehykset. Self-Attention Guidancen valitsema lähestymistapa auttaa viime kädessä parantamaan perinteisten diffuusio-ohjausmenetelmien soveltuvuutta tapauksiin, joissa on tai ei ole ulkoisia vaatimuksia. 

Self Attention Guidance perustuu yksinkertaiseen yleisen muotoilun periaatteeseen ja olettamukseen, että välinäytteiden sisältämä sisäinen tieto voi toimia myös ohjeena. Tämän periaatteen pohjalta SAG-menetelmä esittelee ensin Blur Guidancen, yksinkertaisen ja suoraviivaisen ratkaisun näytteen laadun parantamiseen. Sumennuksen ohjauksen tarkoituksena on hyödyntää Gaussin sumennuksen hyvänlaatuisia ominaisuuksia ja poistaa hienojakoisia yksityiskohtia luonnollisesti ohjaamalla välinäytteitä käyttämällä Gaussin sumennuksen seurauksena eliminoitua tietoa. Vaikka Blur-ohjausmenetelmä parantaa näytteen laatua kohtuullisella ohjausasteikolla, se ei pysty toistamaan tuloksia laajalla ohjausasteikolla, koska se aiheuttaa usein rakenteellista epäselvyyttä kokonaisilla alueilla. Tämän seurauksena sumennuksen ohjausmenetelmän on vaikea kohdistaa alkuperäistä syötettä heikentyneen syötteen ennusteen kanssa. Parantaakseen Blur-ohjausmenetelmän vakautta ja tehokkuutta laajemmassa ohjausmittakaavassa Self-Attention Guidance pyrkii hyödyntämään diffuusiomallien itsehuomiomekanismia, sillä nykyaikaiset diffuusiomallit sisältävät jo arkkitehtuurissaan itsehuomiomekanismin. 

Olettaen, että itsehuomio on olennaista keskeisten tietojen vangitsemiseksi, Self-Attention Guidance -menetelmä käyttää diffuusiomallien itsehuomiokarttoja hämärtääkseen haitallisesti tärkeitä tietoja sisältävät alueet ja ohjaa samalla diffuusio malleja vaadituilla jäännöstiedoilla. Menetelmä hyödyntää sitten huomiokarttoja diffuusiomallien käänteisen prosessin aikana parantaakseen kuvien laatua ja käyttää itsekäsittelyä artefaktien vähentämiseen ilman lisäkoulutusta tai ulkoista tietoa. 

Yhteenvetona, Self-Attention Guidance -menetelmä

  1. On uusi lähestymistapa, joka käyttää diffuusiokehysten sisäisiä itsehuomiokarttoja parantamaan luodun näytekuvan laatua ilman lisäkoulutusta tai ulkoisiin olosuhteisiin luottamista. 
  2. SAG-menetelmä pyrkii yleistämään ehdolliset ohjausmenetelmät ehtovapaaksi menetelmäksi, joka voidaan integroida mihin tahansa diffuusiomalliin ilman lisäresursseja tai ulkoisia ehtoja, mikä parantaa ohjauspohjaisten viitekehysten soveltuvuutta. 
  3. SAG-menetelmä pyrkii myös osoittamaan ortogonaalisia kykyjään olemassa oleville ehdollisille menetelmille ja kehyksille, mikä helpottaa suorituskyvyn tehostamista helpottamalla joustavaa integrointia muihin menetelmiin ja malleihin. 

Self-Attention Guidance -menetelmä oppii asiaan liittyvien kehysten havainnoista, mukaan lukien denoising-diffuusiomallit, näytteenotto-opastus, generatiiviset tekoäly-self-attention menetelmät ja diffuusiomallien sisäiset esitykset. Kuitenkin ytimessä Self-Attention Guidance -menetelmä toteuttaa DDPM:n tai Denoising Diffusion -todennäköisyysmallien, luokittelijaohjauksen, luokittelijattoman ohjauksen ja itse huomioimisen oppimista diffuusiokehyksissä. Puhumme niistä perusteellisesti tulevassa osiossa. 

Self Attention Guidance  : Alkuvaiheet, menetelmät ja arkkitehtuuri

Denoising Diffusion Probabilistic Model tai DDPM

DDPM tai Denoising Diffusion Probabilistic Model on malli, joka käyttää iteratiivista kohinanpoistoprosessia kuvan palauttamiseksi valkoisesta kohinasta. Perinteisesti DDPM-malli vastaanottaa syötekuvan ja varianssiaikataulun aika-askelissa kuvan saamiseksi käyttämällä eteenpäinlähetysprosessia, joka tunnetaan nimellä Markovin prosessi. 

Luokittelija ja luokittelijaton opastus GAN-toteutuksen kanssa

GAN tai Generative Adversarial Networks omaavat ainutlaatuisen kaupankäynnin monimuotoisuuden uskollisuuden vuoksi, ja GAN-kehysten tämän kyvyn tuomiseksi diffuusiomalleihin Self-Attention Guidance -kehys ehdottaa luokittelun ohjausmenetelmän käyttöä, joka käyttää ylimääräistä luokittelua. Päinvastoin, luokittelijaton ohjausmenetelmä voidaan toteuttaa myös ilman lisäluokittelijan käyttöä samojen tulosten saavuttamiseksi. Vaikka menetelmä tuottaa halutut tulokset, se ei silti ole laskennallisesti käyttökelpoinen, koska se vaatii lisätunnisteita ja rajoittaa myös kehyksen ehdollisiin diffuusiomalleihin, jotka edellyttävät lisäehtoja, kuten tekstiä tai luokkaa, sekä lisäkoulutusyksityiskohtia, jotka lisäävät menetelmän monimutkaisuutta. malli. 

Yleisttävä diffuusio-opas

Vaikka luokittelija- ja luokittelemattomat ohjausmenetelmät tuottavat halutut tulokset ja auttavat ehdollisen luonnin tekemisessä diffuusiomalleissa, ne ovat riippuvaisia ​​lisäsyötteistä. Minkä tahansa tietyn aikavaiheen osalta diffuusiomallin syöte käsittää yleisen ehdon ja häiriintyneen näytteen ilman yleistettyä ehtoa. Lisäksi yleinen ehto kattaa sisäisen informaation häirityn näytteen sisällä tai ulkoisen ehdon tai jopa molemmat. Tuloksena oleva opastus muotoillaan käyttämällä kuvitteellista regressoria olettaen, että se voi ennustaa yleisen tilan. 

Kuvanlaadun parantaminen Self-Attention Mapsin avulla

Generalised Diffusion Guidance tarkoittaa, että on mahdollista antaa opastusta diffuusiomallien käänteiseen prosessiin poimimalla keskeistä tietoa häiriöttömän näytteen sisältämässä yleisessä tilassa. Samaan pohjautuva Self-Attention Guidance -menetelmä kaappaa käänteisprosessien keskeiset tiedot tehokkaasti rajoittaen samalla riskit, jotka syntyvät jakelun ulkopuolisista ongelmista esikoulutetuissa diffuusiomalleissa. 

Sumennuksen opastus

Sumennuksen ohjaus Self-Attention Guidancessa perustuu Gaussian Bluriin, lineaariseen suodatusmenetelmään, jossa tulosignaali konvoloidaan Gauss-suodattimen kanssa ulostulon luomiseksi. Keskihajonnan kasvaessa Gaussian Blur vähentää tulosignaalien hienojakoisia yksityiskohtia ja johtaa paikallisesti erottumattomiin tulosignaaleihin tasoittamalla niitä kohti vakiota. Lisäksi kokeet ovat osoittaneet informaation epätasapainon tulosignaalin ja Gaussin sumennuksen lähtösignaalin välillä, kun lähtösignaali sisältää enemmän hienomittaista informaatiota. 

Tämän oppimisen perusteella Self-Attention Guidance -kehys esittelee Blur-ohjauksen, tekniikan, joka tarkoituksella sulkee tiedot pois välirekonstruktioista diffuusioprosessin aikana, ja sen sijaan käyttää tätä tietoa ohjaamaan ennusteitaan lisäämään kuvien relevanssia. syötä tiedot. Sumennuksen ohjaus saa olennaisesti sen, että alkuperäinen ennuste poikkeaa enemmän sumeasta syöteestä. Lisäksi Gaussin sumennuksen hyvänlaatuinen ominaisuus estää lähtösignaaleja poikkeamasta merkittävästi alkuperäisestä signaalista kohtalaisella poikkeamalla. Yksinkertaisesti sanottuna sumentumista tapahtuu kuvissa luonnollisesti, mikä tekee Gaussin sumeasta sopivamman menetelmän esiopetetuissa diffuusiomalleissa. 

Self-Attention Guidance -putkessa tulosignaali ensin hämärtyy Gauss-suodattimen avulla ja sitten se hajaantuu lisäkohinalla ulostulosignaalin tuottamiseksi. Tekemällä tämän SAG-putkilinja lieventää tuloksena olevan sumennuksen sivuvaikutusta, joka vähentää Gaussin kohinaa ja saa ohjauksen riippumaan sisällöstä sen sijaan, että se olisi riippuvainen satunnaisesta kohinasta. Vaikka sumeusopastus tuottaa tyydyttäviä tuloksia kehyksissä, joissa ohjausskaala on kohtalainen, se ei pysty toistamaan tuloksia olemassa olevissa malleissa suurella ohjausasteikolla, koska se on taipuvainen tuottamaan meluisia tuloksia, kuten seuraavassa kuvassa näkyy. 

Nämä tulokset saattavat johtua rakenteellisesta epäselvyydestä, jonka yleinen epäselvyys aiheuttaa, mikä tekee SAG-putkilinjan vaikeaksi sovittaa alkuperäisen syötteen ennusteita huonontuneen tulon kanssa, mikä johtaa meluisiin ulostuloihin. 

Itsehuomiomekanismi

Kuten aiemmin mainittiin, diffuusiomalleissa on yleensä sisäänrakennettu itsetarkkailukomponentti, ja se on yksi diffuusiomallikehyksen oleellisimmista komponenteista. Self-Attention-mekanismi on toteutettu diffuusiomallien ytimessä, ja sen avulla malli voi kiinnittää huomiota syötteen tärkeimpiin osiin generatiivisen prosessin aikana, kuten seuraavassa kuvassa näkyy korkeataajuisilla maskeilla ylärivillä, ja itsehuomion maskit lopuksi luotujen kuvien alimmalla rivillä. 

Ehdotettu Self-Attention Guidance -menetelmä rakentuu samalle periaatteelle ja hyödyntää diffuusiomalleissa olevien itsetarkkailukarttojen ominaisuuksia. Kaiken kaikkiaan Self-Attention Guidance -menetelmä hämärtää tulosignaalin omatoimiset paikat tai yksinkertaisin sanoin piilottaa tilojen tiedot, joita diffuusiomallit käsittelevät. Lisäksi Self-Attention Guidancen lähtösignaalit sisältävät koskemattomia alueita tulosignaaleista, mikä tarkoittaa, että se ei johda sisääntulojen rakenteelliseen moniselitteisyyteen ja ratkaisee globaalin epätarkkuuden. Liukuhihna hankkii sitten aggregoidut itsehuomiokartat suorittamalla GAP- tai Global Average Pooling -toiminnon itsehuomiokarttojen kokoamiseksi dimensioiksi ja ottamalla lähin naapuri ylös näytteistyksen vastaamaan tulosignaalin resoluutiota. 

Itsensä huomioimisen opas : kokeet ja tulokset

Sen suorituskyvyn arvioimiseksi Self-Attention Guidance -putkilinjasta otetaan näytteitä kahdeksalla Nvidia GeForce RTX 8 -grafiikkasuorittimella, ja se perustuu esikoulutettuun IDDPM:ään, ADM:ään ja Vakaat diffuusiokehykset

Ehdoton sukupolvi itsetunto-ohjauksella

SAG-putkilinjan tehokkuuden mittaamiseksi ehdottomissa malleissa ja ehdottoman ominaisuuden osoittamiseksi, jota Classifier Guidance ja Classifier Free Guidance -lähestymistapa ei sisällä, SAG-putkilinjaa ajetaan ehdoitta esikoulutetuilla kehyksillä 50 tuhannella näytteellä. 

Kuten voidaan havaita, SAG-liukuhihnan käyttöönotto parantaa ehdottoman syötteen FID-, sFID- ja IS-mittareita samalla, kun se alentaa palautusarvoa. Lisäksi laadulliset parannukset SAG-putkilinjan käyttöönotosta näkyvät seuraavissa kuvissa, joissa ylhäällä olevat kuvat ovat tuloksia ADM- ja Stable Diffusion -kehyksestä, kun taas alhaalla olevat kuvat ovat tuloksia ADM- ja Stable Diffusion -kehyksestä, jossa on SAG putki. 

Ehdollinen sukupolvi SAG:lla

SAG-putkilinjan integrointi olemassa oleviin kehyksiin tuottaa poikkeuksellisia tuloksia ehdottomassa generoinnissa, ja SAG-putkisto kykenee ehto-agnostisuuteen, mikä mahdollistaa SAG-putkilinjan toteuttamisen myös ehdolliseen tuotantoon. 

Vakaa diffuusio itsetarkkailuohjauksella

Vaikka alkuperäinen Stable Diffusion -kehys tuottaa korkealaatuisia kuvia, Stable Diffusion -kehyksen integrointi Self-Attention Guidance -putkilinjaan voi parantaa tuloksia huomattavasti. Sen vaikutuksen arvioimiseksi kehittäjät käyttävät tyhjiä kehotteita vakaalle diffuusiolle satunnaisella siemenellä kullekin kuvaparille ja käyttävät ihmisen arviointia 500 kuvaparille, joissa on tai ei ole itsetarkkailua. Tulokset esitetään seuraavassa kuvassa.  

Lisäksi SAG:n käyttöönotto voi parantaa Stable Diffusion -kehyksen ominaisuuksia, sillä luokittelijattoman ohjauksen ja itsehuomioohjauksen yhdistäminen voi laajentaa Stable Diffusion -mallien valikoimaa tekstistä kuvaksi -synteesiin. Lisäksi Self-Attention Guidance -ohjauksella varustetusta Stable Diffusion -mallista luodut kuvat ovat laadukkaampia ja niissä on vähemmän artefakteja SAG-putkilinjan itsehoitovaikutuksen ansiosta, kuten seuraavassa kuvassa näkyy. 

Nykyiset rajoitukset

Vaikka Self-Attention Guidance -putkilinjan käyttöönotto voi merkittävästi parantaa luotujen kuvien laatua, sillä on joitain rajoituksia. 

Yksi suurimmista rajoituksista on ortogonaalisuus luokittelija-ohjauksen ja luokittelijattoman ohjauksen kanssa. Kuten seuraavasta kuvasta voidaan havaita, SAG:n toteutus parantaa FID-pisteitä ja ennustepisteitä, mikä tarkoittaa, että SAG-putki sisältää ortogonaalisen komponentin, jota voidaan käyttää perinteisten ohjausmenetelmien kanssa samanaikaisesti. 

Se vaatii kuitenkin edelleen diffuusiomallien kouluttamista tietyllä tavalla, mikä lisää monimutkaisuutta ja lisää laskentakustannuksia. 

Lisäksi Self-Attention Guidancen käyttöönotto ei lisää muistia tai ajankulutusta, mikä on merkki siitä, että SAG:n peittämisen ja hämärtämisen kaltaisista toiminnoista aiheutuvat ylimääräiset kustannukset ovat mitättömät. Se kuitenkin lisää laskennallisia kustannuksia, koska se sisältää lisävaiheen verrattuna ei-opastusmenetelmiin. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet Self-Attention Guidancesta, uudesta ja yleisestä ohjausmenetelmästä, joka hyödyntää diffuusiomalleissa saatavilla olevaa sisäistä tietoa korkealaatuisten kuvien luomiseen. Self Attention Guidance perustuu yksinkertaiseen yleisen muotoilun periaatteeseen ja olettamukseen, että välinäytteiden sisältämä sisäinen tieto voi toimia myös ohjeena. Self-Attention Guidance -putkilinja on ehtovapaa ja koulutusvapaa lähestymistapa, joka voidaan toteuttaa useissa diffuusiomalleissa. Se käyttää itsekäsittelyä vähentääkseen artefakteja luoduissa kuvissa ja parantaakseen yleistä laatua. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.