škrbina Navodila za samopozornost: izboljšanje kakovosti vzorcev difuzijskih modelov - Unite.AI
Povežite se z nami

Umetna inteligenca

Navodila za samopozornost: izboljšanje kakovosti vzorcev difuzijskih modelov

mm
Posodobljeno on
Navodila za samopozornost: izboljšanje kakovosti vzorcev difuzijskih modelov

Modeli zmanjševanja šumov so generativni okviri umetne inteligence, ki sintetizirajo slike iz šuma s pomočjo iterativnega postopka odstranjevanja šumov. Slavijo jih zaradi svojih izjemnih zmožnosti generiranja slik in raznolikosti, ki se v veliki meri pripisujejo metodam pogojnega vodenja po besedilu ali razredu, vključno z vodenjem po klasifikatorju in vodenju brez klasifikatorja. Ti modeli so bili izjemno uspešni pri ustvarjanju raznolikih visokokakovostnih slik. Nedavne študije so pokazale, da imajo tehnike usmerjanja, kot so napisi razredov in oznake, ključno vlogo pri izboljšanju kakovosti slik, ki jih ustvarijo ti modeli.

Vendar se difuzijski modeli in metode vodenja soočajo z omejitvami pod določenimi zunanjimi pogoji. Metoda Classifier-Free Guidance (CFG), ki uporablja spuščanje oznak, dodatno zaplete proces usposabljanja, medtem ko metoda Classifier Guidance (CG) zahteva dodatno usposabljanje klasifikatorja. Obe metodi sta nekoliko omejeni zaradi zanašanja na težko prigarane zunanje pogoje, kar omejuje njihov potencial in ju omejuje na pogojne nastavitve.

Da bi rešili te omejitve, so razvijalci oblikovali bolj splošen pristop k vodenju difuzije, znan kot vodenje samopozornosti (SAG). Ta metoda izkorišča informacije iz vmesnih vzorcev difuzijskih modelov za ustvarjanje slik. V tem članku bomo raziskali SAG in razpravljali o njegovem delovanju, metodologiji in rezultatih v primerjavi s trenutnimi najsodobnejšimi okviri in cevovodi.

Navodila za samopozornost: izboljšanje kakovosti vzorcev difuzijskih modelov

Denoising Diffusion Models (DDM) so postali priljubljeni zaradi svoje zmožnosti ustvarjanja slik iz šuma s ponavljajočim se postopkom odpravljanja šumov. Zmogljivost sinteze slike teh modelov je v veliki meri posledica uporabljenih metod difuzijskega vodenja. Kljub svojim prednostim se difuzijski modeli in metode, ki temeljijo na smernicah, soočajo z izzivi, kot so dodatna kompleksnost in povečani računski stroški.

Da bi premagali trenutne omejitve, so razvijalci uvedli metodo vodenja samopozornosti, splošnejšo formulacijo difuzijskega vodenja, ki se ne zanaša na zunanje informacije iz difuzijskega vodenja, s čimer omogoča neoviran in prilagodljiv pristop k vodenju. difuzijski okvirji. Pristop, ki ga je izbralo Self-Attention Guidance, končno pomaga pri izboljšanju uporabnosti tradicionalnih metod difuzijskega vodenja v primerih z ali brez zunanjih zahtev. 

Navodila za samopozornost temeljijo na preprostem načelu splošne formulacije in predpostavki, da lahko notranje informacije, ki jih vsebujejo vmesni vzorci, služijo tudi kot vodilo. Na podlagi tega načela metoda SAG najprej uvaja Blur Guidance, preprosto in preprosto rešitev za izboljšanje kakovosti vzorca. Namen vodenja zameglitve je izkoristiti benigne lastnosti Gaussove zamegljenosti za naravno odstranitev drobnih podrobnosti z vodenjem vmesnih vzorcev z uporabo izločenih informacij zaradi Gaussove zamegljenosti. Čeprav metoda Blur usmerjanja res poveča kakovost vzorca z zmerno orientacijsko lestvico, ne uspe ponoviti rezultatov na veliki orientacijski lestvici, saj pogosto uvaja strukturno dvoumnost v celih regijah. Zaradi tega metoda vodenja Blur težko uskladi prvotni vnos z napovedjo poslabšanega vnosa. Za izboljšanje stabilnosti in učinkovitosti metode vodenja Blur na večjem merilu vodenja poskuša Self-Attention Guidance izkoristiti mehanizem samoosredotočenosti difuzijskih modelov, saj sodobni difuzijski modeli že vsebujejo mehanizem samoosredotočenosti v svoji arhitekturi. 

Ob predpostavki, da je samopozornost bistvenega pomena za zajemanje pomembnih informacij v njenem jedru, metoda usmerjanja samopozornosti uporablja zemljevide samopozornosti difuzijskih modelov, da nasprotno zabriše regije, ki vsebujejo pomembne informacije, in pri tem vodi difuzijski modeli z zahtevanimi preostalimi informacijami. Metoda nato izkoristi zemljevide pozornosti med povratnim postopkom difuzijskih modelov, da poveča kakovost slik in uporablja samokondicioniranje za zmanjšanje artefaktov, ne da bi bilo potrebno dodatno usposabljanje ali zunanje informacije. 

Če povzamem, metoda usmerjanja samopozornosti

  1. Je nov pristop, ki uporablja notranje zemljevide samopozornosti difuzijskih ogrodij za izboljšanje kakovosti ustvarjene vzorčne slike, ne da bi bilo potrebno dodatno usposabljanje ali zanašanje na zunanje pogoje. 
  2. Metoda SAG poskuša posplošiti metode pogojnega vodenja v metodo brez pogojev, ki jo je mogoče integrirati s katerim koli difuzijskim modelom brez potrebe po dodatnih virih ali zunanjih pogojih, s čimer se poveča uporabnost okvirov, ki temeljijo na vodenju. 
  3. Metoda SAG prav tako poskuša pokazati svoje ortogonalne zmožnosti obstoječim pogojnim metodam in okvirom, s čimer olajša povečanje učinkovitosti z omogočanjem prožne integracije z drugimi metodami in modeli. 

Metoda usmerjanja samopozornosti se uči iz ugotovitev sorodnih ogrodij, vključno z modeli difuzije z odpravljanjem hrupa, navodili za vzorčenje, generativnimi metodami samopozornosti AI in notranjimi predstavitvami modelov razširjanja. Vendar pa v svojem bistvu metoda usmerjanja samopozornosti izvaja učenja iz DDPM ali verjetnostnih modelov za zmanjšanje hrupa, usmerjanje klasifikatorjev, vodenje brez klasifikatorjev in okvire samoosredotočenosti v difuziji. O njih bomo podrobneje govorili v naslednjem razdelku. 

Usmerjanje samopozornosti  : predhodne informacije, metodologija in arhitektura

Denoising Diffusion Probabilistic Model ali DDPM

DDPM oz Probabilistični model difuzijskega odpravljanja hrupa je model, ki uporablja iterativni postopek odstranjevanja šumov za obnovitev slike iz belega šuma. Običajno model DDPM prejme vhodno sliko in razpored variance v časovnem koraku, da pridobi sliko z uporabo naprednega procesa, znanega kot Markovijev proces. 

Klasifikator in vodenje brez klasifikatorjev z implementacijo GAN

GAN ali Generative Adversarial Networks imajo edinstveno trgovsko raznolikost za zvestobo in za prenos te zmožnosti ogrodij GAN v difuzijske modele okvir Self-Attention Guidance predlaga uporabo metode usmerjanja klasifikatorja, ki uporablja dodatni klasifikator. Nasprotno pa je mogoče metodo vodenja brez klasifikatorjev izvajati tudi brez uporabe dodatnega klasifikatorja, da bi dosegli enake rezultate. Čeprav metoda zagotavlja želene rezultate, še vedno ni računsko izvedljiva, saj zahteva dodatne oznake in tudi omejuje okvir na modele pogojne difuzije, ki zahtevajo dodatne pogoje, kot je besedilo ali razred, skupaj z dodatnimi podrobnostmi za usposabljanje, ki povečujejo kompleksnost model. 

Splošno difuzijsko vodenje

Čeprav metode Classifier in Classifier-free Guidance zagotavljajo želene rezultate in pomagajo pri pogojnem ustvarjanju v difuzijskih modelih, so odvisne od dodatnih vnosov. Za kateri koli dani časovni korak vhod za difuzijski model vključuje posplošen pogoj in moten vzorec brez posplošenega pogoja. Poleg tega posplošeno stanje zajema notranje informacije znotraj motenega vzorca ali zunanje stanje ali celo oboje. Posledično vodenje je oblikovano z uporabo namišljenega regresorja s predpostavko, da lahko napove posplošeno stanje. 

Izboljšanje kakovosti slike z uporabo zemljevidov samopozornosti

Splošna difuzijska navodila pomenijo, da je možno zagotoviti smernice za obratni proces difuzijskih modelov z ekstrakcijo pomembnih informacij v splošnem stanju, ki ga vsebuje vznemirjeni vzorec. Na podlagi tega metoda Self-Attention Guidance učinkovito zajame bistvene informacije za povratne procese, hkrati pa omejuje tveganja, ki nastanejo zaradi težav z izven distribucije v predhodno usposobljenih difuzijskih modelih. 

Navodila za zameglitev

Vodenje zamegljenosti v Self-Attention Guidance temelji na Gaussovi zameglitvi, metodi linearnega filtriranja, pri kateri se vhodni signal zvije z Gaussovim filtrom, da se ustvari izhod. S povečanjem standardnega odklona Gaussova zameglitev zmanjša drobne podrobnosti znotraj vhodnih signalov in povzroči lokalno neločljive vhodne signale, tako da jih zgladi proti konstanti. Poleg tega so poskusi pokazali informacijsko neravnovesje med vhodnim signalom in izhodnim signalom Gaussove zameglitve, kjer izhodni signal vsebuje več informacij v natančnem merilu. 

Na podlagi tega učenja ogrodje Self-Attention Guidance uvaja Blur guidance, tehniko, ki namenoma izloči informacije iz vmesnih rekonstrukcij med procesom difuzije in namesto tega uporablja te informacije za usmerjanje svojih napovedi v smeri povečanja ustreznosti slik za vhodne informacije. Vodenje zameglitve v bistvu povzroči, da prvotna napoved bolj odstopa od zamegljene napovedi vnosa. Poleg tega benigna lastnost Gaussove zamegljenosti preprečuje, da bi izhodni signali bistveno odstopali od prvotnega signala z zmernim odstopanjem. Preprosto povedano, zamegljenost se pojavi na slikah naravno, zaradi česar je Gaussova zamegljenost primernejša metoda za uporabo na vnaprej pripravljenih modelih difuzije. 

V cevovodu Self-Attention Guidance je vhodni signal najprej zamegljen z uporabo Gaussovega filtra, nato pa se razprši z dodatnim šumom, da proizvede izhodni signal. S tem cevovod SAG ublaži stranski učinek posledične zamegljenosti, ki zmanjša Gaussov šum, in poskrbi, da se vodenje zanaša na vsebino, namesto da bi bilo odvisno od naključnega šuma. Čeprav napotki za zamegljenost zagotavljajo zadovoljive rezultate na ogrodjih z zmerno lestvico vodenja, ne uspejo ponoviti rezultatov na obstoječih modelih z veliko lestvico vodenja, saj so nagnjeni k ustvarjanju šumnih rezultatov, kot je prikazano na naslednji sliki. 

Ti rezultati so lahko posledica strukturne dvoumnosti, ki jo v okvir vnese globalna zamegljenost, ki cevovodu SAG otežuje uskladitev napovedi prvotnega vnosa z degradiranim vnosom, kar ima za posledico hrupne rezultate. 

Mehanizem samopozornosti

Kot smo že omenili, imajo difuzijski modeli običajno vgrajeno komponento samopozornosti, ki je ena izmed pomembnejših komponent v ogrodju difuzijskega modela. Mehanizem samopozornosti je implementiran v jedro difuzijskih modelov in omogoča modelu, da je pozoren na pomembne dele vnosa med generativnim procesom, kot je prikazano na naslednji sliki z visokofrekvenčnimi maskami v zgornji vrstici, in maske samopozornosti v spodnji vrstici končno ustvarjenih slik. 

Predlagana metoda usmerjanja samopozornosti temelji na istem principu in izkorišča zmožnosti zemljevidov samopozornosti v difuzijskih modelih. Na splošno metoda Self-Attention Guidance zabriše samostojne zaplate v vhodnem signalu ali, preprosto povedano, prikrije informacije o zaplatah, ki jih obravnavajo difuzijski modeli. Poleg tega izhodni signali v Self-Attention Guidance vsebujejo nedotaknjene regije vhodnih signalov, kar pomeni, da ne povzroča strukturne dvoumnosti vhodov in rešuje problem globalne zamegljenosti. Cevovod nato pridobi združene zemljevide samopozornosti z izvajanjem GAP ali globalnega povprečnega združevanja, da združi zemljevide samopozornosti na dimenzijo in poveča vzorčenje najbližjega soseda, da se ujema z ločljivostjo vhodnega signala. 

Usmerjanje samopozornosti: poskusi in rezultati

Za ovrednotenje njegove zmogljivosti je cevovod Self-Attention Guidance vzorčen z uporabo 8 grafičnih procesorjev Nvidia GeForce RTX 3090 in je zgrajen na vnaprej usposobljenih IDDPM, ADM in Stabilni difuzijski okvirji

Brezpogojna generacija z usmerjanjem pozornosti nase

Da bi izmerili učinkovitost cevovoda SAG na brezpogojnih modelih in prikazali lastnost brez pogojev, ki je nimajo Classifier Guidance, in pristop brez Classifier Guidance, se cevovod SAG izvaja na brezpogojno vnaprej usposobljenih okvirih na 50 tisoč vzorcih. 

Kot je mogoče opaziti, izvedba cevovoda SAG izboljša metrike FID, sFID in IS brezpogojnega vnosa, hkrati pa zniža vrednost odpoklica. Poleg tega so kvalitativne izboljšave kot rezultat izvajanja cevovoda SAG očitne na naslednjih slikah, kjer so slike na vrhu rezultati iz ogrodij ADM in stabilne difuzije, medtem ko so slike na dnu rezultati iz ogrodij ADM in stabilne difuzije z SAG cevovod. 

Pogojna generacija s SAG

Integracija cevovoda SAG v obstoječa ogrodja zagotavlja izjemne rezultate pri brezpogojnem ustvarjanju, cevovod SAG pa je zmožen agnostičnosti stanja, ki omogoča implementacijo cevovoda SAG tudi za pogojno generiranje. 

Stabilna difuzija z vodenjem samopozornosti

Čeprav izvirno ogrodje Stable Diffusion ustvarja visokokakovostne slike, lahko integracija ogrodja Stable Diffusion s cevovodom Self-Attention Guidance drastično izboljša rezultate. Za ovrednotenje njegovega učinka razvijalci uporabijo prazne pozive za stabilno razširjanje z naključnim semenom za vsak par slik in uporabijo človeško vrednotenje na 500 parih slik z in brez vodenja samoosredotočenosti. Rezultati so prikazani na naslednji sliki.  

Poleg tega lahko izvedba SAG izboljša zmogljivosti ogrodja stabilne difuzije, saj lahko z združitvijo vodenja brez klasifikatorjev z vodenjem samopozornosti razširi obseg modelov stabilne difuzije na sintezo besedila v sliko. Poleg tega so ustvarjene slike iz modela stabilne difuzije z vodenjem samoopaznosti višje kakovosti z manj artefakti zaradi učinka samokondicioniranja cevovoda SAG, kot je prikazano na naslednji sliki. 

Trenutne omejitve

Čeprav lahko izvajanje cevovoda Self-Attention Guidance bistveno izboljša kakovost ustvarjenih slik, ima nekatere omejitve. 

Ena glavnih omejitev je ortogonalnost pri vodenju s klasifikatorjem in vodenju brez klasifikatorja. Kot je razvidno iz naslednje slike, implementacija SAG res izboljša oceno FID in oceno napovedi, kar pomeni, da cevovod SAG vsebuje pravokotno komponento, ki jo je mogoče hkrati uporabljati s tradicionalnimi metodami vodenja. 

Vendar še vedno zahteva, da se difuzijski modeli usposobijo na poseben način, kar poveča kompleksnost in računske stroške. 

Poleg tega izvedba usmerjanja samopozornosti ne poveča porabe pomnilnika ali časa, kar kaže, da so režijski stroški, ki izhajajo iz operacij, kot sta maskiranje in zamegljevanje v SAG, zanemarljivi. Vendar še vedno povečuje računske stroške, saj vključuje dodaten korak v primerjavi s pristopi brez usmerjanja. 

Končna thoughts

V tem članku smo govorili o usmerjanju samopozornosti, novi in ​​splošni formulaciji metode vodenja, ki uporablja notranje informacije, ki so na voljo v difuzijskih modelih, za ustvarjanje visokokakovostnih slik. Navodila za samopozornost temeljijo na preprostem načelu splošne formulacije in predpostavki, da lahko notranje informacije, ki jih vsebujejo vmesni vzorci, služijo tudi kot vodilo. Cevovod za usmerjanje lastne pozornosti je pristop brez pogojev in usposabljanja, ki ga je mogoče izvajati v različnih difuzijskih modelih in uporablja samokondicioniranje za zmanjšanje artefaktov v ustvarjenih slikah in izboljšanje splošne kakovosti. 

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.