škrbina Smjernice za samousmjeravanje: Poboljšanje kvalitete uzorka modela difuzije - Unite.AI
Povežite se s nama

Umjetna inteligencija

Smjernice za samousmjeravanje: poboljšanje kvalitete uzorka difuzijskih modela

mm
Ažurirano on
Smjernice za samousmjeravanje: poboljšanje kvalitete uzorka difuzijskih modela

Denoising Diffusion Models su generativni AI okviri koji sintetiziraju slike iz šuma kroz iterativni proces uklanjanja šuma. Slave se zbog svojih iznimnih mogućnosti generiranja slika i raznolikosti, što se uglavnom pripisuje metodama uvjetnog vođenja putem teksta ili klase, uključujući navođenje pomoću klasifikatora i navođenje bez klasifikatora. Ovi su modeli bili izrazito uspješni u stvaranju raznolikih slika visoke kvalitete. Nedavne studije pokazale su da tehnike navođenja kao što su naslovi razreda i oznake igraju ključnu ulogu u poboljšanju kvalitete slika koje ti modeli generiraju.

Međutim, difuzijski modeli i metode vođenja suočavaju se s ograničenjima pod određenim vanjskim uvjetima. Metoda Classifier-Free Guidance (CFG), koja koristi ispuštanje oznaka, dodaje složenost procesu obuke, dok metoda Classifier Guidance (CG) zahtijeva dodatnu obuku klasifikatora. Obje su metode donekle ograničene svojim oslanjanjem na teško stečene vanjske uvjete, ograničavajući njihov potencijal i ograničavajući ih na uvjetovane postavke.

Kako bi se pozabavili ovim ograničenjima, programeri su formulirali općenitiji pristup difuzionom vođenju, poznat kao Self-Attention Guidance (SAG). Ova metoda koristi informacije iz srednjih uzoraka modela difuzije za generiranje slika. Istražit ćemo SAG u ovom članku, raspravljajući o njegovom radu, metodologiji i rezultatima u usporedbi s trenutnim najsuvremenijim okvirima i cjevovodima.

Smjernice za samousmjeravanje: poboljšanje kvalitete uzorka difuzijskih modela

Denoising Diffusion Models (DDM) stekli su popularnost zbog svoje sposobnosti stvaranja slika od šuma putem iterativnog procesa uklanjanja šuma. Sposobnost sinteze slike ovih modela uvelike je posljedica korištenih metoda difuzijskog vođenja. Unatoč svojim prednostima, difuzijski modeli i metode temeljene na smjernicama suočavaju se s izazovima poput dodatne složenosti i povećanih računalnih troškova.

Kako bi prevladali trenutna ograničenja, programeri su uveli metodu usmjeravanja samopažnje, općenitiju formulaciju navođenja difuzije koja se ne oslanja na vanjske informacije iz navođenja difuzije, čime se omogućuje fleksibilan pristup vođenju bez uvjeta difuzijski okviri. Pristup koji je odabralo Self-Attention Guidance u konačnici pomaže u poboljšanju primjenjivosti tradicionalnih metoda difuzijskog usmjeravanja na slučajeve sa ili bez vanjskih zahtjeva. 

Smjernice za samopažnju temelje se na jednostavnom načelu generalizirane formulacije i pretpostavci da unutarnje informacije sadržane u srednjim uzorcima također mogu poslužiti kao smjernice. Na temelju ovog načela, metoda SAG prva uvodi Blur Guidance, jednostavno i izravno rješenje za poboljšanje kvalitete uzorka. Smjernice za zamućivanje imaju za cilj iskoristiti benigna svojstva Gaussovog zamućenja kako bi se prirodno uklonili sitni detalji usmjeravanjem međuuzoraka korištenjem eliminiranih informacija kao rezultat Gaussovog zamućenja. Iako metoda navođenja Blur poboljšava kvalitetu uzorka s umjerenom ljestvicom navođenja, ne uspijeva replicirati rezultate na velikoj ljestvici navođenja jer često uvodi strukturnu dvosmislenost u cijelim regijama. Kao rezultat toga, metodi navođenja Blur teško je uskladiti izvorni unos s predviđanjem degradiranog unosa. Kako bi se poboljšala stabilnost i učinkovitost metode navođenja Blur na većoj ljestvici navođenja, Navođenje samopažnje pokušava iskoristiti mehanizam samopažnje modela difuzije budući da moderni difuzijski modeli već sadrže mehanizam samopažnje unutar svoje arhitekture. 

Uz pretpostavku da je samopažnja ključna za hvatanje istaknutih informacija u svojoj srži, metoda usmjeravanja samopažnje koristi mape samopažnje difuzijskih modela za kontradiktorno zamagljivanje područja koja sadrže istaknute informacije, i u tom procesu vodi difuzijski modeli sa potrebnim preostalim informacijama. Metoda zatim iskorištava mape pažnje tijekom obrnutog procesa modela difuzije, kako bi poboljšala kvalitetu slika i koristi samokondicioniranje za smanjenje artefakata bez potrebe za dodatnom obukom ili vanjskim informacijama. 

Ukratko, metoda usmjeravanja samopažnje

  1. To je novi pristup koji koristi unutarnje mape samopažnje difuzijskih okvira za poboljšanje kvalitete slike generiranog uzorka bez potrebe za dodatnom obukom ili oslanjanjem na vanjske uvjete. 
  2. SAG metoda pokušava generalizirati uvjetne metode vođenja u metodu bez uvjeta koja se može integrirati s bilo kojim difuzijskim modelom bez potrebe za dodatnim resursima ili vanjskim uvjetima, čime se poboljšava primjenjivost okvira temeljenih na vođenju. 
  3. SAG metoda također pokušava pokazati svoje ortogonalne sposobnosti postojećim uvjetnim metodama i okvirima, čime se olakšava povećanje performansi omogućavanjem fleksibilne integracije s drugim metodama i modelima. 

Nastavljajući dalje, metoda usmjeravanja pažnje na sebe uči iz nalaza srodnih okvira uključujući modele difuzije uklanjanja buke, smjernice uzorkovanja, generativne metode samousmjeravanja AI i interne prikaze modela difuzije. Međutim, u svojoj jezgri, metoda usmjeravanja samousmjeravanja implementira učenja iz DDPM-a ili vjerojatnosnih modela denoising difuzije, navođenja klasifikatora, usmjeravanja bez klasifikatora i okvira samopažnje u difuziji. O njima ćemo detaljnije govoriti u sljedećem odjeljku. 

Smjernice za samoosjećanje  : Preliminarni, metodologija i arhitektura

Denoising Diffusion Probabilistic Model ili DDPM

DDPM ili Probabilistički model uklanjanja šuma difuzije je model koji koristi iterativni postupak uklanjanja šuma za oporavak slike od bijelog šuma. Tradicionalno, DDPM model prima ulaznu sliku i raspored varijanci u vremenskom koraku za dobivanje slike korištenjem naprednog procesa poznatog kao Markovian proces. 

Klasifikator i smjernice bez klasifikatora s GAN implementacijom

GAN ili Generative Adversarial Networks posjeduju jedinstvenu trgovinsku raznolikost za vjernost, a kako bi se ova sposobnost GAN okvira prenijela na difuzijske modele, okvir Self-Attention Guidance predlaže korištenje metode navođenja klasifikatora koja koristi dodatni klasifikator. Nasuprot tome, metoda navođenja bez klasifikatora također se može implementirati bez upotrebe dodatnog klasifikatora da bi se postigli isti rezultati. Iako metoda daje željene rezultate, još uvijek nije računalno održiva jer zahtijeva dodatne oznake, a također ograničava okvir na modele uvjetne difuzije koji zahtijevaju dodatne uvjete poput teksta ili klase zajedno s dodatnim detaljima obuke koji povećavaju složenost model. 

Generalizirajuće difuzijsko vođenje

Iako metode klasifikatora i navođenja bez klasifikatora daju željene rezultate i pomažu kod uvjetnog generiranja u modelima difuzije, one ovise o dodatnim inputima. Za bilo koji dani vremenski korak, ulaz za model difuzije uključuje generalizirani uvjet i poremećeni uzorak bez generaliziranog uvjeta. Nadalje, generalizirano stanje obuhvaća unutarnje informacije unutar poremećenog uzorka ili vanjsko stanje, ili čak oboje. Rezultirajuće smjernice formulirane su korištenjem imaginarnog regresora uz pretpostavku da može predvidjeti generalizirano stanje. 

Poboljšanje kvalitete slike korištenjem karti samopažnje

Generalizirane difuzijske smjernice impliciraju da je moguće dati smjernice za obrnuti proces difuzijskih modela izdvajanjem istaknutih informacija u generaliziranim uvjetima sadržanim u perturbiranom uzorku. Nadovezujući se na isto, metoda Self-Attention Guidance učinkovito hvata važne informacije za obrnute procese dok istovremeno ograničava rizike koji nastaju kao rezultat problema izvan distribucije u unaprijed obučenim modelima difuzije. 

Smjernice za zamućivanje

Vođenje zamućivanja u Self-Attention Guidance temelji se na Gaussian Blur-u, metodi linearnog filtriranja u kojoj se ulazni signal konvolvira s Gaussovim filtrom za generiranje izlaza. Uz povećanje standardne devijacije, Gaussian Blur smanjuje sitne detalje unutar ulaznih signala i rezultira lokalno nerazlučivim ulaznim signalima tako što ih izglađuje prema konstanti. Nadalje, eksperimenti su ukazali na informacijsku neravnotežu između ulaznog signala i izlaznog signala Gaussovog zamućenja gdje izlazni signal sadrži više informacija u finoj skali. 

Na temelju ovog učenja okvir Self-Attention Guidance uvodi Blur guidance, tehniku ​​koja namjerno isključuje informacije iz posrednih rekonstrukcija tijekom procesa difuzije i umjesto toga koristi te informacije za vođenje svojih predviđanja prema povećanju relevantnosti slika za ulazne informacije. Smjernice za zamućenje u biti uzrokuju da izvorno predviđanje više odstupa od predviđanja zamućenog unosa. Nadalje, dobroćudno svojstvo Gaussovog zamućenja sprječava značajno odstupanje izlaznih signala od izvornog signala s umjerenim odstupanjem. Jednostavnim riječima, zamućenje se pojavljuje na slikama prirodno što Gaussovo zamućenje čini prikladnijom metodom za primjenu na unaprijed obučenim modelima difuzije. 

U cjevovodu Self-Attention Guidance, ulazni signal se prvo zamagljuje pomoću Gaussovog filtra, a zatim se raspršuje s dodatnim šumom kako bi proizveo izlazni signal. Čineći to, SAG cjevovod ublažava nuspojavu rezultirajućeg zamućenja koje smanjuje Gaussov šum i čini da se smjernice oslanjaju na sadržaj umjesto da ovise o nasumičnim šumovima. Iako navođenje zamućivanja daje zadovoljavajuće rezultate na okvirima s umjerenom ljestvicom navođenja, ne uspijeva replicirati rezultate na postojećim modelima s velikom ljestvicom navođenja jer postaje sklono stvaranju šumnih rezultata kao što je prikazano na sljedećoj slici. 

Ovi rezultati mogu biti rezultat strukturne dvosmislenosti unesene u okvir globalnim zamućenjem koje otežava SAG cjevovodu da uskladi predviđanja izvornog ulaza s degradiranim ulazom, što rezultira šumnim izlazima. 

Mehanizam samopažnje

Kao što je ranije spomenuto, modeli difuzije obično imaju ugrađenu komponentu samopažnje, a to je jedna od bitnijih komponenti u okviru modela difuzije. Mehanizam samopažnje implementiran je u srž difuzijskih modela i omogućuje modelu da obrati pozornost na istaknute dijelove ulaza tijekom generativnog procesa kao što je prikazano na sljedećoj slici s visokofrekventnim maskama u gornjem redu, i maske samopažnje u donjem redu konačno generiranih slika. 

Predložena metoda usmjeravanja samopažnje temelji se na istom principu i iskorištava mogućnosti mapa samopažnje u difuzijskim modelima. Općenito, metoda vođenja samopažnje zamagljuje samokontrolirane mrlje u ulaznom signalu ili jednostavnim riječima, prikriva informacije o mrljama kojima se bave difuzijski modeli. Nadalje, izlazni signali u Self-Attention Guidance sadrže netaknuta područja ulaznih signala što znači da to ne rezultira strukturnom dvosmislenošću ulaza i rješava problem globalnog zamućenja. Cjevovod zatim dobiva agregirane mape samopažnje provođenjem GAP-a ili Global Average Pooling-a za agregiranje karata samo-pažnje na dimenziju i povećanjem uzorkovanja najbližeg susjeda kako bi odgovaralo razlučivosti ulaznog signala. 

Usmjeravanje samopažnje: Eksperimenti i rezultati

Kako bi se ocijenila njegova izvedba, Self-Attention Guidance cjevovod je uzorkovan korištenjem 8 Nvidia GeForce RTX 3090 GPU-ova, a izgrađen je na unaprijed obučenim IDDPM, ADM i Stabilni difuzijski okviri

Bezuvjetna generacija s vodstvom samo-pažnje

Za mjerenje učinkovitosti SAG cjevovoda na bezuvjetnim modelima i demonstriranje svojstva bez uvjeta koje ne posjeduje Classifier Guidance i pristup Classifier Free Guidance, SAG cjevovod se izvodi na bezuvjetno unaprijed obučenim okvirima na 50 tisuća uzoraka. 

Kao što se može primijetiti, implementacija SAG cjevovoda poboljšava FID, sFID i IS metriku bezuvjetnog unosa dok istovremeno smanjuje vrijednost opoziva. Nadalje, kvalitativna poboljšanja kao rezultat implementacije SAG cjevovoda vidljiva su na sljedećim slikama gdje su slike na vrhu rezultati iz okvira ADM i Stable Diffusion, dok su slike na dnu rezultati iz okvira ADM i Stable Diffusion s okvirima SAG cjevovod. 

Uvjetna generacija sa SAG-om

Integracija SAG cjevovoda u postojeće okvire daje iznimne rezultate u bezuvjetnom stvaranju, a SAG cjevovod je sposoban za agnostičnost uvjeta koja omogućuje implementaciju SAG cjevovoda i za uvjetnu generaciju. 

Stabilna difuzija s vođenjem samopažnje

Iako izvorni okvir Stable Diffusion generira slike visoke kvalitete, integracija okvira Stable Diffusion s cjevovodom Self-Attention Guidance može drastično poboljšati rezultate. Kako bi procijenili njegov učinak, programeri koriste prazne upite za stabilnu difuziju s nasumičnim sjemenom za svaki par slika i koriste ljudsku procjenu na 500 parova slika sa i bez usmjeravanja samopažnje. Rezultati su prikazani na sljedećoj slici.  

Nadalje, implementacija SAG-a može poboljšati mogućnosti okvira stabilne difuzije jer spajanje navođenja bez klasifikatora s navođenjem samousmjeravanja može proširiti raspon modela stabilne difuzije na sintezu teksta u sliku. Nadalje, slike generirane iz modela stabilne difuzije s usmjeravanjem samopažnje više su kvalitete s manje artefakata zahvaljujući učinku samokondicioniranja SAG cjevovoda kao što je prikazano na sljedećoj slici. 

Trenutačna ograničenja

Iako implementacija cjevovoda Self-Attention Guidance može znatno poboljšati kvalitetu generiranih slika, ona ima neka ograničenja. 

Jedno od glavnih ograničenja je ortogonalnost s navođenjem pomoću klasifikatora i navođenjem bez klasifikatora. Kao što se može vidjeti na sljedećoj slici, implementacija SAG-a poboljšava FID rezultat i rezultat predviđanja što znači da SAG cjevovod sadrži ortogonalnu komponentu koja se može koristiti s tradicionalnim metodama navođenja istovremeno. 

Međutim, još uvijek zahtijeva obuku difuzijskih modela na specifičan način koji povećava složenost, kao i troškove računanja. 

Nadalje, implementacija Self-Attention Guidance ne povećava potrošnju memorije ili vremena, što je pokazatelj da je opterećenje koje proizlazi iz operacija poput maskiranja i zamućenja u SAG-u zanemarivo. Međutim, još uvijek povećava troškove računanja jer uključuje dodatni korak u usporedbi s pristupima bez usmjeravanja. 

Final Misli

U ovom smo članku govorili o usmjeravanju samopažnje, novoj i općoj formulaciji metode navođenja koja koristi unutarnje informacije dostupne unutar modela difuzije za generiranje visokokvalitetnih slika. Smjernice za samopažnju temelje se na jednostavnom načelu generalizirane formulacije i pretpostavci da unutarnje informacije sadržane u srednjim uzorcima također mogu poslužiti kao smjernice. Cjevovod Self-Attention Guidance je pristup bez uvjeta i treninga koji se može implementirati kroz različite modele difuzije i koristi samokondicioniranje za smanjenje artefakata u generiranim slikama i povećava ukupnu kvalitetu. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.