Dirbtinis intelektas

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Atnaujinta on Sausis 2, 2024

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Triukšmo mažinimo difuzijos modeliai yra generatyvinės AI sistemos, kurios sintezuoja vaizdus iš triukšmo per pasikartojantį triukšmo mažinimo procesą. Jie garsėja dėl išskirtinių vaizdų generavimo galimybių ir įvairovės, daugiausia priskiriamų teksto arba klasės sąlyginiams vadovavimo metodams, įskaitant nurodymus pagal klasifikatorių ir nurodymus be klasifikatorių. Šie modeliai buvo ypač sėkmingi kuriant įvairius, aukštos kokybės vaizdus. Naujausi tyrimai parodė, kad orientavimo metodai, tokie kaip klasių antraštės ir etiketės, atlieka lemiamą vaidmenį gerinant šių modelių sukuriamų vaizdų kokybę.

Tačiau difuzijos modeliai ir valdymo metodai tam tikromis išorinėmis sąlygomis susiduria su apribojimais. Vadovavimo be klasifikatoriaus (CFG) metodas, kuriame naudojamas etikečių pašalinimas, padidina mokymo proceso sudėtingumą, o taikant klasifikatoriaus orientavimo (CG) metodą būtinas papildomas klasifikatoriaus mokymas. Abu metodus šiek tiek riboja jų priklausomybė nuo sunkiai uždirbtų išorinių sąlygų, ribojant jų galimybes ir apsiribojant sąlyginiais parametrais.

Siekdami pašalinti šiuos apribojimus, kūrėjai suformulavo bendresnį požiūrį į sklaidos gaires, žinomus kaip savęs dėmesio gairės (SAG). Šis metodas vaizdams generuoti panaudoja informaciją iš tarpinių difuzijos modelių pavyzdžių. Šiame straipsnyje išnagrinėsime SAG, aptardami jo veikimą, metodiką ir rezultatus, palyginti su dabartinėmis pažangiausiomis sistemomis ir vamzdynais.

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Denoising Diffusion Models (DDM) išpopuliarėjo dėl savo gebėjimo kurti vaizdus iš triukšmo per pasikartojantį triukšmo slopinimo procesą. Šių modelių vaizdo sintezės meistriškumas daugiausia priklauso nuo taikomų difuzijos valdymo metodų. Nepaisant jų privalumų, difuzijos modeliai ir orientaciniai metodai susiduria su tokiais iššūkiais kaip sudėtingesnis ir padidėjusios skaičiavimo išlaidos.

Siekdami įveikti dabartinius apribojimus, kūrėjai pristatė savarankiško dėmesio gairių metodą – bendresnę sklaidos gairių formuluotę, kuri nesiremia išorine sklaidos gairių informacija, taip palengvinant besąlyginį ir lankstų metodą vadovaujant. difuzijos karkasai. „Self-Attention Guidance“ pasirinktas metodas galiausiai padeda pagerinti tradicinių sklaidos valdymo metodų taikymą tais atvejais, kai yra arba be išorinių reikalavimų.

Savęs dėmesio gairės yra pagrįstos paprastu apibendrintos formuluotės principu ir prielaida, kad vidinė informacija, esanti tarpiniuose pavyzdžiuose, taip pat gali būti kaip gairės. Remiantis šiuo principu, SAG metodas pirmiausia pristato Blur Guidance – paprastą ir nesudėtingą sprendimą mėginio kokybei pagerinti. Suliejimo gairėmis siekiama išnaudoti gerąsias Gauso suliejimo savybes, kad būtų natūraliai pašalintos smulkios detalės, nukreipiant tarpinius mėginius, naudojant pašalintą informaciją dėl Gauso suliejimo. Nors suliejimo orientavimo metodas pagerina mėginio kokybę naudojant vidutinę orientavimo skalę, jis nesugeba atkartoti rezultatų didelėje orientavimo skalėje, nes dažnai sukelia struktūrinį dviprasmiškumą ištisuose regionuose. Dėl to, naudojant suliejimo valdymo metodą, sunku suderinti pradinę įvestį su pablogėjusios įvesties prognoze. Siekiant padidinti Blur valdymo metodo stabilumą ir veiksmingumą didesniu gairių mastu, savęs dėmesio gairėse bandoma išnaudoti difuzijos modelių dėmesio į save mechanizmą, nes šiuolaikiniuose difuzijos modeliuose jų architektūroje jau yra dėmesio į save mechanizmas.

Darant prielaidą, kad dėmesys į save yra būtinas norint užfiksuoti svarbiausią informaciją, savęs dėmesio orientavimo metodas naudoja difuzijos modelių dėmesio į save žemėlapius, kad priešingai sulietų sritis, kuriose yra svarbi informacija, ir šiame procese vadovaujasi difuzijos modeliai su reikalinga likusia informacija. Tada metodas panaudoja dėmesio žemėlapius difuzijos modelių atvirkštinio proceso metu, kad pagerintų vaizdų kokybę, ir naudoja savireguliavimą, kad sumažintų artefaktus, nereikalaujant papildomo mokymo ar išorinės informacijos.

Apibendrinant, savęs dėmesio nukreipimo metodas

Tai naujas metodas, kuris naudoja vidinius difuzijos sistemų savęs dėmesio žemėlapius, kad pagerintų sugeneruoto vaizdo pavyzdžio kokybę, nereikalaujant jokio papildomo mokymo ar pasikliaujant išorinėmis sąlygomis.
SAG metodu bandoma apibendrinti sąlyginio orientavimo metodus į besąlyginį metodą, kuris gali būti integruotas su bet kokiu sklaidos modeliu, nereikalaujant papildomų išteklių ar išorinių sąlygų, taip padidinant orientavimo struktūrų pritaikomumą.
SAG metodas taip pat bando parodyti savo ortogonalumą esamiems sąlyginiams metodams ir sistemoms, taip palengvindamas našumo padidėjimą, palengvindamas lanksčią integraciją su kitais metodais ir modeliais.

Savęs dėmesio orientavimo metodas mokomasi iš susijusių sistemų, įskaitant triukšmo slopinimo difuzijos modelius, atrankos gaires, generatyvius AI savęs dėmesio metodus ir difuzijos modelių vidines reprezentacijas, išvadų. Tačiau iš esmės, dėmesio į save orientavimo metodas įgyvendina mokymąsi iš DDPM arba slopinančios difuzijos tikimybių modelių, klasifikatoriaus vadovavimo, vadovavimo be klasifikatoriaus ir dėmesio į save difuzijos sistemose. Apie juos išsamiai kalbėsime būsimame skyriuje.

Atkreipti dėmesį į save : paruošiamieji darbai, metodika ir architektūra

Triukšmo slopinimo difuzijos tikimybinis modelis arba DDPM

DDPM arba Triukšmo slopinimo difuzijos tikimybinis modelis yra modelis, kuris naudoja kartotinį triukšmo mažinimo procesą, kad atkurtų vaizdą iš baltojo triukšmo. Tradiciškai DDPM modelis vienu laiko žingsniu gauna įvesties vaizdą ir dispersijos tvarkaraštį, kad gautų vaizdą, naudojant pirminį procesą, žinomą kaip Markovo procesas.

Klasifikatorius ir vadovas be klasifikatorių su GAN diegimu

GAN arba Generative Adversarial Networks turi unikalią prekybos įvairovę, kad būtų užtikrintas tikslumas, o kad šis GAN sistemų gebėjimas būtų pritaikytas sklaidos modeliams, „Self-Attention Guidance“ sistemoje siūloma naudoti klasifikatoriaus valdymo metodą, kuriame naudojamas papildomas klasifikatorius. Ir atvirkščiai, siekiant tų pačių rezultatų, valdymo metodas be klasifikatoriaus gali būti įgyvendintas ir nenaudojant papildomo klasifikatoriaus. Nors šis metodas duoda norimų rezultatų, jis vis tiek nėra perspektyvus skaičiuojant, nes jam reikia papildomų etikečių, be to, sistema apsiriboja sąlyginės sklaidos modeliais, kuriems reikalingos papildomos sąlygos, pvz., tekstas ar klasė, kartu su papildoma mokymo informacija, kuri dar labiau apsunkina modelis.

Apibendrinančios difuzijos gairės

Nors klasifikatoriaus ir neklasifikatoriaus valdymo metodai duoda norimus rezultatus ir padeda sąlygiškai generuoti difuzijos modelius, jie priklauso nuo papildomų įvesties. Bet kuriam tam tikram laiko žingsniui difuzijos modelio įvestį sudaro apibendrinta sąlyga ir sutrikęs mėginys be apibendrintos sąlygos. Be to, apibendrinta sąlyga apima vidinę informaciją sutrikdytame pavyzdyje arba išorinę būklę, arba net abu. Gautos gairės suformuluotos naudojant įsivaizduojamą regresorių, darant prielaidą, kad jis gali numatyti apibendrintą būklę.

Vaizdo kokybės gerinimas naudojant savęs dėmesio žemėlapius

Apibendrintos difuzijos gairės reiškia, kad įmanoma pateikti gaires apie atvirkštinį difuzijos modelių procesą, ištraukiant svarbiausią informaciją apibendrintai, esančia sutrikdytame mėginyje. Remiantis tuo pačiu, savęs dėmesio nukreipimo metodas efektyviai fiksuoja svarbiausią atvirkštinių procesų informaciją, tuo pačiu apribodamas riziką, kylančią dėl paskirstymo problemų, susijusių su iš anksto parengtais sklaidos modeliais.

Suliejimo vadovas

Suliejimo gairės programoje Self Attention Guidance remiasi Gauso suliejimo metodu, tiesiniu filtravimo metodu, kai įvesties signalas sujungiamas su Gauso filtru, kad būtų sukurta išvestis. Padidėjus standartiniam nuokrypiui, Gauso suliejimas sumažina smulkias įvesties signalų detales ir sukuria vietiškai neišskiriamus įvesties signalus, išlygindamas juos konstantos link. Be to, eksperimentai parodė informacijos disbalansą tarp įvesties signalo ir Gauso suliejimo išvesties signalo, kai išvesties signale yra daugiau tikslios informacijos.

Remiantis šiuo mokymusi, savęs dėmesio gairių sistema pristato suliejimo gaires, techniką, kuri tyčia pašalina informaciją iš tarpinių rekonstrukcijų sklaidos proceso metu, o vietoj to naudoja šią informaciją, kad nukreiptų savo prognozes, kaip padidinti vaizdų tinkamumą įvesties informacija. Suliejimo nurodymai iš esmės lemia, kad pradinis numatymas labiau nukrypsta nuo neryškios įvesties numatymo. Be to, gerybinė Gauso suliejimo savybė neleidžia išvesties signalams smarkiai nukrypti nuo pradinio signalo su nedideliu nuokrypiu. Paprastais žodžiais tariant, vaizdų susiliejimas atsiranda natūraliai, todėl Gauso suliejimas yra tinkamesnis metodas taikyti iš anksto parengtiems difuzijos modeliams.

Naudojant „Self-Attention Guidance“ vamzdyną įvesties signalas pirmiausia suliejamas naudojant Gauso filtrą, o tada išsklaidomas papildomu triukšmu, kad būtų sukurtas išvesties signalas. Tai darydamas SAG dujotiekis sumažina šalutinį susiliejimo poveikį, kuris sumažina Gauso triukšmą, o nurodymai priklauso nuo turinio, o ne nuo atsitiktinio triukšmo. Nors suliejimo valdymas duoda patenkinamus rezultatus sistemose su vidutine orientavimo skale, ji nesugeba atkartoti esamų modelių su didele orientavimo skale rezultatų, nes gali gauti triukšmingus rezultatus, kaip parodyta kitame paveikslėlyje.

Šie rezultatai gali būti dėl struktūrinio dviprasmiškumo, kurį sistemoje sukėlė visuotinis suliejimas, dėl kurio SAG dujotiekiui sunku suderinti pradinės įvesties prognozes su pablogėjusia įvestimi, todėl išvestis yra triukšminga.

Dėmesio į save mechanizmas

Kaip minėta anksčiau, difuzijos modeliai paprastai turi įmontuotą savęs dėmesio komponentą ir yra vienas iš svarbiausių komponentų difuzijos modelio sistemoje. Savęs dėmesio mechanizmas yra įdiegtas difuzijos modelių centre ir leidžia modeliui atkreipti dėmesį į svarbiausias įvesties dalis generavimo proceso metu, kaip parodyta toliau pateiktame paveikslėlyje su aukšto dažnio kaukėmis viršutinėje eilutėje. ir dėmesio į save kaukes apatinėje pagaliau sugeneruotų vaizdų eilutėje.

Siūlomas dėmesio į save orientavimo metodas remiasi tuo pačiu principu ir išnaudoja dėmesio į save žemėlapių galimybes difuzijos modeliuose. Apskritai, „Self-Attention Guidance“ metodas sulieja įvesties signalo savarankiškai prižiūrimus pleistrus arba paprastais žodžiais tariant, paslepia informaciją apie pleistrus, į kuriuos patenka difuzijos modeliai. Be to, „Self-Attention Guidance“ išvesties signaluose yra nepažeistų įvesties signalų sričių, o tai reiškia, kad tai nesukelia struktūrinių įvesties dviprasmybių ir išsprendžia visuotinio suliejimo problemą. Tada dujotiekis gauna apibendrintus savęs dėmesio žemėlapius, atlikdamas GAP arba Global Average Pooling, kad sukauptų dėmesio į save žemėlapius pagal matmenis, ir padidintų artimiausio kaimyno atranką, kad atitiktų įvesties signalo skiriamąją gebą.

Savęs dėmesio gairės: eksperimentai ir rezultatai

Norint įvertinti jo veikimą, „Self-Attention Guidance“ dujotiekis atrenkamas naudojant 8 „Nvidia GeForce RTX 3090“ GPU ir yra sukurtas remiantis iš anksto apmokytais IDDPM, ADM ir Stabilios difuzijos karkasai.

Besąlyginė karta su dėmesio sau vadovavimu

Norint išmatuoti SAG dujotiekio efektyvumą besąlyginiuose modeliuose ir parodyti besąlyginę savybę, kurios neturi Klasifikatoriaus gairės ir Vadovavimas be klasifikatoriaus, SAG dujotiekis naudojamas besąlygiškai iš anksto parengtose sistemose 50 tūkstančių mėginių.

Kaip galima pastebėti, SAG dujotiekio įdiegimas pagerina besąlyginės įvesties FID, sFID ir IS metriką, tuo pačiu sumažinant atšaukimo reikšmę. Be to, kokybiniai patobulinimai dėl SAG dujotiekio diegimo yra akivaizdūs toliau pateiktuose vaizduose, kur vaizdai viršuje yra ADM ir Stable Diffusion struktūrų rezultatai, o vaizdai apačioje yra ADM ir Stable Diffusion struktūrų su SAG vamzdynas.

Sąlyginė generacija su SAG

SAG dujotiekio integravimas į esamas sistemas duoda išskirtinių besąlyginio generavimo rezultatų, o SAG dujotiekis gali atlikti sąlygų agnosticiškumą, kuris leidžia SAG dujotiekį įdiegti ir sąlyginiam generavimui.

Stabili difuzija su dėmesio į save orientacija

Nors originali Stable Diffusion sistema sukuria aukštos kokybės vaizdus, stabilios difuzijos sistemos integravimas su Self-Attention Guidance vamzdynu gali drastiškai pagerinti rezultatus. Kad įvertintų jo poveikį, kūrėjai naudoja tuščias stabilios sklaidos raginimus su atsitiktine kiekvienos vaizdų poros sėkla ir naudoja žmogaus įvertinimą 500 vaizdų porų su ir be savęs dėmesio gairių. Rezultatai parodyti toliau pateiktame paveikslėlyje.

Be to, SAG įdiegimas gali pagerinti stabilios sklaidos sistemos galimybes, nes sujungus be klasifikatoriaus orientavimo ir dėmesio nukreipimo gaires galima išplėsti stabilios difuzijos modelių asortimentą iki teksto į vaizdą sintezės. Be to, dėl SAG dujotiekio savaiminio kondicionavimo efekto, kaip parodyta toliau pateiktame paveikslėlyje, sukurti vaizdai iš stabilios difuzijos modelio su savęs dėmesio nukreipimu yra aukštesnės kokybės ir mažiau artefaktų.

Dabartiniai apribojimai

Nors „Self-Attention Guidance“ vamzdyno įdiegimas gali iš esmės pagerinti sugeneruotų vaizdų kokybę, jis turi tam tikrų apribojimų.

Vienas iš pagrindinių apribojimų yra ortogonalumas naudojant klasifikatoriaus nurodymus ir nurodymus be klasifikatoriaus. Kaip galima pastebėti toliau pateiktame paveikslėlyje, SAG įdiegimas pagerina FID balą ir numatymo balą, o tai reiškia, kad SAG dujotiekyje yra stačiakampis komponentas, kurį galima naudoti su tradiciniais valdymo metodais vienu metu.

Tačiau vis tiek reikia, kad difuzijos modeliai būtų mokomi tam tikru būdu, o tai padidina sudėtingumą ir padidina skaičiavimo išlaidas.

Be to, įdiegus dėmesį į save orientuojant, nepadidėja atminties ar laiko sąnaudos, o tai rodo, kad papildomos išlaidos, atsirandančios dėl tokių operacijų kaip maskavimas ir suliejimas SAG, yra nereikšmingos. Tačiau tai vis tiek padidina skaičiavimo sąnaudas, nes apima papildomą veiksmą, palyginti su nereikalingais metodais.

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie savęs dėmesio gaires – naują ir bendrą gairių metodo formuluotę, kuri naudoja sklaidos modeliuose esančią vidinę informaciją aukštos kokybės vaizdams generuoti. Savęs dėmesio gairės yra pagrįstos paprastu apibendrintos formuluotės principu ir prielaida, kad vidinė informacija, esanti tarpiniuose pavyzdžiuose, taip pat gali būti kaip gairės. „Self-Attention Guidance“ vamzdynas yra nereikalaujantis sąlygų ir nereikalaujantis mokymo, kuris gali būti taikomas įvairiuose difuzijos modeliuose ir naudoja savireguliavimą, kad sumažintų sugeneruotų vaizdų artefaktus ir pagerintų bendrą kokybę.

Susijusios temos:Triukšmo slopinimas difuzijos modeliai

Kitas

Kas yra atkūrimo papildyta karta?

Nepraleiskite

Generatyvaus AI socialinis poveikis: nauda ir grėsmės

Kunal Kejriwal

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.

Susivienyti.AI

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Dirbtinis intelektas

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Turinys

Savęs dėmesio gairės: difuzijos modelių pavyzdžių kokybės gerinimas

Atkreipti dėmesį į save : paruošiamieji darbai, metodika ir architektūra

Triukšmo slopinimo difuzijos tikimybinis modelis arba DDPM