škrbina NVIDIA-jev eDiffi Diffusion Model omogoča "slikanje z besedami" in več - Unite.AI
Povežite se z nami

Umetna inteligenca

NVIDIA-jev eDiffi Diffusion Model omogoča "slikanje z besedami" in več

mm
Posodobljeno on

Poskus izdelave natančnih kompozicij z latentno difuzijsko generativnimi slikovnimi modeli, kot je npr Stabilna difuzija lahko kot pastirske mačke; enake domiselne in interpretativne moči, ki sistemu omogočajo, da ustvari izjemne podrobnosti in prikliče izjemne slike iz razmeroma preprostih besedilnih pozivov, je tudi težko izklopiti ko iščete nadzor nad ustvarjanjem slike na ravni Photoshopa.

Zdaj pa nov pristop raziskave NVIDIA z naslovom ansambelska difuzija za slike (eDiffi), uporablja mešanico več vdelanih in interpretativnih metod (namesto iste metode v celotnem cevovodu), da omogoči veliko višjo raven nadzora nad ustvarjeno vsebino. V spodnjem primeru vidimo uporabnika, ki slika elemente, kjer vsaka barva predstavlja eno besedo iz besedilnega poziva:

'Risanje z besedami' je ena od dveh novih zmožnosti v NVIDIA difuzijskem modelu eDiffi. Vsaka pobarvana barva predstavlja besedo iz poziva (glejte, da se med ustvarjanjem prikažejo na levi strani), uporabljena barva območja pa bo sestavljena samo iz tega elementa. Glej konec članka za vdelan uradni video z več primeri in boljšo ločljivostjo. Vir: https://www.youtube.com/watch?v=k6cOx9YjHJc

'Risanje z besedami' je ena od dveh novih zmožnosti v NVIDIA difuzijskem modelu eDiffi. Vsaka pobarvana barva predstavlja besedo iz poziva (glejte, da se med ustvarjanjem prikažejo na levi strani), uporabljena barva območja pa bo sestavljena samo iz tega elementa. Oglejte si izvorni (uradni) video za več primerov in boljšo ločljivost na https://www.youtube.com/watch?v=k6cOx9YjHJc

Dejansko je to 'slikanje z maskami' in obrne inslikarska paradigma v stabilni difuziji, ki temelji na popravljanju pokvarjenih ali nezadovoljivih slik ali razširitvi slik, ki bi prav tako lahko bile želene velikosti.

Namesto tega robovi poslikane risbe predstavljajo dovoljene približne meje samo enega edinstvenega elementa iz enega samega koncepta, kar uporabniku omogoča, da že od samega začetka nastavi končno velikost platna in nato diskretno doda elemente.

Primeri iz novega časopisa. Vir: https://arxiv.org/pdf/2211.01324.pdf

Primeri iz novega časopisa. Vir: https://arxiv.org/pdf/2211.01324.pdf

Raznolike metode, uporabljene v eDiffi, pomenijo tudi, da sistem veliko bolje vključi vsak element v dolge in podrobne pozive, medtem ko Stable Diffusion in DALL-E 2 OpenAI dajeta prednost določenim delom poziva, odvisno od tega, kako zgodaj je ciljne besede se pojavijo v pozivu ali na podlagi drugih dejavnikov, kot je morebitna težava pri ločevanju različnih elementov, ki so potrebni za popolno, a celovito (glede na besedilni poziv) sestavo:

Iz članka: eDiffi je sposoben temeljiteje iterirati skozi poziv, dokler ni upodobljeno največje možno število elementov. Čeprav so izboljšani rezultati za eDiffi (skrajni desni stolpec) izbrani, so prav tako primerjalne slike iz Stable Diffusion in DALL-E 2.

Iz članka: eDiffi je sposoben temeljiteje iterirati skozi poziv, dokler ni upodobljeno največje možno število elementov. Čeprav so izboljšani rezultati za eDiffi (skrajni desni stolpec) izbrani, so prav tako primerjalne slike iz Stable Diffusion in DALL-E 2.

Poleg tega je uporaba namenskega T5 kodirnik besedila v besedilo pomeni, da je eDiffi sposoben upodabljati razumljivo angleško besedilo, bodisi abstraktno zahtevano iz poziva (tj. slika vsebuje nekaj besedila [x]) ali izrecno zahtevano (tj na majici piše 'Nvidia Rocks'):

Namenska obdelava besedila v besedilo v eDiffi pomeni, da je besedilo mogoče dobesedno upodobiti v slikah, namesto da bi se izvajalo samo skozi interpretativno plast besedila v sliko, ki pokvari izpis.

Namenska obdelava besedila v besedilo v eDiffi pomeni, da je besedilo mogoče dobesedno upodobiti v slikah, namesto da bi se izvajalo samo skozi interpretativno plast besedila v sliko, ki pokvari izpis.

Nadaljnji dodatek k novemu ogrodju je, da je mogoče zagotoviti tudi eno samo sliko kot slogovni poziv, namesto da bi bilo treba uriti model DreamBooth ali besedilno vdelavo na več primerih žanra ali slog.

Prenos sloga je mogoče uporabiti iz referenčne slike v poziv za besedilo v sliko ali celo poziv iz slike v sliko.

Prenos sloga je mogoče uporabiti iz referenčne slike v poziv za besedilo v sliko ali celo poziv iz slike v sliko.

O nov papir je naslovljen eDiffi: modeli razpršitve besedila v sliko s skupino strokovnih zmanjševalnikov šumain

Kodirnik besedila T5

Uporaba Googlovega TTransformator za prenos ext-to-text (T5) je ključni element v izboljšanih rezultatih, prikazanih v eDiffi. Povprečni latentni difuzijski cevovod se osredotoča na povezavo med treniranimi slikami in napisi, ki so jih spremljali, ko so bile postrgane z interneta (ali pozneje ročno prilagojene, čeprav je to drag in zato redek poseg).

Iz dokumenta iz julija 2020 za T5 – transformacije na podlagi besedila, ki lahko pomagajo pri delovnem toku generativne slike v eDiffi (in potencialno drugih modelih latentne difuzije). Vir: https://arxiv.org/pdf/1910.10683.pdf

Iz dokumenta iz julija 2020 za T5 – transformacije na podlagi besedila, ki lahko pomagajo pri delovnem toku generativne slike v eDiffi (in potencialno drugih modelih latentne difuzije). Vir: https://arxiv.org/pdf/1910.10683.pdf

S preoblikovanjem izvornega besedila in izvajanjem modula T5 je mogoče pridobiti natančnejše povezave in predstavitve, kot so bile prvotno usposobljene v modelu, skoraj podobne post fact ročno označevanje, z večjo specifičnostjo in uporabnostjo glede na določila zahtevanega besedilnega poziva.

Avtorji pojasnjujejo:

„V večini obstoječih del o difuzijskih modelih je model za odpravljanje šumov deljen na vseh ravneh hrupa, časovna dinamika pa je predstavljena z uporabo preproste časovne vdelave, ki se dovaja v model za odpravljanje šumov prek omrežja MLP. Trdimo, da se zapletene časovne dinamike difuzije za odpravljanje hrupa morda ne bo mogoče naučiti iz podatkov učinkovito z uporabo skupnega modela z omejeno zmogljivostjo.

„Namesto tega predlagamo povečanje zmogljivosti modela za odpravljanje šumov z uvedbo skupine strokovnjakov za odpravljanje šumov; vsak strokovnjak za zmanjševanje hrupa je model za zmanjševanje hrupa, specializiran za določen obseg [ravni] šuma. Na ta način lahko povečamo zmogljivost modela, ne da bi upočasnili vzorčenje, saj računalniška kompleksnost ocenjevanja [obdelanega elementa] pri vsaki ravni hrupa ostane enaka.'

Konceptualni potek dela za eDiffi.

Konceptualni potek dela za eDiffi.

Obstoječe CLIP moduli za kodiranje, vključeni v DALL-E 2 in Stable Diffusion, so prav tako sposobni najti alternativne interpretacije slik za besedilo, povezano z uporabniškim vnosom. Vendar se učijo na podobnih informacijah kot izvirni model in se ne uporabljajo kot ločena razlagalna plast na način, kot je T5 v eDiffi.

Avtorji navajajo, da je eDiffi prvič, da sta bila oba kodirnika T5 in CLIP vključena v en sam cevovod:

„Ker sta ta dva kodirnika usposobljena z različnimi cilji, njune vdelave dajejo prednost oblikovanju različnih slik z istim vhodnim besedilom. Medtem ko vdelave besedila CLIP pomagajo določiti globalni videz ustvarjenih slik, izhodi ponavadi pogrešajo drobnozrnate podrobnosti v besedilu.

Nasprotno pa slike, ustvarjene samo z vdelavo besedila T5, bolje odražajo posamezne predmete, opisane v besedilu, vendar je njihov globalni videz manj natančen. Njihova skupna uporaba daje najboljše rezultate generiranja slike v našem modelu.'

Prekinitev in povečanje difuzijskega procesa

Prispevek ugotavlja, da bo tipičen model latentne difuzije začel pot od čistega šuma do slike tako, da se bo v zgodnjih fazah generiranja zanašal izključno na besedilo.

Ko se šum razreši v nekakšno grobo postavitev, ki predstavlja opis v besedilnem pozivu, besedilno vodeni vidik postopka v bistvu odpade, preostali del postopka pa se premakne k povečanju vizualnih funkcij.

To pomeni, da je kateri koli element, ki ni bil razrešen na nastajajoči stopnji besedilno vodenega tolmačenja hrupa, kasneje težko vnesti v sliko, ker se oba procesa (besedilo v postavitev in postavitev v sliko) razmeroma malo prekrivata. , in osnovna postavitev je precej zapletena, ko pride do postopka povečave slike.

Iz prispevka: zemljevidi pozornosti različnih delov cevovoda, ko proces hrupa>slike dozoreva. Vidimo lahko močan padec vpliva CLIP slike v spodnji vrstici, medtem ko T5 še naprej vpliva na sliko veliko dlje v procesu upodabljanja.

Iz prispevka: zemljevidi pozornosti različnih delov cevovoda, ko proces hrupa>slike dozoreva. Vidimo lahko močan padec vpliva CLIP slike v spodnji vrstici, medtem ko T5 še naprej vpliva na sliko veliko dlje v procesu upodabljanja.

Strokovni potencial

Primeri na strani projekta in videoposnetki YouTube so osredotočeni na PR-prijazno generiranje ljubkih slik, ki so tastične na meme. Kot običajno raziskave NVIDIA zmanjšujejo potencial svoje najnovejše inovacije za izboljšanje fotorealističnih ali VFX delovnih tokov, kot tudi njen potencial za izboljšanje globoko ponarejenih slik in videa.

V primerih novinec ali amaterski uporabnik načečka grobe obrise umestitve za določen element, medtem ko je v bolj sistematičnem delovnem toku VFX mogoče uporabiti eDiffi za interpretacijo več okvirjev video elementa s pretvorbo besedila v sliko, pri čemer obrisi so zelo natančni in temeljijo na primer na številkah, kjer je bilo ozadje izpuščeno z zelenim zaslonom ali algoritemskimi metodami.

Runway ML že omogoča rotoskopiranje na osnovi umetne inteligence. V tem primeru 'zeleni zaslon' okoli subjekta predstavlja plast alfa, medtem ko je bila ekstrakcija dosežena s strojnim učenjem in ne z algoritemsko odstranitvijo zelenega ozadja v realnem svetu. Vir: https://twitter.com/runwayml/status/1330978385028374529

Runway ML že omogoča rotoskopiranje na osnovi umetne inteligence. V tem primeru 'zeleni zaslon' okoli subjekta predstavlja plast alfa, medtem ko je bila ekstrakcija dosežena s strojnim učenjem in ne z algoritemsko odstranitvijo zelenega ozadja v realnem svetu. Vir: https://twitter.com/runwayml/status/1330978385028374529

Uporaba usposobljenega dreambooth znakov in cevovoda od slike do slike z eDiffijem, je potencialno mogoče začeti reševati enega od hroščev kaj model latentne difuzije: časovna stabilnost. V takem primeru bi bili tako robovi vsiljene slike kot vsebina slike 'predlebdeči' proti uporabniškemu platnu, s časovno kontinuiteto upodobljene vsebine (tj. spreminjanje praktikanta tai čija v resničnem svetu v robota ), zagotovljeno z uporabo zaklenjenega modela DreamBooth, ki si je 'zapomnil' svoje podatke o usposabljanju – slabo za interpretabilnost, odlično za ponovljivost, zvestobo in kontinuiteto.

Metoda, podatki in testi

Prispevek navaja, da je bil model eDiffi usposobljen za 'zbirko javnih in lastniških naborov podatkov', močno filtriranih z vnaprej usposobljenim modelom CLIP, da bi odstranili slike, ki bi verjetno znižale splošno estetsko oceno izhoda. Končni nabor filtriranih slik obsega 'približno milijardo' parov besedilo-slika. Velikost treniranih slik je opisana kot z 'najkrajšo stranjo, večjo od 64 slikovnih pik'.

Številni modeli so bili usposobljeni za ta proces, pri čemer so bili tako osnovni kot modeli z visoko ločljivostjo usposobljeni na AdamW optimizator s hitrostjo učenja 0.0001, z upadom teže 0.01 in z izjemno velikostjo serije 2048.

Osnovni model je bil usposobljen na 256 grafičnih procesorjih NVIDIA A100, dva modela z visoko ločljivostjo pa na 128 grafičnih procesorjih NVIDIA A100 GPE za vsak model.

Sistem je temeljil na lastnem sistemu NVIDIA Imaginaire Knjižnica PyTorch. COCO in nabori podatkov Visual Genome so bili uporabljeni za vrednotenje, čeprav niso bili vključeni v končne modele, s MS-COCO posebna različica, uporabljena za testiranje. Testirani konkurenčni sistemi so bili GLEDE, Make-A-Scene, DALL-E2, Stabilna difuzijain dva Googlova sistema za sintezo slik, Slika in Deli.

V skladu s podobnim pred delo, ničelni FID-30K je bila uporabljena kot merilo vrednotenja. Pod FID-30K je 30,000 napisov naključno ekstrahiranih iz nabora za preverjanje COCO (tj. ne slik ali besedila, uporabljenega pri usposabljanju), ki so bili nato uporabljeni kot besedilni pozivi za sintezo slik.

Frechetova začetna razdalja (FID) med generiranimi in zemeljskimi slikami resnice je bil nato izračunan poleg beleženja ocene CLIP za generirane slike.

Rezultati testov FID z ničelnim strelom v primerjavi s trenutnimi najsodobnejšimi pristopi na naboru validacijskih podatkov COCO 2014, pri čemer so nižji rezultati boljši.

Rezultati testov FID z ničelnim strelom v primerjavi s trenutnimi najsodobnejšimi pristopi na naboru validacijskih podatkov COCO 2014, pri čemer so nižji rezultati boljši.

V rezultatih je eDiffi lahko dosegel najnižji (najboljši) rezultat pri FID z ničelnim strelom celo v primerjavi s sistemi z veliko večjim številom parametrov, kot je 20 milijard parametrov Parti, v primerjavi z 9.1 milijarde parametrov v najvišjem specificiran model eDiffi, usposobljen za teste.

zaključek

eDiffi družbe NVIDIA predstavlja dobrodošlo alternativo preprostemu dodajanju vedno večjih količin podatkov in kompleksnosti obstoječim sistemom, namesto da bi uporabil bolj inteligenten in večplasten pristop k nekaterim najtežjim oviram v zvezi s prepletanjem in neurejanjem v sistemih generativne slike z latentno difuzijo.

Na Stable Diffusion subreddits in Discords že potekajo razprave bodisi o neposredni vključitvi katere koli kode, ki bi lahko bila na voljo za eDiffi, bodisi o ponovni uprizoritvi načel, ki stojijo za njo, v ločeni izvedbi. Novi načrt pa je tako radikalno drugačen, da bi predstavljal celotno številko različice spremembe za SD, pri čemer bi opustil nekaj združljivosti za nazaj, čeprav ponuja možnost močno izboljšanih ravni nadzora nad končnimi sintetiziranimi slikami, ne da bi pri tem žrtvovali očarljivo sliko. domišljijske moči latentne difuzije.

 

Prvič objavljeno 3. novembra 2022.