stub NVIDIA „eDiffi“ difuzijos modelis leidžia „piešti žodžiais“ ir dar daugiau – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

NVIDIA „eDiffi“ difuzijos modelis leidžia „piešti žodžiais“ ir dar daugiau

mm
Atnaujinta on

Bandoma padaryti tikslias kompozicijas su latentinės difuzijos generuojamojo vaizdo modeliais, tokiais kaip Stabili difuzija gali būti kaip ganomos katės; tos pačios vaizduotės ir interpretacinės galios, leidžiančios sistemai sukurti nepaprastas detales ir iš palyginti paprastų teksto raginimų išgauti nepaprastus vaizdus sunku išjungti kai ieškote „Photoshop“ lygio vaizdo generavimo valdymo.

Dabar naujas NVIDIA tyrimų metodas, pavadintas ansamblio difuzija vaizdams (eDiffi), naudoja kelių įdėjimo ir interpretavimo metodų derinį (o ne tą patį metodą per visą dujotiekį), kad būtų galima žymiai geriau valdyti sugeneruotą turinį. Toliau pateiktame pavyzdyje matome, kaip vartotojas piešia elementus, kur kiekviena spalva reiškia vieną žodį iš teksto raginimo:

„Tapyba žodžiais“ yra viena iš dviejų naujų NVIDIA „eDiffi“ sklaidos modelio galimybių. Kiekviena išmarginta spalva reiškia žodį iš raginimo (žr., generavimo metu jie rodomi kairėje), o pritaikytą srities spalvą sudarys tik tas elementas. Žr. straipsnio pabaigoje įterptą oficialų vaizdo įrašą su daugiau pavyzdžių ir geresne raiška. Šaltinis: https://www.youtube.com/watch?v=k6cOx9YjHJc

„Tapyba žodžiais“ yra viena iš dviejų naujų NVIDIA „eDiffi“ sklaidos modelio galimybių. Kiekviena išmarginta spalva reiškia žodį iš raginimo (žr., generavimo metu jie rodomi kairėje), o pritaikytą srities spalvą sudarys tik tas elementas. Daugiau pavyzdžių ir geresnės skiriamosios gebos rasite šaltinio (oficialiame) vaizdo įraše https://www.youtube.com/watch?v=k6cOx9YjHJc

Iš esmės tai yra „piešimas kaukėmis“ ir apverčia itapybos paradigma stabilioje difuzijoje, kuri pagrįsta sugedusių ar nepatenkinamų vaizdų taisymu arba vaizdų išplėtimu, kurie iš pradžių taip pat galėjo būti norimo dydžio.

Vietoj to, nudažyto taško paraštės rodo leistinas apytiksles vieno unikalaus elemento ribas iš vienos koncepcijos, leidžiančią vartotojui iš pat pradžių nustatyti galutinį drobės dydį ir tada diskretiškai pridėti elementus.

Pavyzdžiai iš naujojo popieriaus. Šaltinis: https://arxiv.org/pdf/2211.01324.pdf

Pavyzdžiai iš naujojo popieriaus. Šaltinis: https://arxiv.org/pdf/2211.01324.pdf

Įvairūs „eDiffi“ metodai taip pat reiškia, kad sistema atlieka daug geresnį darbą įtraukdama kiekvieną elementą į ilgus ir išsamius raginimus, o „Stable Diffusion“ ir „OpenAI“ DALL-E 2 linkę teikti pirmenybę tam tikroms raginimo dalims, atsižvelgiant į tai, kaip anksti tiksliniai žodžiai atsiranda raginime arba dėl kitų veiksnių, pvz., galimų sunkumų atskiriant įvairius elementus, reikalingus pilnai, bet išsamiai (teksto raginimo atžvilgiu) kompozicijai:

Iš popieriaus: „eDiffi“ gali kruopščiau kartoti raginimą, kol bus pateiktas didžiausias galimas elementų skaičius. Nors patobulinti „eDiffi“ (dešinėje esanti stulpelis) rezultatai yra labai svarbūs, taip pat ir palyginamieji „Stable Diffusion“ ir „DALL-E 2“ vaizdai.

Iš popieriaus: „eDiffi“ gali kruopščiau kartoti raginimą, kol bus pateiktas didžiausias galimas elementų skaičius. Nors patobulinti „eDiffi“ (dešinėje esanti stulpelis) rezultatai yra labai svarbūs, taip pat ir palyginamieji „Stable Diffusion“ ir „DALL-E 2“ vaizdai.

Be to, naudojant tam skirtą T5 teksto į tekstą kodavimo priemonė reiškia, kad eDiffi gali pateikti suprantamą anglišką tekstą, abstrakčiai paprašius iš raginimo (ty paveikslėlyje yra šiek tiek [x] teksto) arba aiškiai prašoma (ty ant marškinėlių parašyta „Nvidia Rocks“):

Specialus tekstas į tekstą apdorojimas sistemoje eDiffi reiškia, kad tekstas gali būti pažodžiui atvaizduojamas vaizduose, o ne paleidžiamas tik per teksto į vaizdą interpretacinį sluoksnį, o tai sujaukia išvestį.

Specialus tekstas į tekstą apdorojimas sistemoje eDiffi reiškia, kad tekstas gali būti pažodžiui atvaizduojamas vaizduose, o ne paleidžiamas tik per teksto į vaizdą interpretacinį sluoksnį, o tai sujaukia išvestį.

Kitas naujosios sistemos papildymas yra tai, kad taip pat galima pateikti vieną vaizdą kaip stiliaus raginimą, o ne lavinti DreamBooth modelį arba tekstinį įterpimą į kelis žanro ar žanro pavyzdžius. stilius.

Stiliaus perkėlimas gali būti taikomas iš nuorodos vaizdo į raginimą iš teksto į vaizdą arba net iš vaizdo į vaizdą.

Stiliaus perkėlimas gali būti taikomas iš nuorodos vaizdo į raginimą iš teksto į vaizdą arba net iš vaizdo į vaizdą.

Šios naujas popierius yra tituluojamas eDiffi: teksto į vaizdą sklaidos modeliai su ekspertų garsintuvų ansambliuir

T5 teksto kodavimo įrenginys

Naudojant „Google“ TIšorinio į teksto perdavimo transformatorius (T5) yra pagrindinis eDiffi patobulintų rezultatų elementas. Vidutinis latentinės difuzijos vamzdynas sutelktas į sąsają tarp parengtų vaizdų ir antraštės, kurios buvo kartu su jais, kai jie buvo iškrapštyti iš interneto (arba vėliau koreguojami rankiniu būdu, nors tai brangi ir todėl reta intervencija).

Iš 2020 m. liepos mėn. paskelbto dokumento, skirto T5 – teksto pagrįstos transformacijos, kurios gali padėti generuoti vaizdo darbo eigą sistemoje „eDiffi“ (ir, galbūt, kituose latentinės sklaidos modeliuose). Šaltinis: https://arxiv.org/pdf/1910.10683.pdf

Iš 2020 m. liepos mėn. paskelbto dokumento, skirto T5 – teksto pagrįstos transformacijos, kurios gali padėti generuoti vaizdo darbo eigą sistemoje „eDiffi“ (ir, galbūt, kituose latentinės sklaidos modeliuose). Šaltinis: https://arxiv.org/pdf/1910.10683.pdf

Perfrazavus šaltinio tekstą ir paleidus T5 modulį, galima gauti tikslesnes asociacijas ir reprezentacijas, nei buvo išmokyta iš pradžių, beveik panašiai kaip po fakto ženklinimas rankiniu būdu, tiksliau ir labiau pritaikomas prašomo teksto raginimo sąlygoms.

Autoriai paaiškina:

„Daugelyje esamų darbų, susijusių su difuzijos modeliais, triukšmo slopinimo modelis yra bendras visiems triukšmo lygiams, o laiko dinamika pateikiama naudojant paprastą laiko įterpimą, kuris perduodamas triukšmo mažinimo modeliui per MLP tinklą. Mes teigiame, kad sudėtinga laikinoji triukšmo slopinimo difuzijos dinamika negali būti veiksmingai išmokta iš duomenų, naudojant bendrą ribotos talpos modelį.

„Vietoj to mes siūlome padidinti triukšmo slopinimo modelio pajėgumą, įvedant ekspertų triukšmo slopintuvų ansamblį; kiekvienas ekspertinis triukšmo slopintuvas yra triukšmo slopinimo modelis, skirtas tam tikram triukšmo [lygių] diapazonui. Tokiu būdu galime padidinti modelio pajėgumą nesulėtinant mėginių ėmimo, nes [apdoroto elemento] vertinimo sudėtingumas kiekviename triukšmo lygyje išlieka toks pat.

Koncepcinė „eDiffi“ darbo eiga.

Koncepcinė „eDiffi“ darbo eiga.

Esamos CLIP kodavimo moduliai, įtraukti į DALL-E 2 ir Stable Diffusion, taip pat gali rasti alternatyvių vaizdų interpretacijų tekstui, susijusiam su vartotojo įvestimi. Tačiau jie mokomi naudotis panašia informacija, kaip ir pradiniame modelyje, ir nėra naudojami kaip atskiras aiškinamasis sluoksnis taip, kaip T5 yra eDiffi.

Autoriai teigia, kad eDiffi yra pirmas kartas, kai tiek T5, tiek CLIP koduotuvas buvo įtraukti į vieną vamzdyną:

„Kadangi šie du kodavimo įrenginiai yra apmokyti su skirtingais tikslais, jų įterpimas skatina skirtingų vaizdų formavimą su tuo pačiu įvesties tekstu. Nors CLIP teksto įterpimas padeda nustatyti visuotinę sugeneruotų vaizdų išvaizdą, išvestėse paprastai trūksta smulkių teksto detalių.

„Priešingai, vaizdai, sukurti vien tik su T5 teksto įterpimu, geriau atspindi atskirus tekste aprašytus objektus, tačiau jų pasaulinė išvaizda yra ne tokia tiksli. Naudojant juos kartu, mūsų modelyje gaunami geriausi vaizdo generavimo rezultatai.

Difuzijos proceso nutraukimas ir padidinimas

Straipsnyje pažymima, kad tipiškas latentinės difuzijos modelis pradės kelionę nuo gryno triukšmo iki vaizdo, pasikliaudamas tik tekstu ankstyvosiose kartos stadijose.

Kai triukšmas virsta tam tikru grubiu išdėstymu, vaizduojančiu aprašymą teksto raginime, teksto valdomas proceso aspektas iš esmės išnyksta, o likusi proceso dalis pereina prie vizualinių savybių padidinimo.

Tai reiškia, kad bet kurį elementą, kuris nebuvo išspręstas besiformuojančioje teksto valdomo triukšmo interpretavimo stadijoje, vėliau sunku įterpti į vaizdą, nes du procesai (teksto pakeitimas į maketą ir išdėstymas į vaizdą) palyginti mažai sutampa. , o pagrindinis išdėstymas yra gana susipainiojęs, kol jis ateina į vaizdo didinimo procesą.

Iš popieriaus: įvairių dujotiekio dalių dėmesio žemėlapiai bręstant triukšmo>vaizdo procesui. Apatinėje eilutėje matome staigų vaizdo CLIP įtakos sumažėjimą, o T5 ir toliau daro įtaką vaizdui atvaizdavimo procese.

Iš popieriaus: įvairių dujotiekio dalių dėmesio žemėlapiai bręstant triukšmo>vaizdo procesui. Apatinėje eilutėje matome staigų vaizdo CLIP įtakos sumažėjimą, o T5 ir toliau daro įtaką vaizdui atvaizdavimo procese.

Profesinis potencialas

Projekto puslapyje ir „YouTube“ vaizdo įrašų centre pateikiami pavyzdžiai, kuriuose pateikiami viešiesiems ryšiams pritaikyti mielų vaizdų generavimas. Kaip įprasta, NVIDIA tyrimai sumenkina savo naujausių naujovių potencialą gerinti fotorealistines arba VFX darbo eigas, taip pat jos potencialą tobulinti netikrus vaizdus ir vaizdo įrašus.

Pavyzdžiuose pradedantysis arba mėgėjas vartotojas rašo apytikslius konkretaus elemento išdėstymo kontūrus, o sistemingesnėje VFX darbo eigoje gali būti įmanoma naudoti eDiffi interpretuoti kelis vaizdo elemento kadrus naudojant tekstą į vaizdą, kur kontūrai yra labai tikslūs ir pagrįsti, pavyzdžiui, skaičiais, kai fonas buvo pašalintas naudojant žalią ekraną arba algoritminius metodus.

Runway ML jau teikia AI pagrįstą rotoskopavimą. Šiame pavyzdyje „žalias ekranas“ aplink objektą vaizduoja alfa sluoksnį, o išgavimas buvo atliktas naudojant mašininį mokymąsi, o ne algoritmiškai pašalinant realaus pasaulio žalio ekrano foną. Šaltinis: https://twitter.com/runwayml/status/1330978385028374529

Runway ML jau teikia AI pagrįstą rotoskopavimą. Šiame pavyzdyje „žalias ekranas“ aplink objektą vaizduoja alfa sluoksnį, o ištraukimas buvo atliktas naudojant mašininį mokymąsi, o ne algoritmiškai pašalinant realaus pasaulio žalio ekrano foną. Šaltinis: https://twitter.com/runwayml/status/1330978385028374529

Naudojant apmokytą svajonių kabina personažą ir vaizdo į vaizdą dujotiekį su „eDiffi“, galbūt galima pradėti kovoti su vienu iš klaidų Bet koks latentinės difuzijos modelis: laiko stabilumas. Tokiu atveju tiek primesto vaizdo paraštės, tiek vaizdo turinys būtų „iš anksto prilieti“ prie naudotojo drobės, o pateikiamo turinio tęstinumas laikinas (ty realaus pasaulio Tai Chi specialistas paverčiamas robotu ).

Metodas, duomenys ir testai

Straipsnyje teigiama, kad „eDiffi“ modelis buvo parengtas naudojant „viešųjų ir patentuotų duomenų rinkinių rinkinį“, kurį labai filtravo iš anksto paruoštas CLIP modelis, kad būtų pašalinti vaizdai, galintys sumažinti bendrą estetinį išvesties balą. Galutinį filtruotų vaizdų rinkinį sudaro „apie milijardas“ teksto ir vaizdo porų. Išmokytų vaizdų dydis apibūdinamas kaip „trumpiausia pusė didesnė nei 64 pikseliai“.

Šiam procesui buvo išmokyti keli modeliai, treniruojami ir baziniai, ir itin didelės raiškos modeliai Adomas W optimizatorius, kurio mokymosi greitis yra 0.0001, svorio mažėjimas yra 0.01, o didžiulis partijos dydis yra 2048.

Bazinis modelis buvo apmokytas naudojant 256 NVIDIA A100 GPU, o du itin raiškos modeliai – 128 NVIDIA A100 GPU kiekvienam modeliui.

Sistema buvo pagrįsta pačios NVIDIA Imaginaire PyTorch biblioteka. COCO ir Visual Genome duomenų rinkiniai buvo naudojami vertinimui, nors ir neįtraukti į galutinius modelius, su MS-COCO konkretus bandymui naudojamas variantas. Išbandytos konkurentų sistemos buvo STIKLAS, Sukurkite sceną, DALL-E2, Stabili difuzijair dvi „Google“ vaizdų sintezės sistemos, Vaizdas ir Dalys.

Pagal panašius prieš darbas, nulinis FID-30K buvo naudojamas kaip vertinimo metrika. Pagal FID-30K atsitiktine tvarka iš COCO patvirtinimo rinkinio išgaunama 30,000 XNUMX antraščių (ty ne vaizdų ar teksto, naudojamų mokymuose), kurie vėliau buvo naudojami kaip tekstiniai raginimai vaizdams sintezuoti.

Frechet pradžios atstumas (FID) buvo apskaičiuotas tarp sukurtų ir pagrindinės tiesos vaizdų, be to, buvo įrašytas sugeneruotų vaizdų CLIP balas.

Nulinių FID testų rezultatai, palyginti su dabartiniais naujausiais COCO 2014 patvirtinimo duomenų rinkinio metodais, ir geresni rezultatai.

Nulinių FID testų rezultatai, palyginti su dabartiniais naujausiais COCO 2014 patvirtinimo duomenų rinkinio metodais, ir geresni rezultatai.

Rezultatuose „eDiffi“ sugebėjo gauti žemiausią (geriausią) įvertinimą nulinio FID, net naudojant sistemas su daug didesniu parametrų skaičiumi, pvz., 20 mlrd. „Parti“ parametrų, palyginti su 9.1 mlrd. specialus eDiffi modelis, paruoštas bandymams.

Išvada

NVIDIA eDiffi yra sveikintina alternatyva paprasčiausiai pridėti vis didesnį duomenų kiekį ir sudėtingumą esamose sistemose, vietoj to naudojant protingesnį ir daugiasluoksnį požiūrį į kai kurias sudėtingiausias kliūtis, susijusias su latentinės sklaidos generuojančių vaizdo sistemų įsipainiojimu ir neredagavimu.

„Stable Diffusion“ subreddituose ir „Discords“ jau diskutuojama apie bet kokio kodo, kuris gali būti prieinamas „eDiffi“, įtraukimą arba jo principų perkėlimą į atskirą diegimą. Tačiau naujasis vamzdynas yra toks radikaliai skirtingas, kad sudarytų visą SD versijos pakeitimą, panaikinant tam tikrą atgalinį suderinamumą, tačiau suteikiant galimybę žymiai pagerinti galutinių susintetintų vaizdų valdymo lygį, neprarandant žavingo vaizdo. latentinės sklaidos vaizduotės galios.

 

Pirmą kartą paskelbta 3 m. lapkričio 2022 d.