Dirbtinis intelektas
NVIDIA „eDiffi“ difuzijos modelis leidžia „piešti žodžiais“ ir dar daugiau
Bandoma padaryti tikslias kompozicijas su latentinės difuzijos generuojamojo vaizdo modeliais, tokiais kaip Stabili difuzija gali būti kaip ganomos katės; tos pačios vaizduotės ir interpretacinės galios, leidžiančios sistemai sukurti nepaprastas detales ir iš palyginti paprastų teksto raginimų išgauti nepaprastus vaizdus sunku išjungti kai ieškote „Photoshop“ lygio vaizdo generavimo valdymo.
Dabar naujas NVIDIA tyrimų metodas, pavadintas ansamblio difuzija vaizdams (eDiffi), naudoja kelių įdėjimo ir interpretavimo metodų derinį (o ne tą patį metodą per visą dujotiekį), kad būtų galima žymiai geriau valdyti sugeneruotą turinį. Toliau pateiktame pavyzdyje matome, kaip vartotojas piešia elementus, kur kiekviena spalva reiškia vieną žodį iš teksto raginimo:
Iš esmės tai yra „piešimas kaukėmis“ ir apverčia itapybos paradigma stabilioje difuzijoje, kuri pagrįsta sugedusių ar nepatenkinamų vaizdų taisymu arba vaizdų išplėtimu, kurie iš pradžių taip pat galėjo būti norimo dydžio.
Vietoj to, nudažyto taško paraštės rodo leistinas apytiksles vieno unikalaus elemento ribas iš vienos koncepcijos, leidžiančią vartotojui iš pat pradžių nustatyti galutinį drobės dydį ir tada diskretiškai pridėti elementus.
Įvairūs „eDiffi“ metodai taip pat reiškia, kad sistema atlieka daug geresnį darbą įtraukdama kiekvieną elementą į ilgus ir išsamius raginimus, o „Stable Diffusion“ ir „OpenAI“ DALL-E 2 linkę teikti pirmenybę tam tikroms raginimo dalims, atsižvelgiant į tai, kaip anksti tiksliniai žodžiai atsiranda raginime arba dėl kitų veiksnių, pvz., galimų sunkumų atskiriant įvairius elementus, reikalingus pilnai, bet išsamiai (teksto raginimo atžvilgiu) kompozicijai:
Be to, naudojant tam skirtą T5 teksto į tekstą kodavimo priemonė reiškia, kad eDiffi gali pateikti suprantamą anglišką tekstą, abstrakčiai paprašius iš raginimo (ty paveikslėlyje yra šiek tiek [x] teksto) arba aiškiai prašoma (ty ant marškinėlių parašyta „Nvidia Rocks“):
Kitas naujosios sistemos papildymas yra tai, kad taip pat galima pateikti vieną vaizdą kaip stiliaus raginimą, o ne lavinti DreamBooth modelį arba tekstinį įterpimą į kelis žanro ar žanro pavyzdžius. stilius.
Šios naujas popierius yra tituluojamas eDiffi: teksto į vaizdą sklaidos modeliai su ekspertų garsintuvų ansambliuir
T5 teksto kodavimo įrenginys
Naudojant „Google“ TIšorinio į teksto perdavimo transformatorius (T5) yra pagrindinis eDiffi patobulintų rezultatų elementas. Vidutinis latentinės difuzijos vamzdynas sutelktas į sąsają tarp parengtų vaizdų ir antraštės, kurios buvo kartu su jais, kai jie buvo iškrapštyti iš interneto (arba vėliau koreguojami rankiniu būdu, nors tai brangi ir todėl reta intervencija).
Perfrazavus šaltinio tekstą ir paleidus T5 modulį, galima gauti tikslesnes asociacijas ir reprezentacijas, nei buvo išmokyta iš pradžių, beveik panašiai kaip po fakto ženklinimas rankiniu būdu, tiksliau ir labiau pritaikomas prašomo teksto raginimo sąlygoms.
Autoriai paaiškina:
„Daugelyje esamų darbų, susijusių su difuzijos modeliais, triukšmo slopinimo modelis yra bendras visiems triukšmo lygiams, o laiko dinamika pateikiama naudojant paprastą laiko įterpimą, kuris perduodamas triukšmo mažinimo modeliui per MLP tinklą. Mes teigiame, kad sudėtinga laikinoji triukšmo slopinimo difuzijos dinamika negali būti veiksmingai išmokta iš duomenų, naudojant bendrą ribotos talpos modelį.
„Vietoj to mes siūlome padidinti triukšmo slopinimo modelio pajėgumą, įvedant ekspertų triukšmo slopintuvų ansamblį; kiekvienas ekspertinis triukšmo slopintuvas yra triukšmo slopinimo modelis, skirtas tam tikram triukšmo [lygių] diapazonui. Tokiu būdu galime padidinti modelio pajėgumą nesulėtinant mėginių ėmimo, nes [apdoroto elemento] vertinimo sudėtingumas kiekviename triukšmo lygyje išlieka toks pat.
Esamos CLIP kodavimo moduliai, įtraukti į DALL-E 2 ir Stable Diffusion, taip pat gali rasti alternatyvių vaizdų interpretacijų tekstui, susijusiam su vartotojo įvestimi. Tačiau jie mokomi naudotis panašia informacija, kaip ir pradiniame modelyje, ir nėra naudojami kaip atskiras aiškinamasis sluoksnis taip, kaip T5 yra eDiffi.
Autoriai teigia, kad eDiffi yra pirmas kartas, kai tiek T5, tiek CLIP koduotuvas buvo įtraukti į vieną vamzdyną:
„Kadangi šie du kodavimo įrenginiai yra apmokyti su skirtingais tikslais, jų įterpimas skatina skirtingų vaizdų formavimą su tuo pačiu įvesties tekstu. Nors CLIP teksto įterpimas padeda nustatyti visuotinę sugeneruotų vaizdų išvaizdą, išvestėse paprastai trūksta smulkių teksto detalių.
„Priešingai, vaizdai, sukurti vien tik su T5 teksto įterpimu, geriau atspindi atskirus tekste aprašytus objektus, tačiau jų pasaulinė išvaizda yra ne tokia tiksli. Naudojant juos kartu, mūsų modelyje gaunami geriausi vaizdo generavimo rezultatai.
Difuzijos proceso nutraukimas ir padidinimas
Straipsnyje pažymima, kad tipiškas latentinės difuzijos modelis pradės kelionę nuo gryno triukšmo iki vaizdo, pasikliaudamas tik tekstu ankstyvosiose kartos stadijose.
Kai triukšmas virsta tam tikru grubiu išdėstymu, vaizduojančiu aprašymą teksto raginime, teksto valdomas proceso aspektas iš esmės išnyksta, o likusi proceso dalis pereina prie vizualinių savybių padidinimo.
Tai reiškia, kad bet kurį elementą, kuris nebuvo išspręstas besiformuojančioje teksto valdomo triukšmo interpretavimo stadijoje, vėliau sunku įterpti į vaizdą, nes du procesai (teksto pakeitimas į maketą ir išdėstymas į vaizdą) palyginti mažai sutampa. , o pagrindinis išdėstymas yra gana susipainiojęs, kol jis ateina į vaizdo didinimo procesą.
Profesinis potencialas
Projekto puslapyje ir „YouTube“ vaizdo įrašų centre pateikiami pavyzdžiai, kuriuose pateikiami viešiesiems ryšiams pritaikyti mielų vaizdų generavimas. Kaip įprasta, NVIDIA tyrimai sumenkina savo naujausių naujovių potencialą gerinti fotorealistines arba VFX darbo eigas, taip pat jos potencialą tobulinti netikrus vaizdus ir vaizdo įrašus.
Pavyzdžiuose pradedantysis arba mėgėjas vartotojas rašo apytikslius konkretaus elemento išdėstymo kontūrus, o sistemingesnėje VFX darbo eigoje gali būti įmanoma naudoti eDiffi interpretuoti kelis vaizdo elemento kadrus naudojant tekstą į vaizdą, kur kontūrai yra labai tikslūs ir pagrįsti, pavyzdžiui, skaičiais, kai fonas buvo pašalintas naudojant žalią ekraną arba algoritminius metodus.
Naudojant apmokytą svajonių kabina personažą ir vaizdo į vaizdą dujotiekį su „eDiffi“, galbūt galima pradėti kovoti su vienu iš klaidų Bet koks latentinės difuzijos modelis: laiko stabilumas. Tokiu atveju tiek primesto vaizdo paraštės, tiek vaizdo turinys būtų „iš anksto prilieti“ prie naudotojo drobės, o pateikiamo turinio tęstinumas laikinas (ty realaus pasaulio Tai Chi specialistas paverčiamas robotu ).
Metodas, duomenys ir testai
Straipsnyje teigiama, kad „eDiffi“ modelis buvo parengtas naudojant „viešųjų ir patentuotų duomenų rinkinių rinkinį“, kurį labai filtravo iš anksto paruoštas CLIP modelis, kad būtų pašalinti vaizdai, galintys sumažinti bendrą estetinį išvesties balą. Galutinį filtruotų vaizdų rinkinį sudaro „apie milijardas“ teksto ir vaizdo porų. Išmokytų vaizdų dydis apibūdinamas kaip „trumpiausia pusė didesnė nei 64 pikseliai“.
Šiam procesui buvo išmokyti keli modeliai, treniruojami ir baziniai, ir itin didelės raiškos modeliai Adomas W optimizatorius, kurio mokymosi greitis yra 0.0001, svorio mažėjimas yra 0.01, o didžiulis partijos dydis yra 2048.
Bazinis modelis buvo apmokytas naudojant 256 NVIDIA A100 GPU, o du itin raiškos modeliai – 128 NVIDIA A100 GPU kiekvienam modeliui.
Sistema buvo pagrįsta pačios NVIDIA Imaginaire PyTorch biblioteka. COCO ir Visual Genome duomenų rinkiniai buvo naudojami vertinimui, nors ir neįtraukti į galutinius modelius, su MS-COCO konkretus bandymui naudojamas variantas. Išbandytos konkurentų sistemos buvo STIKLAS, Sukurkite sceną, DALL-E2, Stabili difuzijair dvi „Google“ vaizdų sintezės sistemos, Vaizdas ir Dalys.
Pagal panašius prieš darbas, nulinis FID-30K buvo naudojamas kaip vertinimo metrika. Pagal FID-30K atsitiktine tvarka iš COCO patvirtinimo rinkinio išgaunama 30,000 XNUMX antraščių (ty ne vaizdų ar teksto, naudojamų mokymuose), kurie vėliau buvo naudojami kaip tekstiniai raginimai vaizdams sintezuoti.
Frechet pradžios atstumas (FID) buvo apskaičiuotas tarp sukurtų ir pagrindinės tiesos vaizdų, be to, buvo įrašytas sugeneruotų vaizdų CLIP balas.
Rezultatuose „eDiffi“ sugebėjo gauti žemiausią (geriausią) įvertinimą nulinio FID, net naudojant sistemas su daug didesniu parametrų skaičiumi, pvz., 20 mlrd. „Parti“ parametrų, palyginti su 9.1 mlrd. specialus eDiffi modelis, paruoštas bandymams.
Išvada
NVIDIA eDiffi yra sveikintina alternatyva paprasčiausiai pridėti vis didesnį duomenų kiekį ir sudėtingumą esamose sistemose, vietoj to naudojant protingesnį ir daugiasluoksnį požiūrį į kai kurias sudėtingiausias kliūtis, susijusias su latentinės sklaidos generuojančių vaizdo sistemų įsipainiojimu ir neredagavimu.
„Stable Diffusion“ subreddituose ir „Discords“ jau diskutuojama apie bet kokio kodo, kuris gali būti prieinamas „eDiffi“, įtraukimą arba jo principų perkėlimą į atskirą diegimą. Tačiau naujasis vamzdynas yra toks radikaliai skirtingas, kad sudarytų visą SD versijos pakeitimą, panaikinant tam tikrą atgalinį suderinamumą, tačiau suteikiant galimybę žymiai pagerinti galutinių susintetintų vaizdų valdymo lygį, neprarandant žavingo vaizdo. latentinės sklaidos vaizduotės galios.
Pirmą kartą paskelbta 3 m. lapkričio 2022 d.