Tekoäly
NVIDIAn eDiffi-diffuusiomalli mahdollistaa "sanoilla maalaamisen" ja paljon muuta

Yritetään tehdä tarkkoja koostumuksia piilevän diffuusiogeneratiivisten kuvamalleilla, kuten esim Vakaa diffuusio voi olla kuin kissojen paimentaminen; samat mielikuvitus- ja tulkinnalliset voimat, joiden avulla järjestelmä voi luoda poikkeuksellisia yksityiskohtia ja saada aikaan poikkeuksellisia kuvia suhteellisen yksinkertaisista tekstikehotteista. vaikea sammuttaa kun etsit Photoshop-tason hallintaa kuvien luomiseen.
Nyt NVIDIA-tutkimuksen uusi lähestymistapa, nimeltään ensemble diffuusio kuville (eDiffi), käyttää useiden upotus- ja tulkintamenetelmien yhdistelmää (eikä samaa menetelmää koko liukuhihnan läpi), jotta luodun sisällön hallinta on paljon parempi. Alla olevassa esimerkissä käyttäjä maalaa elementtejä, joissa jokainen väri edustaa yhtä sanaa tekstikehotteesta:

"Sanoilla maalaus" on toinen NVIDIAn eDiffi-hajautusmallin kahdesta uudesta ominaisuudesta. Jokainen värillinen väri edustaa kehotteen sanaa (katso ne näkyvät vasemmalla luonnin aikana), ja käytetty alueen väri koostuu vain tästä elementistä. Katso lähdevideo (virallinen) saadaksesi lisää esimerkkejä ja parempaa resoluutiota osoitteessa https://www.youtube.com/watch?v=k6cOx9YjHJc
Käytännössä tämä on "maalausta naamioilla" ja kääntää i:nnmaalausparadigma Stable Diffusion -ohjelmassa, joka perustuu rikkinäisten tai epätyydyttävien kuvien korjaamiseen tai kuvien laajentamiseen, jotka olisivat voineet olla alun perin halutun kokoisia.
Tässä sen sijaan maalatun värjäyksen marginaalit edustavat vain yhden yksittäisen konseptin ainutlaatuisen elementin sallittuja likimääräisiä rajoja, jolloin käyttäjä voi määrittää lopullisen kankaan koon alusta alkaen ja lisätä sitten elementtejä huomaamattomasti.

Esimerkkejä uudesta lehdestä. Lähde: https://arxiv.org/pdf/2211.01324.pdf
eDiffin monimuotoiset menetelmät tarkoittavat myös sitä, että järjestelmä tekee paljon paremman työn sisällyttämällä kaikki elementit pitkiin ja yksityiskohtaisiin kehotteisiin, kun taas Stable Diffusion ja OpenAI:n DALL-E 2 yleensä priorisoivat tietyt kehotteen osat riippuen joko siitä, kuinka aikaisin kohdesanat esiintyvät kehotteessa tai muissa tekijöissä, kuten mahdollisissa vaikeuksissa erottaa eri elementtejä, jotka ovat välttämättömiä täydellisen mutta kattavan (tekstikehotteen suhteen) koostumukseen:

Paperista: eDiffi pystyy iteroimaan kehotteen läpi perusteellisemmin, kunnes suurin mahdollinen määrä elementtejä on renderöity. Vaikka parannetut tulokset eDiffille (oikeanpuoleisin sarake) ovat kirsikkapoimittuja, niin ovat myös vertailukuvat Stable Diffusionista ja DALL-E 2:sta.
Lisäksi käyttö omistettu T5 tekstistä tekstiksi -kooderi tarkoittaa, että eDiffi pystyy tuottamaan ymmärrettävää englanninkielistä tekstiä joko abstraktisti kehotteesta pyydettynä (esim. kuva sisältää tekstiä [x]) tai nimenomaisesti pyydetty (esim t-paidassa lukee "Nvidia Rocks"):

Omistettu tekstistä tekstiksi -käsittely eDiffissä tarkoittaa, että teksti voidaan esittää sanatarkasti kuvina sen sijaan, että se ajettaisiin vain tekstistä kuvaksi -tulkintakerroksen läpi, mikä häiritsee tulostetta.
Lisätä uuteen kehykseen on se, että on mahdollista tarjota myös yksi kuva tyylikehotteena sen sijaan, että joutuisi harjoittelemaan DreamBooth-mallia tai tekstin upottamista useisiin genren tai genren esimerkkeihin. tyyli.

Tyylin siirtoa voidaan soveltaa viitekuvasta tekstistä kuvaksi -kehotteeseen tai jopa kuvasta kuvaksi -kehotteeseen.
- uusi paperi on otsikko eDiffi: Tekstistä kuvaksi -diffuusiomallit, joissa on asiantuntevia äänentoistolaitteitaja
T5-tekstikooderi
Googlen T:n käyttöExt-to-Text Transformer (T5) on keskeinen tekijä eDiffin tulosten parantumisessa. Keskimääräinen piilevä diffuusioputki keskittyy koulutettujen kuvien ja niihin liittyvien kuvatekstien väliseen yhteyteen, kun ne kaavittiin pois Internetistä (tai muutettiin manuaalisesti myöhemmin, vaikka tämä on kallis ja siksi harvinainen toimenpide).

Heinäkuun 2020 julkaisusta T5:lle – tekstipohjaiset muunnokset, jotka voivat auttaa eDiffin (ja mahdollisesti myös muiden piilevien diffuusiomallien) generatiivisen kuvan työnkulkua. Lähde: https://arxiv.org/pdf/1910.10683.pdf
Muotoilemalla lähdeteksti uudelleen ja ajamalla T5-moduulia, saadaan tarkempia assosiaatioita ja esityksiä kuin mitä malliin alunperin opetettiin, melkein kuin postaa faktaa manuaalinen merkintä, joka on tarkempi ja soveltuvampi pyydetyn tekstikehotteen määräyksiin.
Kirjoittajat selittävät:
"Useimmissa olemassa olevissa diffuusiomalleja koskevissa töissä kohinanpoistomalli on jaettu kaikille kohinatasoille, ja ajallinen dynamiikka esitetään käyttämällä yksinkertaista aika upotusta, joka syötetään vaimennusmalliin MLP-verkon kautta. Väitämme, että melua poistavan diffuusion monimutkaista ajallista dynamiikkaa ei ehkä voida oppia tiedoista tehokkaasti käyttämällä jaettua mallia, jolla on rajoitettu kapasiteetti.
"Sen sijaan ehdotamme äänenvaimennusmallin kapasiteetin lisäämistä ottamalla käyttöön asiantuntijakokonaisuuden; jokainen asiantuntija kohinanvaimennin on kohinanvaimennusmalli, joka on erikoistunut tietylle melualueelle [tasot]. Tällä tavalla voimme lisätä mallin kapasiteettia hidastamatta näytteenottoa, koska [käsitellyn elementin] arvioinnin laskennallinen monimutkaisuus kullakin kohinatasolla pysyy samana.'

Käsitteellinen työnkulku eDiffille.
Olemassa oleva CLIP DALL-E 2:n ja Stable Diffusionin sisältämät koodausmoduulit pystyvät myös löytämään vaihtoehtoisia kuvatulkintoja käyttäjän syötteeseen liittyvälle tekstille. Heitä kuitenkin koulutetaan alkuperäisen mallin kanssa samanlaisilla tiedoilla, eikä niitä käytetä erillisenä tulkintakerroksena samalla tavalla kuin T5 on eDifissä.
Kirjoittajat toteavat, että eDiffi on ensimmäinen kerta, kun sekä T5- että CLIP-enkooderi on yhdistetty yhdeksi putkilinjaksi:
"Koska nämä kaksi enkooderia on koulutettu eri tavoitteilla, niiden upotukset suosivat eri kuvien muodostumista samalla syöttötekstillä. Vaikka CLIP-tekstin upotukset auttavat määrittämään luotujen kuvien yleisen ulkoasun, tulosteista jää yleensä huomaamatta tekstin hienojakoiset yksityiskohdat.
"Päinvastoin pelkällä T5-tekstiupotuksella luodut kuvat heijastavat paremmin tekstissä kuvattuja yksittäisiä objekteja, mutta niiden kokonaisilme ei ole niin tarkka. Niiden yhteiskäyttö tuottaa mallissamme parhaat kuvantuottotulokset.'
Diffuusioprosessin keskeyttäminen ja lisääminen
Paperissa todetaan, että tyypillinen piilevä diffuusiomalli aloittaa matkan puhtaasta kohinasta kuvaan luottaen pelkästään tekstiin sukupolven alkuvaiheessa.
Kun kohina muuttuu jonkinlaiseksi karkeaksi asetteluksi, joka edustaa tekstikehotteen kuvausta, prosessin tekstiohjattu puoli olennaisesti putoaa pois ja prosessin loppuosa siirtyy visuaalisten ominaisuuksien lisäämiseen.
Tämä tarkoittaa, että mitä tahansa elementtiä, jota ei ole ratkaistu tekstiohjatun kohinan tulkinnan syntyvaiheessa, on vaikea lisätä kuvaan myöhemmin, koska kahdella prosessilla (teksti-asettelu ja asettelu kuvaksi) on suhteellisen vähän päällekkäisyyttä. , ja perusasettelu on melko sotkuinen, kun se saapuu kuvan lisäysprosessiin.

Paperista: putkilinjan eri osien huomiokartat kohina>kuvaprosessin kypsyessä. Näemme kuvan CLIP-vaikutuksen jyrkän pudotuksen alemmalla rivillä, kun taas T5 vaikuttaa edelleen kuvaan paljon pidemmälle renderöintiprosessiin.
Ammattipotentiaali
Esimerkit projektisivulla ja YouTube-videokeskuksessa PR-ystävällisestä meemimaisevien söpöjen kuvien luomisesta. Kuten tavallista, NVIDIA-tutkimus vähättelee viimeisimmän innovaationsa mahdollisuuksia parantaa fotorealistisia tai VFX-työnkulkuja sekä sen mahdollisuuksia parantaa syväväärennöskuvia ja -videoita.
Esimerkeissä aloittelija tai amatöörikäyttäjä kirjoittelee karkeat ääriviivat tietylle elementille sijoittelusta, kun taas systemaattisemmassa VFX-työnkulussa voisi olla mahdollista käyttää eDiffiä videoelementin useiden ruutujen tulkitsemiseen tekstistä kuvaksi, jolloin ääriviivat ovat erittäin tarkkoja ja perustuvat esimerkiksi kuviin, joissa tausta on pudonnut pois vihreällä näytöllä tai algoritmisilla menetelmillä.

Runway ML tarjoaa jo tekoälypohjaista rotoskooppia. Tässä esimerkissä kohteen ympärillä oleva "vihreä näyttö" edustaa alfa-kerrosta, kun taas poimiminen on suoritettu koneoppimisen avulla eikä todellisen vihreän näytön taustan algoritmisella poistamisella. Lähde: https://twitter.com/runwayml/status/1330978385028374529
Käyttämällä koulutettua unelmakoppi hahmon ja kuvasta kuvaksi -putkilinjan eDiffin kanssa, on mahdollisesti mahdollista alkaa naulaamaan yksi Kaikki piilevä diffuusiomalli: ajallinen stabiilius. Tällaisessa tapauksessa sekä määrätyn kuvan marginaalit että kuvan sisältö 'esikelluttaisiin' käyttäjän kanvaa vasten, jolloin renderöidyn sisällön ajallinen jatkuvuus (eli todellisen Tai Chi -harjoittajan muuttaminen robotiksi ) saadaan käyttämällä lukittua DreamBooth-mallia, joka on "muistanut" harjoitustietonsa – huono tulkittavuudelle, erinomainen toistettavuuden, tarkkuuden ja jatkuvuuden kannalta.
Menetelmä, tiedot ja testit
Paperissa todetaan, että eDiffi-malli on koulutettu "julkisten ja omistusoikeudellisten tietojoukkojen kokoelmaan", joka on suodatettu voimakkaasti esikoulutetulla CLIP-mallilla, jotta voidaan poistaa kuvat, jotka todennäköisesti alentavat tulosteen yleistä esteettistä arvoa. Lopullinen suodatettu kuvasarja käsittää "noin miljardi" teksti-kuva-paria. Harjoiteltujen kuvien koon kuvataan "lyhyin puoli yli 64 pikseliä".
Prosessia varten koulutettiin useita malleja, sekä perus- että superresoluutiomallit AdamW optimoija oppimisnopeudella 0.0001, painon vähenemisellä 0.01 ja valtavalla eräkoolla 2048.
Perusmalli on koulutettu 256 NVIDIA A100 GPU:lla ja kaksi superresoluutiomallia 128 NVIDIAlla A100 GPU:t jokaiselle mallille.
Järjestelmä perustui NVIDIAn omaan Kuvittele PyTorch-kirjasto. KOKO ja Visual Genome -tietosarjoja käytettiin arvioinnissa, vaikka niitä ei sisällytetty lopullisiin malleihin MS-COCO testaukseen käytetty erityinen variantti. Testatut kilpailevat järjestelmät olivat LIUKUA, Järjestää kohtaus, DALL-E2, Vakaa diffuusioja Googlen kaksi kuvan synteesijärjestelmää, Kuva ja Puolue.
Mukaisesti vastaavia aikaisempi työ, zero-shot FID-30K käytettiin arviointimittarina. FID-30K:ssa COCO-validointijoukosta poimitaan satunnaisesti 30,000 XNUMX kuvatekstiä (eli ei koulutuksessa käytettyjä kuvia tai tekstiä), joita käytettiin sitten tekstikehotteina kuvien syntetisoinnissa.
Frechetin alkuetäisyys (IN) generoitujen kuvien ja pohjatotuuskuvien välillä laskettiin sitten luotujen kuvien CLIP-pisteiden tallennuksen lisäksi.

Tulokset zero-shot FID-testeistä verrattuna COCO 2014 -validointitietojoukon nykyiseen huipputekniikkaan, ja tulokset ovat parempia.
Tuloksissa eDiffi pystyi saamaan alimman (parhaan) pistemäärän nollasta FID:stä jopa järjestelmissä, joissa on paljon enemmän parametreja, kuten Partin 20 miljardia parametria verrattuna 9.1 miljardiin parametriin korkeimpien spesifioitu eDiffi-malli, joka on koulutettu testeihin.
Yhteenveto
NVIDIAn eDiffi on tervetullut vaihtoehto yksinkertaisesti lisätä yhä suurempia tietomääriä ja monimutkaisuutta olemassa oleviin järjestelmiin sen sijaan, että käytetään älykkäämpää ja tasaisempaa lähestymistapaa joihinkin vaikeimpiin esteisiin, jotka liittyvät piilevän diffuusiogeneratiivisten kuvajärjestelmien sotkeutumiseen ja muokkaamattomuuteen.
Stable Diffusion -aliredditeissä ja Discordsissa keskustellaan jo joko minkä tahansa eDiffin saataville saatavan koodin sisällyttämisestä suoraan tai sen taustalla olevien periaatteiden uudelleenlavastamisesta erillisessä toteutuksessa. Uusi putkisto on kuitenkin niin radikaalisti erilainen, että se muodostaisi kokonaisen versionumeron muutoksen SD:lle, joka sulkee pois jonkin verran taaksepäin yhteensopivuutta, vaikka tarjoaakin mahdollisuuden huomattavasti paranneltujen syntetisoitujen kuvien hallintaan uhraamatta kiehtovaa. piilevän diffuusion mielikuvitusvoimat.
Julkaistu ensimmäisen kerran 3.