Tekoäly
NVIDIAn eDiffi-diffuusiomalli mahdollistaa "sanoilla maalaamisen" ja paljon muuta

Yritetään tehdä tarkkoja koostumuksia piilevän diffuusiogeneratiivisten kuvamalleilla, kuten esim Vakaa diffuusio voi olla kuin kissojen paimentaminen; samat mielikuvitus- ja tulkinnalliset voimat, joiden avulla järjestelmä voi luoda poikkeuksellisia yksityiskohtia ja saada aikaan poikkeuksellisia kuvia suhteellisen yksinkertaisista tekstikehotteista. vaikea sammuttaa kun etsit Photoshop-tason hallintaa kuvan luomiseen.
Nyt NVIDIA-tutkimuksen uusi lähestymistapa, nimeltään ensemble diffuusio kuville (eDiffi), käyttää useiden upotus- ja tulkintamenetelmien yhdistelmää (eikä samaa menetelmää koko liukuhihnan läpi), jotta luodun sisällön hallinta on paljon parempi. Alla olevassa esimerkissä käyttäjä maalaa elementtejä, joissa jokainen väri edustaa yhtä sanaa tekstikehotteesta:

'Sanoilla maalaaminen' on yksi NVIDIAn eDiffi-diffuusiomallin kahdesta uudesta ominaisuudesta. Jokainen daubed-väri edustaa yhtä sanaa kehotteessa (ne näkyvät vasemmalla luonnin aikana), ja käytetty alueen väri koostuu vain kyseisestä elementistä. Katso lähdekoodin (virallinen) video lisää esimerkkejä ja parempi resoluutio osoitteessa https://www.youtube.com/watch?v=k6cOx9YjHJc
Käytännössä tämä on 'maalaamista naamioilla' ja kääntää asian päälaelleen.nmaalausparadigma Stable Diffusion -ohjelmassa, joka perustuu rikkinäisten tai epätyydyttävien kuvien korjaamiseen tai kuvien laajentamiseen, jotka olisivat voineet olla alun perin halutun kokoisia.
Tässä sen sijaan maalatun värjäyksen marginaalit edustavat vain yhden yksittäisen konseptin ainutlaatuisen elementin sallittuja likimääräisiä rajoja, jolloin käyttäjä voi määrittää lopullisen kankaan koon alusta alkaen ja lisätä sitten elementtejä huomaamattomasti.

Esimerkkejä uudesta lehdestä. Lähde: https://arxiv.org/pdf/2211.01324.pdf
eDiffin käyttämät monipuoliset menetelmät tarkoittavat myös sitä, että järjestelmä onnistuu paljon paremmin sisällyttämään jokaisen elementin pitkiin ja yksityiskohtaisiin kehotteisiin, kun taas Stable Diffusion ja OpenAI:n DALL-E 2 priorisoivat kehotteen tiettyjä osia riippuen joko siitä, kuinka aikaisin kohdesanat ilmestyvät kehotteeseen, tai muista tekijöistä, kuten mahdollisesta vaikeudesta erottaa eri elementtejä, joita tarvitaan täydellisen mutta kattavan (tekstikehotteeseen nähden) koostumuksen luomiseen:

Paperista: eDiffi pystyy iteroimaan kehotteen läpi perusteellisemmin, kunnes suurin mahdollinen määrä elementtejä on renderöity. Vaikka parannetut tulokset eDiffille (oikeanpuoleisin sarake) ovat kirsikkapoimittuja, niin ovat myös vertailukuvat Stable Diffusionista ja DALL-E 2:sta.
Lisäksi käyttö omistettu T5 tekstistä tekstiksi -kooderi tarkoittaa, että eDiffi pystyy tuottamaan ymmärrettävää englanninkielistä tekstiä joko abstraktisti kehotteesta pyydettynä (esim. kuva sisältää tekstiä [x]) tai nimenomaisesti pyydetty (esim t-paidassa lukee "Nvidia Rocks"):

Omistettu tekstistä tekstiksi -käsittely eDiffissä tarkoittaa, että teksti voidaan esittää sanatarkasti kuvina sen sijaan, että se ajettaisiin vain tekstistä kuvaksi -tulkintakerroksen läpi, mikä häiritsee tulostetta.
Uuden kehyksen lisäetu on se, että tyylikehotteena voidaan tarjota myös yksi kuva sen sijaan, että DreamBooth-mallia tai tekstimuotoista upotusta tarvitsisi kouluttaa useille esimerkeille samasta genrestä tai... tyyli.

Tyylin siirtoa voidaan soveltaa viitekuvasta tekstistä kuvaksi -kehotteeseen tai jopa kuvasta kuvaksi -kehotteeseen.
RFID lukija NFC lukija uusi paperi on otsikko eDiffi: Tekstistä kuvaksi -diffuusiomallit, joissa on asiantuntevia äänentoistolaitteitaja
T5-tekstikooderi
Googlen T:n käyttöExt-to-Text Transformer (T5) on keskeinen tekijä eDiffin tulosten parantumisessa. Keskimääräinen piilevä diffuusioputki keskittyy koulutettujen kuvien ja niihin liittyvien kuvatekstien väliseen yhteyteen, kun ne kaavittiin pois Internetistä (tai muutettiin manuaalisesti myöhemmin, vaikka tämä on kallis ja siksi harvinainen toimenpide).

Heinäkuun 2020 julkaisusta T5:lle – tekstipohjaiset muunnokset, jotka voivat auttaa eDiffin (ja mahdollisesti myös muiden piilevien diffuusiomallien) generatiivisen kuvan työnkulkua. Lähde: https://arxiv.org/pdf/1910.10683.pdf
Muotoilemalla lähdeteksti uudelleen ja ajamalla T5-moduulia, saadaan tarkempia assosiaatioita ja esityksiä kuin mitä malliin alunperin opetettiin, melkein kuin postaa faktaa manuaalinen merkintä, joka on tarkempi ja soveltuvampi pyydetyn tekstikehotteen määräyksiin.
Kirjoittajat selittävät:
"Useimmissa olemassa olevissa diffuusiomalleja koskevissa töissä kohinanpoistomalli on jaettu kaikille kohinatasoille, ja ajallinen dynamiikka esitetään käyttämällä yksinkertaista aika upotusta, joka syötetään vaimennusmalliin MLP-verkon kautta. Väitämme, että melua poistavan diffuusion monimutkaista ajallista dynamiikkaa ei ehkä voida oppia tiedoista tehokkaasti käyttämällä jaettua mallia, jolla on rajoitettu kapasiteetti.
"Sen sijaan ehdotamme kohinanpoistomallin kapasiteetin skaalaamista ottamalla käyttöön joukon asiantuntijakohinanpoistajia; jokainen asiantuntijakohinanpoistaja on kohinanpoistomalli, joka on erikoistunut tietylle kohina-alueelle [tasoja]. Tällä tavoin voimme lisätä mallin kapasiteettia hidastamatta näytteenottoa, koska [käsitellyn elementin] arvioinnin laskennallinen monimutkaisuus kullakin kohina-tasolla pysyy samana."

Käsitteellinen työnkulku eDiffille.
Olemassa oleva CLIP DALL-E 2:n ja Stable Diffusionin sisältämät koodausmoduulit pystyvät myös löytämään vaihtoehtoisia kuvatulkintoja käyttäjän syötteeseen liittyvälle tekstille. Heitä kuitenkin koulutetaan alkuperäisen mallin kanssa samanlaisilla tiedoilla, eikä niitä käytetä erillisenä tulkintakerroksena samalla tavalla kuin T5 on eDifissä.
Kirjoittajat toteavat, että eDiffi on ensimmäinen kerta, kun sekä T5- että CLIP-enkooderi on yhdistetty yhdeksi putkilinjaksi:
"Koska nämä kaksi enkooderia on koulutettu eri tavoitteilla, niiden upotukset suosivat eri kuvien muodostumista samalla syöttötekstillä. Vaikka CLIP-tekstin upotukset auttavat määrittämään luotujen kuvien yleisen ulkoasun, tulosteista jää yleensä huomaamatta tekstin hienojakoiset yksityiskohdat.
"Sitä vastoin pelkillä T5-tekstiupotuksilla luodut kuvat heijastavat paremmin tekstissä kuvattuja yksittäisiä objekteja, mutta niiden yleinen ulkoasu on vähemmän tarkka. Niiden yhteiskäyttö tuottaa mallissamme parhaat kuvanmuodostustulokset."
Diffuusioprosessin keskeyttäminen ja lisääminen
Paperissa todetaan, että tyypillinen piilevä diffuusiomalli aloittaa matkan puhtaasta kohinasta kuvaan luottaen pelkästään tekstiin sukupolven alkuvaiheessa.
Kun kohina muuttuu jonkinlaiseksi karkeaksi asetteluksi, joka edustaa tekstikehotteen kuvausta, prosessin tekstiohjattu puoli olennaisesti putoaa pois ja prosessin loppuosa siirtyy visuaalisten ominaisuuksien lisäämiseen.
Tämä tarkoittaa, että mitä tahansa elementtiä, jota ei ole ratkaistu tekstiohjatun kohinan tulkinnan syntyvaiheessa, on vaikea lisätä kuvaan myöhemmin, koska kahdella prosessilla (teksti-asettelu ja asettelu kuvaksi) on suhteellisen vähän päällekkäisyyttä. , ja perusasettelu on melko sotkuinen, kun se saapuu kuvan lisäysprosessiin.

Paperista: putkilinjan eri osien huomiokartat kohina>kuvaprosessin kypsyessä. Näemme kuvan CLIP-vaikutuksen jyrkän pudotuksen alemmalla rivillä, kun taas T5 vaikuttaa edelleen kuvaan paljon pidemmälle renderöintiprosessiin.
Ammattipotentiaali
Esimerkit projektisivulla ja YouTube-videokeskuksessa PR-ystävällisestä meemimaisevien söpöjen kuvien luomisesta. Kuten tavallista, NVIDIA-tutkimus vähättelee viimeisimmän innovaationsa mahdollisuuksia parantaa fotorealistisia tai VFX-työnkulkuja sekä sen mahdollisuuksia parantaa syväväärennöskuvia ja -videoita.
Esimerkeissä aloittelija tai amatöörikäyttäjä kirjoittelee karkeat ääriviivat tietylle elementille sijoittelusta, kun taas systemaattisemmassa VFX-työnkulussa voisi olla mahdollista käyttää eDiffiä videoelementin useiden ruutujen tulkitsemiseen tekstistä kuvaksi, jolloin ääriviivat ovat erittäin tarkkoja ja perustuvat esimerkiksi kuviin, joissa tausta on pudonnut pois vihreällä näytöllä tai algoritmisilla menetelmillä.

Runway ML tarjoaa jo tekoälypohjaista rotoskopiointia. Tässä esimerkissä kohteen ympärillä oleva "vihreä tausta" edustaa alfakerrosta, kun taas poiminta on tehty koneoppimisen avulla sen sijaan, että algoritmisesti poistettaisiin reaalimaailman vihreä tausta. Lähde: https://twitter.com/runwayml/status/1330978385028374529
Käyttämällä koulutettua unelmakoppi hahmon ja kuvasta kuvaan -prosessin eDiffin avulla on mahdollisesti mahdollista alkaa selvittää yhtä ongelmakohtaa Kaikki latentti diffuusiomalli: ajallinen vakaus. Tällaisessa tapauksessa sekä asetetun kuvan reunat että kuvan sisältö "esiasennetaan" käyttäjän alustaa vasten, ja renderöidyn sisällön ajallinen jatkuvuus (eli todellisen Tai Chi -harjoittajan muuttaminen robotiksi) varmistetaan lukitun DreamBooth-mallin avulla, joka on "muistanut" harjoitusdatansa – huono tulkittavuuden, hyvä toistettavuuden, tarkkuuden ja jatkuvuuden kannalta.
Menetelmä, tiedot ja testit
Artikkelissa todetaan, että eDiffi-mallia koulutettiin "julkisten ja yksityisten tietojoukkojen kokoelmalla", jotka oli suodatettu voimakkaasti esikoulutetulla CLIP-mallilla, jotta voitiin poistaa kuvat, jotka todennäköisesti heikentävät tulosteen yleistä esteettistä pistemäärää. Lopullinen suodatettu kuvajoukko käsittää "noin miljardi" teksti-kuva-paria. Koulutettujen kuvien kooksi kuvataan "lyhyin sivu yli 64 pikseliä".
Prosessia varten koulutettiin useita malleja, sekä perus- että superresoluutiomallit AdamW optimoija oppimisnopeudella 0.0001, painon vähenemisellä 0.01 ja valtavalla eräkoolla 2048.
Perusmalli on koulutettu 256 NVIDIA A100 GPU:lla ja kaksi superresoluutiomallia 128 NVIDIAlla A100 GPU:t jokaiselle mallille.
Järjestelmä perustui NVIDIAn omaan Kuvittele PyTorch-kirjasto. KOKO ja Visual Genome -tietosarjoja käytettiin arvioinnissa, vaikka niitä ei sisällytetty lopullisiin malleihin MS-COCO testaukseen käytetty erityinen variantti. Testatut kilpailevat järjestelmät olivat LIUKUA, Järjestää kohtaus, DALL-E2, Vakaa diffuusioja Googlen kaksi kuvasynteesijärjestelmää, Kuva ja Puolue.
Mukaisesti vastaavia aikaisempi työ, zero-shot FID-30K käytettiin arviointimittarina. FID-30K:ssa COCO-validointijoukosta poimitaan satunnaisesti 30,000 XNUMX kuvatekstiä (eli ei koulutuksessa käytettyjä kuvia tai tekstiä), joita käytettiin sitten tekstikehotteina kuvien syntetisoinnissa.
Frechetin alkuetäisyys (IN) generoitujen kuvien ja pohjatotuuskuvien välillä laskettiin sitten luotujen kuvien CLIP-pisteiden tallennuksen lisäksi.

Tulokset zero-shot FID-testeistä verrattuna COCO 2014 -validointitietojoukon nykyiseen huipputekniikkaan, ja tulokset ovat parempia.
Tuloksissa eDiffi pystyi saamaan alimman (parhaan) pistemäärän nollasta FID:stä jopa järjestelmissä, joissa on paljon enemmän parametreja, kuten Partin 20 miljardia parametria verrattuna 9.1 miljardiin parametriin korkeimpien spesifioitu eDiffi-malli, joka on koulutettu testeihin.
Yhteenveto
NVIDIAn eDiffi tarjoaa tervetulleen vaihtoehdon sille, että yksinkertaisesti lisätään yhä suurempia tietomääriä ja monimutkaisuutta olemassa oleviin järjestelmiin. Sen sijaan se käyttäisi älykkäämpää ja kerroksellisempaa lähestymistapaa joihinkin latenttidiffuusiota käyttävien generatiivisten kuvajärjestelmien vaikeimpiin esteisiin, jotka liittyvät kietoutumiseen ja muokattavuuden puutteeseen.
Stable Diffusion -aliredditeissä ja Discordsissa keskustellaan jo joko minkä tahansa eDiffin saataville saatavan koodin sisällyttämisestä suoraan tai sen taustalla olevien periaatteiden uudelleenlavastamisesta erillisessä toteutuksessa. Uusi putkisto on kuitenkin niin radikaalisti erilainen, että se muodostaisi kokonaisen versionumeron muutoksen SD:lle, joka sulkee pois jonkin verran taaksepäin yhteensopivuutta, vaikka tarjoaakin mahdollisuuden huomattavasti paranneltujen syntetisoitujen kuvien hallintaan uhraamatta kiehtovaa. piilevän diffuusion mielikuvitusvoimat.
Julkaistu ensimmäisen kerran 3.












