Mesterséges Intelligencia

Az NVIDIA eDiffi diffúziós modellje lehetővé teszi a szavakkal való festést és még sok mást

korszerűsített on December 9, 2022

Kísérlet precíz kompozíciók készítésére látens diffúziós generatív képmodellekkel, mint pl Stabil diffúzió olyan lehet, mint a terelő macskák; Ugyanazok a képzelő és értelmező erők, amelyek lehetővé teszik a rendszer számára, hogy rendkívüli részleteket hozzon létre, és rendkívüli képeket idézzen elő viszonylag egyszerű szöveges felszólításokból. nehéz kikapcsolni amikor Photoshop-szintű vezérlést keres egy képgenerálás felett.

Most az NVIDIA kutatás új megközelítése, a cím ensemble diffúzió képekhez (eDiffi), több beágyazási és értelmezési módszer keverékét használja (ahelyett, hogy ugyanazt a módszert használja végig a folyamaton), hogy sokkal nagyobb szintű ellenőrzést biztosítson a generált tartalom felett. Az alábbi példában azt látjuk, hogy egy felhasználó olyan elemeket fest, ahol minden szín egyetlen szót képvisel egy szöveges promptból:

A „szavakkal festés” az NVIDIA eDiffi diffúziós modelljének két újdonsága egyike. Minden egyes befestett szín a promptból származó szót képvisel (lásd a generálás során a bal oldalon), és az alkalmazott területszín csak az adott elemből áll. Lásd a cikk végén a beágyazott hivatalos videót, több példával és jobb felbontással. Forrás: https://www.youtube.com/watch?v=k6cOx9YjHJc

A „szavakkal festés” az NVIDIA eDiffi diffúziós modelljének két újdonsága egyike. Minden szúrt szín a promptból származó szót képvisel (lásd a generálás során a bal oldalon), és az alkalmazott területszín csak ebből az elemből áll. További példákért és jobb felbontásért tekintse meg a forrás (hivatalos) videót https://www.youtube.com/watch?v=k6cOx9YjHJc

Ez gyakorlatilag „maszkokkal festés”, és megfordítja az infestészeti paradigma a Stable Diffusion, amely törött vagy nem kielégítő képek javításán, vagy olyan képek kiterjesztésén alapul, amelyek eleve a kívánt méretűek is lehettek volna.

Ehelyett a festett csík margói egyetlen koncepció egyetlen egyedi elemének megengedett közelítő határait jelentik, lehetővé téve a felhasználó számára, hogy a kezdetektől fogva beállítsa a végleges vászonméretet, majd diszkréten hozzáadjon elemeket.

Példák az új lapból. Forrás: https://arxiv.org/pdf/2211.01324.pdf

Az eDiffi változatos metódusai azt is jelentik, hogy a rendszer sokkal jobban teljesít minden elemet hosszú és részletes promptokban, míg a Stable Diffusion és az OpenAI DALL-E 2 hajlamos a prompt bizonyos részeit előnyben részesíteni, attól függően, hogy milyen korai a prompt. célszavak jelennek meg a promptban, vagy más tényezőkön, például a teljes, de átfogó (a szövegprompt tekintetében) kompozícióhoz szükséges különféle elemek szétválasztásának lehetséges nehézségei miatt:

A papírból: Az eDiffi alaposabban képes végigterelni a promptot, amíg a lehető legtöbb elemet meg nem jeleníti. Noha az eDiffi (jobb szélső oszlop) javított eredményei cseresznyével válogattak, így a Stable Diffusion és a DALL-E 2 összehasonlító képei is.

Ezenkívül egy dedikált T5 szöveg-szöveg kódoló azt jelenti, hogy az eDiffi képes érthető angol szöveg megjelenítésére, akár absztrakt módon kérik egy promptból (pl. a kép tartalmazza a [x] szövegét) vagy kifejezetten kérték (pl a pólón az „Nvidia Rocks” felirat szerepel):

Az eDiffi dedikált szöveg-szöveg feldolgozása azt jelenti, hogy a szöveg szó szerint megjeleníthető képekben, ahelyett, hogy csak egy szöveg-kép értelmező rétegen futnánk át, ami megzavarná a kimenetet.

Az új keretrendszer további kiegészítése, hogy lehetőség van egyetlen kép megadására is stíluskérdésként, ahelyett, hogy egy DreamBooth modellt vagy szöveges beágyazást kellene betanítani egy műfaj vagy műfaj több példájára. stílus.

A stílusátvitel alkalmazható referenciaképről szövegről képre, vagy akár képről képre promptra.

A új lap címet viseli eDiffi: Szöveg-kép diffúziós modellek szakértő hangtalanítók együttesévelés

A T5 szövegkódoló

A Google T használataext-to-text Transfer Transformer A (T5) az eDiffiben kimutatott jobb eredmények sarkalatos eleme. Az átlagos látens diffúziós csővezeték a betanított képek és a hozzájuk tartozó feliratok közötti összefüggésre összpontosít, amikor lekaparták őket az internetről (vagy később manuálisan igazították őket, bár ez drága és ezért ritka beavatkozás).

A T2020 5. júliusi tanulmányából – szövegalapú átalakítások, amelyek segíthetik a generatív képi munkafolyamatot az eDiffiben (és adott esetben más látens diffúziós modellekben). Forrás: https://arxiv.org/pdf/1910.10683.pdf

A forrásszöveg átfogalmazásával és a T5 modul futtatásával pontosabb asszociációk és reprezentációk érhetők el, mint amennyit eredetileg betanítottak a modellbe, ami majdnem hasonló poszt tény kézi címkézés, pontosabban és jobban alkalmazható a kért szöveges prompt előírásaira.

A szerzők kifejtik:

„A legtöbb létező diffúziós modellben a zajtalanítási modell meg van osztva az összes zajszinten, és az időbeli dinamikát egy egyszerű időbeágyazás segítségével ábrázolják, amelyet egy MLP hálózaton keresztül táplálnak be a zajtalanító modellbe. Azt állítjuk, hogy a zajtalanító diffúzió összetett időbeli dinamikája nem tanulható meg hatékonyan az adatokból egy korlátozott kapacitású megosztott modell használatával.

„Ehelyett azt javasoljuk, hogy növeljük a zajcsökkentő modell kapacitását egy szakértő zajtalanító együttes bevezetésével; minden szakértő zajtalanító egy zajtalanító modell, amely egy adott zajtartományra [szintek] specializálódott. Ily módon növelhetjük a modell kapacitását a mintavétel lelassítása nélkül, mivel a [feldolgozott elem] kiértékelésének számítási bonyolultsága minden zajszinten ugyanaz marad.'

Koncepcionális munkafolyamat az eDiffi számára.

A létező CLIP A DALL-E 2-ben és a Stable Diffusion-ban található kódoló modulok szintén képesek alternatív képértelmezéseket találni a felhasználói bevitelhez kapcsolódó szövegekhez. Azonban az eredeti modellhez hasonló információkra képezik őket, és nem használják őket külön értelmezési rétegként, ahogy a T5 az eDiffiben.

A szerzők kijelentik, hogy az eDiffi az első alkalom, hogy mind a T5, mind a CLIP kódolót egyetlen folyamatba építették be:

„Mivel ezt a két kódolót különböző célokkal képezték ki, beágyazásaik kedveznek a különböző képek azonos bemeneti szövegű formációinak. Míg a CLIP-szövegbeágyazások segítenek meghatározni a generált képek globális megjelenését, a kimenetek általában figyelmen kívül hagyják a szöveg finom részleteit.

Ezzel szemben a T5 szövegbeágyazásokkal létrehozott képek jobban tükrözik a szövegben leírt egyedi objektumokat, de globális megjelenésük kevésbé pontos. Ezek együttes használata a legjobb képgenerálási eredményeket eredményezi modellünkben.

A diffúziós folyamat megszakítása és fokozása

A cikk megjegyzi, hogy egy tipikus látens diffúziós modell úgy kezdi meg a tiszta zajtól a képig vezető utat, hogy a generáció korai szakaszában kizárólag a szövegre támaszkodik.

Amikor a zaj valamiféle durva elrendezésben oldódik meg, amely a szöveges promptban lévő leírást reprezentálja, a folyamat szövegvezérelt aspektusa lényegében eltűnik, és a folyamat többi része a vizuális jellemzők bővítése felé tolódik el.

Ez azt jelenti, hogy minden olyan elemet, amelyet a szövegvezérelt zajértelmezés születő szakaszában nem oldottak meg, nehéz később beilleszteni a képbe, mivel a két folyamat (szöveg-elrendezés és elrendezés-kép) viszonylag kevés átfedést mutat. , és az alap elrendezés egészen kusza, mire a képbővítési folyamathoz ér.

A papírból: a csővezeték különböző részeinek figyelmi térképei a zaj>képfolyamat érlelődése során. Az alsó sorban a kép CLIP hatásának éles csökkenése látható, míg a T5 továbbra is sokkal tovább befolyásolja a képet a renderelési folyamatban.

Szakmai potenciál

Példák a projekt oldalán és a YouTube videóközpontban a mém-ízű aranyos képek PR-barát generálására. Ahogy az lenni szokott, az NVIDIA kutatása lekicsinyli a legújabb innovációjában rejlő lehetőségeket a fotorealisztikus vagy VFX munkafolyamatok javítására, valamint a mélyhamisított képek és videók javítására.

A példákban egy kezdő vagy amatőr felhasználó durva körvonalakat firkant fel az adott elem elhelyezésére, míg egy szisztematikusabb VFX-munkafolyamatban lehetséges lenne az eDiffi használata egy videóelem több képkockájának értelmezésére szöveggé képpé, ahol A körvonalak nagyon pontosak, és például olyan ábrákon alapulnak, ahol a háttér kiesett zöld képernyőn vagy algoritmikus módszerekkel.

A Runway ML már kínál AI-alapú rotoszkópot. Ebben a példában az alany körüli „zöld képernyő” az alfa réteget képviseli, míg a kinyerést gépi tanulással hajtották végre, nem pedig a valós zöld képernyő hátterének algoritmikus eltávolításával. Forrás: https://twitter.com/runwayml/status/1330978385028374529

Egy képzett álombódé karaktert és egy kép-kép folyamatot az eDiffi-vel, lehetséges, hogy elkezdjük leszögezni az egyik bogaras bármilyen látens diffúziós modell: időbeli stabilitás. Ebben az esetben a kiszabott kép margói és a kép tartalma is „előre lebegnek” a felhasználói vászonhoz, a megjelenített tartalom időbeli folytonosságával (azaz egy valós Tai Chi gyakorló robottá változtatva) ).

Módszer, adatok és tesztek

A cikk szerint az eDiffi modellt „nyilvános és védett adatkészletek gyűjteményén” képezték, amelyet erősen szűrt egy előre betanított CLIP-modell, hogy eltávolítsák azokat a képeket, amelyek valószínűleg csökkentik a kimenet általános esztétikai pontszámát. A végső szűrt képkészlet „mintegy egymilliárd” szöveg-kép párból áll. A betanított képek mérete a leírás szerint „a legrövidebb oldal 64 képpontnál nagyobb”.

Számos modellt képeztek ki a folyamathoz, mind az alap-, mind a szuperfelbontású modelleket AdamW optimalizáló 0.0001-es tanulási sebességgel, 0.01-es súlycsökkenéssel és félelmetes, 2048-as kötegmérettel.

Az alapmodellt 256 NVIDIA A100 GPU-ra, a két szuperfelbontású modellt pedig 128 NVIDIA-ra képezték ki. A100 GPU minden modellhez.

A rendszer az NVIDIA sajátjára épült Imaginaire PyTorch könyvtár. COCONUT és Visual Genome adatkészleteket használtak az értékeléshez, bár nem szerepeltek a végső modellekben MS-COCO a teszteléshez használt konkrét változat. A tesztelt rivális rendszerek voltak SIKLIK, Make-A-Scene, DALL-E2, Stabil diffúzióés a Google két képszintézis rendszere, Kép és a Alkatrészek.

Összhangban hasonló előzetes munka, zero-shot FID-30K értékelési mérőszámként használták. A FID-30K alatt 30,000 XNUMX feliratot nyernek ki véletlenszerűen a COCO validációs készletből (azaz nem a képzésben használt képeket vagy szövegeket), amelyeket aztán szöveges promptként használnak fel a képek szintetizálásához.

A Frechet kezdeti távolság (FID) a generált és az alapigazság-képek között ezután kiszámításra került, amellett, hogy rögzítettük a generált képek CLIP pontszámát.

A zero-shot FID tesztek eredményei a COCO 2014 validációs adatkészlet jelenlegi legmodernebb megközelítéseihez képest, alacsonyabb eredményekkel jobbak.

Az eredmények szerint az eDiffi a legalacsonyabb (legjobb) pontszámot tudta megszerezni a nullapontos FID-en még a jóval nagyobb paraméterszámú rendszerekkel szemben is, mint például a Parti 20 milliárd paramétere, szemben a 9.1 milliárd paraméterrel. speciális eDiffi modellt képeztek ki a tesztekre.

Következtetés

Az NVIDIA eDiffi örvendetes alternatívája annak, hogy egyszerűen csak egyre nagyobb mennyiségű adatot és komplexitást adjunk a meglévő rendszerekhez, ehelyett intelligensebb és rétegesebb megközelítést alkalmazunk a rejtett diffúziós képrendszerek összefonódásával és szerkeszthetetlenségével kapcsolatos legnehezebb akadályok némelyikére.

A Stable Diffusion subreddits and Discords-nál már folyik a megbeszélés arról, hogy vagy közvetlenül beépítsünk bármilyen kódot, amely elérhetővé válik az eDiffi számára, vagy pedig a mögöttes alapelveket egy külön implementációban helyezzük újra színpadra. Az új csővezeték azonban annyira radikálisan eltér, hogy egy teljes verziószámú változást jelentene az SD-ben, megszakítva a visszafelé kompatibilitást, bár lehetőséget kínál a végső szintetizált képek feletti vezérlési szint jelentős javítására anélkül, hogy feláldozná a lenyűgöző látványt. a látens diffúzió képzelőereje.

Első megjelenés: 3. november 2022.

Up Next

Melyik a legjobb nyelv a gépi tanuláshoz? (2024. május)

Ne hagyd ki

A Synthesis AI új termékeket ad ki az emberközpontú számítógépes látásmodellek számára

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai

Egyesül.AI

Az NVIDIA eDiffi diffúziós modellje lehetővé teszi a szavakkal való festést és még sok mást

Mesterséges Intelligencia