Mesterséges Intelligencia
Az NVIDIA eDiffi diffúziós modellje lehetővé teszi a szavakkal való festést és még sok mást
Kísérlet precíz kompozíciók készítésére látens diffúziós generatív képmodellekkel, mint pl Stabil diffúzió olyan lehet, mint a terelő macskák; Ugyanazok a képzelő és értelmező erők, amelyek lehetővé teszik a rendszer számára, hogy rendkívüli részleteket hozzon létre, és rendkívüli képeket idézzen elő viszonylag egyszerű szöveges felszólításokból. nehéz kikapcsolni amikor Photoshop-szintű vezérlést keres egy képgenerálás felett.
Most az NVIDIA kutatás új megközelítése, a cím ensemble diffúzió képekhez (eDiffi), több beágyazási és értelmezési módszer keverékét használja (ahelyett, hogy ugyanazt a módszert használja végig a folyamaton), hogy sokkal nagyobb szintű ellenőrzést biztosítson a generált tartalom felett. Az alábbi példában azt látjuk, hogy egy felhasználó olyan elemeket fest, ahol minden szín egyetlen szót képvisel egy szöveges promptból:
Ez gyakorlatilag „maszkokkal festés”, és megfordítja az infestészeti paradigma a Stable Diffusion, amely törött vagy nem kielégítő képek javításán, vagy olyan képek kiterjesztésén alapul, amelyek eleve a kívánt méretűek is lehettek volna.
Ehelyett a festett csík margói egyetlen koncepció egyetlen egyedi elemének megengedett közelítő határait jelentik, lehetővé téve a felhasználó számára, hogy a kezdetektől fogva beállítsa a végleges vászonméretet, majd diszkréten hozzáadjon elemeket.
Az eDiffi változatos metódusai azt is jelentik, hogy a rendszer sokkal jobban teljesít minden elemet hosszú és részletes promptokban, míg a Stable Diffusion és az OpenAI DALL-E 2 hajlamos a prompt bizonyos részeit előnyben részesíteni, attól függően, hogy milyen korai a prompt. célszavak jelennek meg a promptban, vagy más tényezőkön, például a teljes, de átfogó (a szövegprompt tekintetében) kompozícióhoz szükséges különféle elemek szétválasztásának lehetséges nehézségei miatt:
Ezenkívül egy dedikált T5 szöveg-szöveg kódoló azt jelenti, hogy az eDiffi képes érthető angol szöveg megjelenítésére, akár absztrakt módon kérik egy promptból (pl. a kép tartalmazza a [x] szövegét) vagy kifejezetten kérték (pl a pólón az „Nvidia Rocks” felirat szerepel):
Az új keretrendszer további kiegészítése, hogy lehetőség van egyetlen kép megadására is stíluskérdésként, ahelyett, hogy egy DreamBooth modellt vagy szöveges beágyazást kellene betanítani egy műfaj vagy műfaj több példájára. stílus.
A új lap címet viseli eDiffi: Szöveg-kép diffúziós modellek szakértő hangtalanítók együttesévelés
A T5 szövegkódoló
A Google T használataext-to-text Transfer Transformer A (T5) az eDiffiben kimutatott jobb eredmények sarkalatos eleme. Az átlagos látens diffúziós csővezeték a betanított képek és a hozzájuk tartozó feliratok közötti összefüggésre összpontosít, amikor lekaparták őket az internetről (vagy később manuálisan igazították őket, bár ez drága és ezért ritka beavatkozás).
A forrásszöveg átfogalmazásával és a T5 modul futtatásával pontosabb asszociációk és reprezentációk érhetők el, mint amennyit eredetileg betanítottak a modellbe, ami majdnem hasonló poszt tény kézi címkézés, pontosabban és jobban alkalmazható a kért szöveges prompt előírásaira.
A szerzők kifejtik:
„A legtöbb létező diffúziós modellben a zajtalanítási modell meg van osztva az összes zajszinten, és az időbeli dinamikát egy egyszerű időbeágyazás segítségével ábrázolják, amelyet egy MLP hálózaton keresztül táplálnak be a zajtalanító modellbe. Azt állítjuk, hogy a zajtalanító diffúzió összetett időbeli dinamikája nem tanulható meg hatékonyan az adatokból egy korlátozott kapacitású megosztott modell használatával.
„Ehelyett azt javasoljuk, hogy növeljük a zajcsökkentő modell kapacitását egy szakértő zajtalanító együttes bevezetésével; minden szakértő zajtalanító egy zajtalanító modell, amely egy adott zajtartományra [szintek] specializálódott. Ily módon növelhetjük a modell kapacitását a mintavétel lelassítása nélkül, mivel a [feldolgozott elem] kiértékelésének számítási bonyolultsága minden zajszinten ugyanaz marad.'
A létező CLIP A DALL-E 2-ben és a Stable Diffusion-ban található kódoló modulok szintén képesek alternatív képértelmezéseket találni a felhasználói bevitelhez kapcsolódó szövegekhez. Azonban az eredeti modellhez hasonló információkra képezik őket, és nem használják őket külön értelmezési rétegként, ahogy a T5 az eDiffiben.
A szerzők kijelentik, hogy az eDiffi az első alkalom, hogy mind a T5, mind a CLIP kódolót egyetlen folyamatba építették be:
„Mivel ezt a két kódolót különböző célokkal képezték ki, beágyazásaik kedveznek a különböző képek azonos bemeneti szövegű formációinak. Míg a CLIP-szövegbeágyazások segítenek meghatározni a generált képek globális megjelenését, a kimenetek általában figyelmen kívül hagyják a szöveg finom részleteit.
Ezzel szemben a T5 szövegbeágyazásokkal létrehozott képek jobban tükrözik a szövegben leírt egyedi objektumokat, de globális megjelenésük kevésbé pontos. Ezek együttes használata a legjobb képgenerálási eredményeket eredményezi modellünkben.
A diffúziós folyamat megszakítása és fokozása
A cikk megjegyzi, hogy egy tipikus látens diffúziós modell úgy kezdi meg a tiszta zajtól a képig vezető utat, hogy a generáció korai szakaszában kizárólag a szövegre támaszkodik.
Amikor a zaj valamiféle durva elrendezésben oldódik meg, amely a szöveges promptban lévő leírást reprezentálja, a folyamat szövegvezérelt aspektusa lényegében eltűnik, és a folyamat többi része a vizuális jellemzők bővítése felé tolódik el.
Ez azt jelenti, hogy minden olyan elemet, amelyet a szövegvezérelt zajértelmezés születő szakaszában nem oldottak meg, nehéz később beilleszteni a képbe, mivel a két folyamat (szöveg-elrendezés és elrendezés-kép) viszonylag kevés átfedést mutat. , és az alap elrendezés egészen kusza, mire a képbővítési folyamathoz ér.
Szakmai potenciál
Példák a projekt oldalán és a YouTube videóközpontban a mém-ízű aranyos képek PR-barát generálására. Ahogy az lenni szokott, az NVIDIA kutatása lekicsinyli a legújabb innovációjában rejlő lehetőségeket a fotorealisztikus vagy VFX munkafolyamatok javítására, valamint a mélyhamisított képek és videók javítására.
A példákban egy kezdő vagy amatőr felhasználó durva körvonalakat firkant fel az adott elem elhelyezésére, míg egy szisztematikusabb VFX-munkafolyamatban lehetséges lenne az eDiffi használata egy videóelem több képkockájának értelmezésére szöveggé képpé, ahol A körvonalak nagyon pontosak, és például olyan ábrákon alapulnak, ahol a háttér kiesett zöld képernyőn vagy algoritmikus módszerekkel.
Egy képzett álombódé karaktert és egy kép-kép folyamatot az eDiffi-vel, lehetséges, hogy elkezdjük leszögezni az egyik bogaras bármilyen látens diffúziós modell: időbeli stabilitás. Ebben az esetben a kiszabott kép margói és a kép tartalma is „előre lebegnek” a felhasználói vászonhoz, a megjelenített tartalom időbeli folytonosságával (azaz egy valós Tai Chi gyakorló robottá változtatva) ).
Módszer, adatok és tesztek
A cikk szerint az eDiffi modellt „nyilvános és védett adatkészletek gyűjteményén” képezték, amelyet erősen szűrt egy előre betanított CLIP-modell, hogy eltávolítsák azokat a képeket, amelyek valószínűleg csökkentik a kimenet általános esztétikai pontszámát. A végső szűrt képkészlet „mintegy egymilliárd” szöveg-kép párból áll. A betanított képek mérete a leírás szerint „a legrövidebb oldal 64 képpontnál nagyobb”.
Számos modellt képeztek ki a folyamathoz, mind az alap-, mind a szuperfelbontású modelleket AdamW optimalizáló 0.0001-es tanulási sebességgel, 0.01-es súlycsökkenéssel és félelmetes, 2048-as kötegmérettel.
Az alapmodellt 256 NVIDIA A100 GPU-ra, a két szuperfelbontású modellt pedig 128 NVIDIA-ra képezték ki. A100 GPU minden modellhez.
A rendszer az NVIDIA sajátjára épült Imaginaire PyTorch könyvtár. COCONUT és Visual Genome adatkészleteket használtak az értékeléshez, bár nem szerepeltek a végső modellekben MS-COCO a teszteléshez használt konkrét változat. A tesztelt rivális rendszerek voltak SIKLIK, Make-A-Scene, DALL-E2, Stabil diffúzióés a Google két képszintézis rendszere, Kép és a Alkatrészek.
Összhangban hasonló előzetes munka, zero-shot FID-30K értékelési mérőszámként használták. A FID-30K alatt 30,000 XNUMX feliratot nyernek ki véletlenszerűen a COCO validációs készletből (azaz nem a képzésben használt képeket vagy szövegeket), amelyeket aztán szöveges promptként használnak fel a képek szintetizálásához.
A Frechet kezdeti távolság (FID) a generált és az alapigazság-képek között ezután kiszámításra került, amellett, hogy rögzítettük a generált képek CLIP pontszámát.
Az eredmények szerint az eDiffi a legalacsonyabb (legjobb) pontszámot tudta megszerezni a nullapontos FID-en még a jóval nagyobb paraméterszámú rendszerekkel szemben is, mint például a Parti 20 milliárd paramétere, szemben a 9.1 milliárd paraméterrel. speciális eDiffi modellt képeztek ki a tesztekre.
Következtetés
Az NVIDIA eDiffi örvendetes alternatívája annak, hogy egyszerűen csak egyre nagyobb mennyiségű adatot és komplexitást adjunk a meglévő rendszerekhez, ehelyett intelligensebb és rétegesebb megközelítést alkalmazunk a rejtett diffúziós képrendszerek összefonódásával és szerkeszthetetlenségével kapcsolatos legnehezebb akadályok némelyikére.
A Stable Diffusion subreddits and Discords-nál már folyik a megbeszélés arról, hogy vagy közvetlenül beépítsünk bármilyen kódot, amely elérhetővé válik az eDiffi számára, vagy pedig a mögöttes alapelveket egy külön implementációban helyezzük újra színpadra. Az új csővezeték azonban annyira radikálisan eltér, hogy egy teljes verziószámú változást jelentene az SD-ben, megszakítva a visszafelé kompatibilitást, bár lehetőséget kínál a végső szintetizált képek feletti vezérlési szint jelentős javítására anélkül, hogy feláldozná a lenyűgöző látványt. a látens diffúzió képzelőereje.
Első megjelenés: 3. november 2022.