csonk Vizuális autoregresszív modellezés: méretezhető képgenerálás a következő léptékű előrejelzéssel – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Vizuális autoregresszív modellezés: Skálázható képgenerálás a következő léptékű előrejelzésen keresztül

mm

Közzététel:

 on

Vizuális autoregresszív modellezés: Skálázható képgenerálás a következő léptékű előrejelzésen keresztül

A GPT modellek megjelenése más autoregresszív vagy AR nagy nyelvi modellekkel együtt új korszakot bontott ki a gépi tanulás és a mesterséges intelligencia területén. A GPT és az autoregresszív modellek gyakran általános intelligenciát és sokoldalúságot mutatnak, ami jelentős lépésnek tekinthető az általános mesterséges intelligencia vagy az AGI felé, annak ellenére, hogy vannak olyan problémák, mint a hallucinációk. Azonban ezekkel a nagy modellekkel a rejtélyes probléma egy önfelügyelt tanulási stratégia, amely lehetővé teszi a modell számára, hogy előre jelezze a sorozat következő tokent, ez egy egyszerű, de hatékony stratégia. A legújabb munkák bizonyították ezeknek a nagy autoregresszív modelleknek a sikerét, kiemelve általánosíthatóságukat és méretezhetőségüket. A skálázhatóság a meglévő skálázási törvények tipikus példája, amely lehetővé teszi a kutatók számára, hogy megjósolják a nagy modell teljesítményét a kisebb modellek teljesítményéből, ami az erőforrások jobb elosztását eredményezi. Másrészt, az általánosíthatóságot gyakran bizonyítják olyan tanulási stratégiák, mint a nulla-lövés, az egy- és a néhány lépéses tanulás, kiemelve a nem felügyelt, de képzett modellek azon képességét, hogy alkalmazkodjanak a változatos és nem látott feladatokhoz. Az általánosíthatóság és a skálázhatóság együttesen felfedi az autoregresszív modellekben rejlő lehetőségeket, amelyek segítségével hatalmas mennyiségű címkézetlen adatból tanulhatnak. 

Ugyanerre építve ebben a cikkben a Visual AutoRegressive vagy a VAR keretrendszerről fogunk beszélni, egy új generációs mintáról, amely újradefiniálja az autoregresszív tanulást a képeken durva-finom „következő felbontású előrejelzésként” vagy „következő léptékű előrejelzésként”. . Bár egyszerű, a megközelítés hatékony, és lehetővé teszi az autoregresszív transzformátorok számára, hogy jobban megtanulják a vizuális eloszlásokat, és javítsák az általánosíthatóságot. Ezenkívül a Visual AutoRegressive modellek lehetővé teszik a GPT-stílusú autoregresszív modellek számára, hogy a képgenerálás során először felülmúlják a diffúziós átvitelt. A kísérletek azt is mutatják, hogy a VAR keretrendszer jelentősen javítja az autoregresszív alapvonalakat, és több dimenzióban is felülmúlja a Diffusion Transformer vagy DiT keretrendszert, beleértve az adathatékonyságot, a képminőséget, a skálázhatóságot és a következtetési sebességet. Ezenkívül a Visual AutoRegressive modellek felskálázása a nagy nyelvi modelleknél megfigyeltekhez hasonló hatványtörvény-skálázási törvényeket mutat be, és nullapontos általánosítási képességet is megjelenít a downstream feladatokban, beleértve a szerkesztést, a be- és kifestést. 

Ennek a cikknek a célja a Visual AutoRegressive keretrendszer részletes bemutatása, és megvizsgáljuk a keretrendszer mechanizmusát, módszertanát, architektúráját, valamint összehasonlítását a legmodernebb keretrendszerekkel. Beszélni fogunk arról is, hogy a Visual AutoRegressive keretrendszer hogyan mutatja be az LLM-ek két fontos tulajdonságát: a skálázási törvényeket és a nullapontos általánosítást. Tehát kezdjük.

Vizuális autoregresszív modellezés: Képgenerálás méretezése

A legutóbbi nagy nyelvi modellek gyakori mintája az önfelügyelt tanulási stratégia megvalósítása, egy egyszerű, de hatékony megközelítés, amely előrejelzi a sorozat következő tokent. A megközelítésnek köszönhetően az autoregresszív és a nagy nyelvi modellek manapság figyelemreméltó skálázhatóságot és általánosíthatóságot mutatnak, amelyek felfedik az autoregresszív modellek azon képességét, hogy címkézetlen adatok nagy készletéből tanuljanak, így összefoglalva az általános mesterséges intelligencia lényegét. Ezenkívül a számítógépes látás területén dolgozó kutatók párhuzamosan dolgoznak nagy autoregresszív vagy világmodellek kifejlesztésén azzal a céllal, hogy azok lenyűgöző méretezhetőségét és általánosíthatóságát összehozzák vagy felülmúlják, és az olyan modellek, mint a DALL-E és a VQGAN, már demonstrálják az autoregresszív modellekben rejlő lehetőségeket a területen. képalkotás. Ezek a modellek gyakran olyan vizuális tokenizátort valósítanak meg, amely a folytonos képeket egy 2D tokenek rácsává reprezentálja vagy közelíti meg, majd az autoregresszív tanulás érdekében 1D-s szekvenciává lapítja, így tükrözve a szekvenciális nyelvi modellezési folyamatot. 

A kutatóknak azonban még fel kell fedezniük e modellek skálázási törvényeit, és ami még elkeserítőbb, az a tény, hogy ezeknek a modelleknek a teljesítménye gyakran jelentős különbséggel elmarad a diffúziós modellektől, amint azt a következő kép is mutatja. A teljesítménybeli különbségek azt jelzik, hogy a nagy nyelvi modellekkel összehasonlítva az autoregresszív modellek számítógépes látásban rejlő képességei nem teljesen feltártak. 

Egyrészt a hagyományos autoregresszív modellekhez meghatározott adatsorrend szükséges, másrészt a Visual AutoRegressive vagy a VAR modell újragondolja a kép sorrendjét, és ez különbözteti meg a VAR-t a meglévő AR-módszerektől. Az emberek jellemzően hierarchikus módon hoznak létre vagy érzékelnek egy képet, rögzítve a globális struktúrát, majd a helyi részleteket, egy többléptékű, durvától finomig terjedő megközelítést, amely a kép természetes sorrendjét sugallja. Továbbá, a többléptékű tervekből merítve, a VAR keretrendszer a képek autoregresszív tanulását a következő léptékű előrejelzésként határozza meg, szemben a hagyományos megközelítésekkel, amelyek a tanulást a következő token előrejelzéseként határozzák meg. A VAR keretrendszer által megvalósított megközelítés a kép többléptékű tokentérképekbe való kódolásával indul el. Ezután a keretrendszer elindítja az autoregresszív folyamatot az 1 × 1 token térképről, és fokozatosan bővül a felbontásban. A transzformátor minden lépésben megjósolja a következő nagyobb felbontású token térképet, amely az összes előzőre feltétele, és ezt a módszert a VAR keretrendszer VAR modellezésként emlegeti. 

A VAR-keretrendszer megpróbálja kihasználni a GPT-2 transzformátor-architektúráját a vizuális autoregresszív tanuláshoz, és az eredmények nyilvánvalóak az ImageNet benchmarkon, ahol a VAR-modell jelentősen javítja AR-alapvonalát, 1.80-as FID-t és 356-os kezdeti pontszámot ért el. a következtetési sebesség 20-szoros javításával. Ami még érdekesebb, hogy a VAR keretrendszernek sikerül felülmúlnia a DiT vagy Diffusion Transformer keretrendszer teljesítményét a FID és IS pontszámok, a skálázhatóság, a következtetési sebesség és az adathatékonyság tekintetében. Ezenkívül a Visual AutoRegressive modell erős skálázási törvényeket mutat, amelyek hasonlóak a nagy nyelvi modellekben tapasztaltakhoz. 

Összefoglalva, a VAR keretrendszer a következő hozzájárulásokat kísérli meg. 

  1. Egy új vizuális generatív keretrendszert javasol, amely többléptékű autoregresszív megközelítést használ a következő léptékű előrejelzéssel, ellentétben a hagyományos next-token előrejelzéssel, ami az autoregresszív algoritmus tervezését eredményezi számítógépes látási feladatokhoz. 
  2. Megkísérli érvényesíteni az autoregresszív modellek skálázási törvényeit, valamint a nullapontos általánosítási potenciált, amely emulálja az LLM-ek vonzó tulajdonságait. 
  3. Áttörést kínál a vizuális autoregresszív modellek teljesítményében, lehetővé téve, hogy a GPT-stílusú autoregresszív keretrendszerek felülmúlják a meglévőket. diffúziós modellek képszintézis feladatokban először. 

Ezenkívül létfontosságú a meglévő hatványtörvény-skálázási törvények megvitatása, amelyek matematikailag írják le az adatkészletek méretei, a modellparaméterek, a teljesítményjavítások és a gépi tanulási modellek számítási erőforrásai közötti kapcsolatot. Először is, ezek a hatványtörvény-skálázási törvények megkönnyítik egy nagyobb modell teljesítményének alkalmazását a modell méretének, számítási költségének és adatméretének felskálázásával, szükségtelen költségek megtakarításával és a képzési költségvetés felosztásával az elvek biztosításával. Másodszor, a méretezési törvények következetes és nem kielégítő teljesítménynövekedést mutatnak. A neurális nyelvi modellekben a skálázási törvények elvei felé haladva számos LLM megtestesíti azt az elvet, hogy a modellek léptékének növelése általában jobb teljesítményt eredményez. A nullapontos általánosítás ezzel szemben egy modell képességére utal, különösen egy LLM-re, amely olyan feladatokat hajt végre, amelyekre nem kapott kifejezetten képzést. A számítógépes látás területén belül az alapozó modellek zero-shot-ba építése és a kontextusban tanulási képességek iránti érdeklődés. 

A nyelvi modellek a WordPiece algoritmusokra vagy a byte Pair Encoding megközelítésre támaszkodnak a szöveg tokenizálásához. A nyelvi modelleken alapuló vizuális generációs modellek is nagymértékben támaszkodnak a 2D képek 1D token szekvenciákba való kódolására. A korai munkák, mint például a VQVAE, bebizonyították, hogy képesek a képeket diszkrét tokenekként, mérsékelt rekonstrukciós minőséggel ábrázolni. A VQVAE utódja, a VQGAN keretrendszer percepciós és ellenséges veszteségeket tartalmazott a képhűség javítása érdekében, és egy csak dekóderhez használható transzformátort is alkalmazott a képkivonatok szabványos raszteres letapogatásos autoregresszív módon történő előállításához. Másrészt a diffúziós modelleket régóta a vizuális szintézis feladatok élharcosaként tartják számon, feltéve, hogy sokszínűek és kiváló generációs minőségük. A diffúziós modellek fejlesztése a mintavételi technikák javítására, az építészeti fejlesztésekre és a gyorsabb mintavételre összpontosult. A látens diffúziós modellek diffúziót alkalmaznak a látens térben, ami javítja a képzés hatékonyságát és a következtetést. A Diffusion Transformer modellek felváltják a hagyományos U-Net architektúrát egy transzformátor alapú architektúrával, és a legújabb kép- vagy videószintézis modellekben, például a SORA-ban és Stabil diffúzió

Vizuális autoregresszív: módszertan és architektúra

A VAR-keret lényegében két különálló képzési szakaszból áll. Az első szakaszban egy többléptékű kvantált autoencoder vagy VQVAE kódolja a képet token térképekbe, és az összetett rekonstrukciós veszteséget valósítják meg képzési célokra. A fenti ábrán a beágyazás egy olyan szó, amely a diszkrét tokenek folyamatos beágyazási vektorokká alakítását definiálja. A második szakaszban a VAR modell transzformátorát a keresztentrópia veszteség minimalizálásával vagy a valószínűség maximalizálásával a következő léptékű előrejelzési megközelítéssel képezik. A betanított VQVAE ezután elkészíti a token térkép alapigazságát a VAR keretrendszerhez. 

Autoregresszív modellezés Next-Token Prediction segítségével

Egy adott diszkrét tokenek sorozatra, ahol minden token egy V méretű szókészletből származó egész szám, a következő token autoregresszív modellje azt állítja, hogy az aktuális token megfigyelésének valószínűsége csak az előtagtól függ. Az egyirányú token-függőség feltételezése lehetővé teszi a VAR keretrendszer számára, hogy a sorozat esélyeit feltételes valószínűségek szorzatára bontsa. Az autoregresszív modell betanítása magában foglalja a modell optimalizálását egy adathalmazban, és ezt az optimalizálási folyamatot úgy hívják, hogy következő jelű előrejelzés, és lehetővé teszi a betanított modell számára, hogy új sorozatokat generáljon. Ezen túlmenően a képek öröklődően 2D folytonos jelek, és ahhoz, hogy az autoregresszív modellezési megközelítést a következő token előrejelzés optimalizálási folyamatán keresztül alkalmazzuk a képekre, megvan néhány előfeltétel. Először is, a képet több különálló tokenre kell tokenizálni. Általában egy kvantált automatikus kódolót alkalmaznak a kép jellemzőtérképének diszkrét tokenekké való átalakítására. Másodszor, meg kell határozni a tokenek 1D sorrendjét az egyirányú modellezéshez. 

A diszkrét tokenekben lévő képkivonatok 2D rácsba vannak rendezve, és a természetes nyelvi mondatokkal ellentétben, amelyek eredendően balról jobbra rendeződnek, a képjelek sorrendjét kifejezetten meg kell határozni az egyirányú autoregresszív tanuláshoz. A korábbi autoregresszív megközelítések a diszkrét tokenek 2D-s rácsát 1D-s szekvenciává simították olyan módszerekkel, mint a sor-major raszteres letapogatás, a z-görbe vagy a spirális sorrend. Miután a diszkrét tokenek egyenetlenek lettek, az AR-modellek szekvenciákat vontak ki az adatkészletből, majd egy autoregresszív modellt betanítottak, hogy maximalizálják a valószínűséget a T feltételes valószínűségek szorzatára a következő token előrejelzésével. 

Vizuális-autoregresszív modellezés a következő léptékű előrejelzésen keresztül

A VAR keretrendszer újrafogalmazza a képek autoregresszív modellezését azáltal, hogy a következő token előrejelzésről a következő léptékű predikciós megközelítésre vált, amely folyamat során az autoregresszív egység nem egyetlen token, hanem egy teljes token térkép. A modell először kvantifikálja a tereptérképet többléptékű token térképekké, amelyek mindegyike nagyobb felbontással rendelkezik, mint az előző, és a csúcspontja az eredeti jellemzőtérképek felbontásának megfeleltetése. Ezenkívül a VAR keretrendszer új, többléptékű kvantálási kódolót fejleszt ki, amely a képet többléptékű diszkrét token térképekre kódolja, amelyek szükségesek a VAR tanulásához. A VAR keretrendszer ugyanazt az architektúrát használja, mint a VQGAN, de módosított többléptékű kvantálási réteggel, a következő képen bemutatott algoritmusokkal. 

Vizuális autoregresszív: Eredmények és kísérletek

A VAR keretrendszer a vanília VQVAE architektúrát használja többléptékű kvantálási sémával, K extra konvolúcióval, és megosztott kódkönyvet használ az összes skálához és a 32-es látens fényerőt. Az elsődleges hangsúly a VAR algoritmuson van, aminek köszönhetően a modell architektúra kialakítása egyszerű, mégis hatékony. A keretrendszer egy szabványos, csak dekódolót használó transzformátor architektúráját veszi át, amely hasonló a GPT-2 modelleken megvalósítottakhoz, az egyetlen módosítás a hagyományos rétegnormalizáció helyettesítése az adaptív normalizálással vagy az AdaLN-nel. Az osztályfeltételes szintézishez a VAR keretrendszer az osztálybeágyazásokat valósítja meg kezdő tokenként, valamint az adaptív normalizációs réteg feltételét. 

A legmodernebb képgenerálási eredmények

A meglévő generatív keretrendszerekkel párosítva, beleértve GAN-ok vagy generatív ellenséges hálózatok, BERT-stílusú maszkolt predikciós modellek, diffúziós modellek és GPT-stílusú autoregresszív modellek, a Visual AutoRegressive keretrendszer ígéretes eredményeket mutat, amelyeket a következő táblázat foglal össze. 

Mint látható, a Visual AutoRegressive keretrendszer nem csak a legjobb FID és IS pontszámok elérésére képes, hanem figyelemre méltó képgenerálási sebességet is felmutat, amely a legkorszerűbb modellekhez mérhető. Ezenkívül a VAR keretrendszer kielégítő pontosságot és visszahívási pontszámokat is fenntart, ami megerősíti szemantikai konzisztenciáját. Az igazi meglepetés azonban a VAR-keretrendszer figyelemreméltó teljesítménye a hagyományos AR-képességi feladatokban, így ez az első olyan autoregresszív modell, amely felülmúlta a Diffusion Transformer modellt, amint azt a következő táblázat is bemutatja. 

Zero-Shot feladat általánosítási eredménye

A be- és kifestési feladatokhoz a VAR-keretrendszer tanára a maszkon kívülre kényszeríti az alapigazság-tokeneket, és hagyja, hogy a modell csak a maszkon belüli tokeneket hozza létre, anélkül, hogy osztálycímke-információkat injektálna a modellbe. Az eredményeket a következő kép mutatja be, és amint látható, a VAR-modell a paraméterek hangolása vagy a hálózati architektúra módosítása nélkül is elfogadható eredményeket ér el a downstream feladatokon, bizonyítva a VAR keretrendszer általánosíthatóságát. 

Záró gondolatok

Ebben a cikkben a Visual AutoRegressive Modeling (VAR) nevű új vizuális generatív keretrendszerről beszéltünk, amely 1) elméletileg megold néhány, a szabványos képautoregresszív (AR) modellekben rejlő problémát, és 2) a nyelvi modelleken alapuló AR modelleket elsőként felülmúlja. erős diffúziós modellek a képminőség, a sokszínűség, az adathatékonyság és a következtetési sebesség tekintetében. Egyrészt a hagyományos autoregresszív modellekhez meghatározott adatsorrend szükséges, másrészt a Visual AutoRegressive vagy a VAR modell újragondolja a kép sorrendjét, és ez különbözteti meg a VAR-t a meglévő AR-módszerektől. A VAR-t 2 milliárd paraméterre skálázva a VAR-keretrendszer fejlesztői egyértelmű hatványtörvény-kapcsolatot figyeltek meg a tesztteljesítmény és a modellparaméterek vagy a képzési számítások között, a Pearson-együtthatókkal –0.998-hoz közelítve, ami a teljesítmény előrejelzésének robusztus keretrendszerét jelzi. Ezeket a skálázási törvényeket és a nullapontos feladatok általánosításának lehetőségét, mint az LLM-ek jellemzőit, most kezdetben igazoltuk a VAR transzformátor modelljeinkben. 

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.