Inteligență artificială

Modelarea AutoRegresivă Vizuală: Generarea de Imagini la Scară prin Prezentarea Următoarei Scări

Publicat 10 aprilie 2024

Actualizat 22 mai 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Apariția modelelor GPT, împreună cu alte modele autoregresive sau AR de limbaj mare, a deschis o nouă epocă în domeniul învățării mașinilor și al inteligenței artificiale. Modelele GPT și autoregresive prezintă adesea o inteligență generală și o versatilitate care sunt considerate a fi un pas semnificativ către inteligența artificială generală sau AGI, în ciuda unor probleme precum halucinațiile. Cu toate acestea, problema care intrigă în legătură cu aceste modele mari este o strategie de învățare auto-supervizată care permite modelului să prezică următorul token într-o secvență, o strategie simplă, dar eficientă. Lucrările recente au demonstrat succesul acestor modele autoregresive mari, subliniind generalizabilitatea și scalabilitatea lor. Scalabilitatea este un exemplu tipic al legilor de scalare existente care permit cercetătorilor să prezică performanța modelului mare din performanța modelelor mai mici, rezultând o alocare mai bună a resurselor. Pe de altă parte, generalizabilitatea este adesea demonstrată prin strategii de învățare precum învățarea zero-shot, one-shot și few-shot, subliniind capacitatea modelelor nesupervizate, dar antrenate, de a se adapta la sarcini diverse și neîntâlnite. Împreună, generalizabilitatea și scalabilitatea relevă potențialul modelelor autoregresive de a învăța dintr-o cantitate vastă de date neetichetate.

Pe baza acestor informații, în acest articol, vom discuta despre cadru Visual AutoRegresiv sau VAR, un nou model de generare care redefinește învățarea autoregresivă pe imagini ca o prezicere “următoare a scării” sau “următoare a rezoluției”. Deși simplă, abordarea este eficientă și permite transformatorilor autoregresivi să învețe distribuții vizuale mai bine, îmbunătățind generalizabilitatea. Mai mult, modelele Visual AutoRegresive permit modelelor autoregresive de tip GPT să depășească transferurile de difuziune în generarea de imagini pentru prima dată. Experimentele indică, de asemenea, că cadru VAR îmbunătățește semnificativ liniile de bază autoregresive și depășește cadru Transformator de Difuziune sau DiT în multiple dimensiuni, incluzând eficiența datelor, calitatea imaginilor, scalabilitatea și viteza de inferență. Mai departe, scalarea modelelor Visual AutoRegresive demonstrează legi de scalare puternice similare cu cele observate la modelele de limbaj mare și, de asemenea, afișează o capacitate de generalizare zero-shot în sarcini downstream, incluzând editarea, pictura și pictura externă.

Acest articol își propune să acopere în profunzime cadru Visual AutoRegresiv și vom explora mecanismul, metodologia, arhitectura cadru, împreună cu comparația cu cadrele de ultimă generație. Vom discuta, de asemenea, despre modul în care cadru Visual AutoRegresiv demonstrează două proprietăți importante ale LLM-urilor: Legi de Scalare și generalizare zero-shot. Deci, să începem.

Modelarea AutoRegresivă Vizuală: Generarea de Imagini la Scară

Un model comun printre modelele de limbaj mare recente este implementarea unei strategii de învățare auto-supervizate, o abordare simplă, dar eficientă care prezice următorul token într-o secvență. Mulțumită acestei abordări, modelele autoregresive și de limbaj mare de astăzi au demonstrat o scalabilitate și o generalizabilitate remarcabile, proprietăți care relevă potențialul modelelor autoregresive de a învăța dintr-o cantitate vastă de date neetichetate, rezumând astfel esența Inteligenței Artificiale Generale. Mai mult, cercetătorii din domeniul viziunii computaționale au lucrat paralel pentru a dezvolta modele autoregresive mari sau modele de lume cu scopul de a egala sau depăși scalabilitatea și generalizabilitatea lor impresionantă, cu modele precum DALL-E și VQGAN demonstrând deja potențialul modelelor autoregresive în domeniul generării de imagini. Aceste modele implementează adesea un tokenizator vizual care reprezintă sau aproximează imagini continue într-o grilă de tokeni 2D, care sunt apoi aplatizați într-o secvență 1D pentru învățarea autoregresivă, oglinzind astfel procesul de modelare secvențială a limbajului.

Cu toate acestea, cercetătorii nu au explorat încă legile de scalare ale acestor modele, iar ceea ce este și mai frustrant este faptul că performanța acestor modele adesea rămâne în urma modelelor de difuziune cu o marjă semnificativă, așa cum se demonstrează în imaginea de mai jos. Decalajul de performanță indică faptul că, în comparație cu modelele de limbaj mare, capacitățile modelelor autoregresive în viziunea computațională sunt subexplorate.

Pe de o parte, modelele autoregresive tradiționale necesită o ordine definită a datelor, în timp ce, pe de altă parte, modelul Visual AutoRegresiv sau VAR reevaluează modul în care se ordonează o imagine, și acesta este ceea ce distinge VAR de metodele AR existente. În general, oamenii creează sau percep o imagine într-un mod ierarhic, capturând structura globală urmată de detalii locale, o abordare multi-scală, de la gros la fin, care sugerează o ordine naturală pentru imagine. Mai mult, inspirați de proiectele multi-scală, cadru VAR definește învățarea autoregresivă pentru imagini ca o prezicere a următoarei scări, în contrast cu abordările convenționale care definesc învățarea ca o prezicere a următorului token. Abordarea implementată de cadru VAR pornește de la codificarea unei imagini în hărți de tokeni multi-scală. Apoi, cadru începe procesul autoregresiv de la harta de tokeni 1×1 și se extinde progresiv în rezoluție. La fiecare pas, transformatorul prezice harta de tokeni de rezoluție superioară condiționată de toate cele precedente, o metodologie pe care cadru VAR o numește modelare VAR.

Cadru VAR încearcă să valorifice arhitectura transformatorului GPT-2 pentru învățarea autoregresivă vizuală, iar rezultatele sunt evidente pe benchmark-ul ImageNet, unde modelul VAR își îmbunătățește semnificativ liniile de bază AR, atingând un FID de 1,80 și un scor de început de 356, împreună cu o îmbunătățire de 20 de ori a vitezei de inferență. Ce este și mai interesant este faptul că cadru VAR reușește să depășească performanța cadru DiT sau Transformator de Difuziune în ceea ce privește scorurile FID și IS, scalabilitatea, viteza de inferență și eficiența datelor. Mai mult, modelul Visual AutoRegresiv prezintă legi de scalare puternice similare cu cele observate la modelele de limbaj mare.

În rezumat, cadru VAR încearcă să facă următoarele contribuții.

El propune un nou cadru generativ vizual care utilizează o abordare autoregresivă multi-scală cu prezicerea următoarei scări, în contrast cu prezicerea tradițională a următorului token, rezultând în proiectarea algoritmului autoregresiv pentru sarcini de viziune computațională.
El încearcă să valideze legile de scalare pentru modelele autoregresive, împreună cu potențialul de generalizare zero-shot care emulează proprietățile atractive ale LLM-urilor.
El oferă o avanpremieră în ceea ce privește performanța modelelor autoregresive vizuale, permițând cadrului GPT-style autoregresiv să depășească modelele de difuziune existente în sarcinile de sinteză a imaginilor pentru prima dată.

Mai mult, este vital să discutăm despre legile de scalare puternice existente care descriu matematic relația dintre dimensiunile setului de date, parametrii modelului, îmbunătățirile performanței și resursele computaționale ale modelelor de învățare mașinilor. În primul rând, aceste legi de scalare puternice facilitează aplicarea performanței unui model mai mare prin scalarea dimensiunii modelului, a costului computațional și a dimensiunii datelor, economisind astfel costuri inutile și alocând bugetul de antrenare prin furnizarea de principii. În al doilea rând, legile de scalare au demonstrat o creștere consistentă și nesaturată a performanței. Înaintând cu principiile legilor de scalare în modelele de limbaj neural, mai multe LLM-uri încorporează principiul că creșterea dimensiunii modelului are ca rezultat îmbunătățiri ale performanței. Generalizarea zero-shot, pe de altă parte, se referă la capacitatea unui model, în special a unui LLM, de a efectua sarcini pe care nu a fost antrenat explicit. În domeniul viziunii computaționale, interesul pentru construirea capacităților de învățare zero-shot și în contextul modelelor de fundal.

Modelele de limbaj se bazează pe algoritmi WordPiece sau pe abordarea de codificare a perechilor de bytes pentru tokenizarea textului. Modelele de generare vizuală bazate pe modele de limbaj se bazează, de asemenea, puternic pe codificarea imaginilor 2D în secvențe de tokeni 1D. Lucrările timpurii, precum VQVAE, au demonstrat capacitatea de a reprezenta imagini ca tokeni discreți cu o calitate moderată de reconstrucție. Succesorul VQVAE, cadru VQGAN, a incorporat pierderi perceptive și adversative pentru a îmbunătăți fidelitatea imaginii și a angajat, de asemenea, un transformator doar-decoder pentru a genera tokeni de imagine într-un mod autoregresiv standard de scanare raster. Modelele de difuziune, pe de altă parte, au fost considerate mult timp a fi liderii în sarcinile de sinteză vizuală, oferind diversitate și o calitate superioară de generare. Îmbunătățirea modelelor de difuziune s-a concentrat pe îmbunătățirea tehnicilor de eșantionare, pe îmbunătățirile arhitecturale și pe eșantionarea mai rapidă. Modelele de difuziune latente aplică difuziunea în spațiul latent, ceea ce îmbunătățește eficiența antrenamentului și a inferenței. Modelele Transformator de Difuziune înlocuiesc arhitectura tradițională U-Net cu o arhitectură bazată pe transformator și au fost implementate în modele recente de sinteză de imagini sau videoclipuri, precum SORA și Stable Diffusion.

Visual AutoRegresiv: Metodologie și Arhitectură

La nivelul său fundamental, cadru VAR are două etape de antrenament discrete. În prima etapă, un autoencoder multi-scală cuantificat sau VQVAE codifică o imagine în hărți de tokeni, iar o pierdere de reconstrucție compusă este implementată pentru scopuri de antrenament. În figura de mai sus, încorporarea este un termen utilizat pentru a defini conversia tokenilor discreți în vectori de încorporare continui. În a doua etapă, transformatorul din modelul VAR este antrenat prin minimizarea pierderii de entropie cruză sau prin maximizarea probabilității utilizând abordarea de prezicere a următoarei scări. VQVAE antrenat produce apoi harta de tokeni de bază pentru cadru VAR.

Modelarea Autoregresivă prin Prezicerea Următorului Token

Pentru o secvență dată de tokeni discreți, unde fiecare token este un număr întreg dintr-un vocabular de dimensiune V, modelul autoregresiv de prezicere a următorului token presupune că probabilitatea de a observa tokenul curent depinde doar de prefixul său. Presupunând o dependență unidirecțională a tokenilor permite cadru VAR să descompună șansele secvenței în produsul probabilităților condiționale. Antrenarea unui model autoregresiv implică optimizarea modelului pe un set de date, iar acest proces de optimizare este cunoscut sub numele de prezicere a următorului token, și permite modelului antrenat să genereze noi secvențe. Mai mult, imaginile sunt semnale continue 2D prin moștenire, iar pentru a aplica abordarea de modelare autoregresivă la imagini prin procesul de optimizare a prezicerii următorului token, există câteva premise. În primul rând, imaginea trebuie să fie tokenizată în mai mulți tokeni discreți. De obicei, se implementează un autoencoder cuantificat pentru a converti harta de caracteristici a imaginii în tokeni discreți. În al doilea rând, o ordine 1D a tokenilor trebuie să fie definită pentru modelarea unidirecțională autoregresivă.

Tokenii de imagine în tokeni discreți sunt aranjați într-o grilă 2D, iar, spre deosebire de propozițiile de limbaj natural care au în mod natural o ordine de la stânga la dreapta, ordinea tokenilor de imagine trebuie să fie definită explicit pentru învățarea autoregresivă unidirecțională. Abordările autoregresive anterioare au aplatizat grila 2D de tokeni discreți într-o secvență 1D utilizând metode precum scanarea raster în ordine de linie, curbă z sau ordine spirală. Odată ce tokenii discreți au fost aplatizați, modelele AR au extras o serie de secvențe din setul de date și apoi au antrenat un model autoregresiv pentru a maximiza probabilitatea în produsul probabilităților condiționale utilizând prezicerea următorului token.

Modelarea AutoRegresivă Vizuală prin Prezicerea Următoarei Scări

Cadru VAR redefinesc modelarea autoregresivă pe imagini prin schimbarea de la prezicerea următorului token la abordarea de prezicere a următoarei scări, un proces în care, în loc de a fi un singur token, unitatea autoregresivă este o hartă de tokeni întreagă. Modelul mai întâi cuantifică harta de caracteristici în hărți de tokeni multi-scală, fiecare cu o rezoluție mai mare decât cea anterioară, și se încheie prin a se potrivi cu rezoluția hărților de caracteristici originale. Mai mult, cadru VAR dezvoltă un nou codificator de cuantificare multi-scală pentru a codifica o imagine în hărți de tokeni discrete multi-scală, necesare pentru învățarea VAR. Cadru VAR utilizează aceeași arhitectură ca și VQGAN, dar cu un strat de cuantificare multi-scală modificat, cu algoritmii demonstrați în imaginea de mai jos.

Visual AutoRegresiv: Rezultate și Experimente

Cadru VAR utilizează arhitectura VQVAE vanilla cu un sistem de cuantificare multi-scală cu K extra convoluție și utilizează un codbook comun pentru toate scări și o dimensiune latentă de 32. Accentul principal se pune pe algoritmul VAR, motiv pentru care proiectarea arhitecturii modelului este menținută simplă, dar eficientă. Cadru adoptă arhitectura unui transformator standard doar-decoder, similar cu cele implementate pe modelele GPT-2, cu singura modificare fiind înlocuirea normalizării tradiționale a stratului cu normalizarea adaptivă sau AdaLN. Pentru sinteza condiționată de clasă, cadru VAR implementează încorporările de clasă ca tokenul de start și, de asemenea, condiția stratului de normalizare adaptivă.

Rezultate de Generare de Imagini de Ultimă Oră

Când este comparat cu cadrele generative existente, incluzând GAN-uri sau Rețele Adversative Generative, modelele de prezicere mascate de tip BERT, modelele de difuziune și modelele autoregresive de tip GPT, cadru Visual AutoRegresiv prezintă rezultate promițătoare, rezumate în tabelul de mai jos.

Așa cum se poate observa, cadru Visual AutoRegresiv nu numai că reușește să obțină scoruri FID și IS mai bune, dar demonstrează, de asemenea, o viteză remarcabilă de generare a imaginilor, comparabilă cu modelele de ultimă oră. Mai mult, cadru VAR menține, de asemenea, scoruri satisfăcătoare de precizie și de rechemare, ceea ce confirmă coerența sa semantică. Dar surpriza reală este performanța remarcabilă oferită de cadru VAR în ceea ce privește capacitățile tradiționale AR, făcându-l primul model autoregresiv care a depășit un model Transformator de Difuziune, așa cum se demonstrează în tabelul de mai jos.

Rezultatul Generalizării Sarcinii Zero-Shot

Pentru sarcinile de pictură internă și externă, cadru VAR forțează tokenii de bază ai adevărului în afara masca și lasă modelul să genereze doar tokenii din interiorul masca, fără a injecta informații despre eticheta de clasă în model. Rezultatele sunt demonstrate în imaginea de mai jos, iar, așa cum se poate vedea, modelul VAR obține rezultate acceptabile în sarcinile downstream fără a regla parametrii sau a modifica arhitectura rețelei, demonstrând astfel generalizabilitatea cadru VAR.

Gânduri Finale

În acest articol, am discutat despre un nou cadru generativ vizual numit modelare autoregresivă vizuală (VAR) care 1) abordează teoretic unele probleme inerente în modelele autoregresive standard de imagine și 2) face ca modelele autoregresive de tip GPT să depășească modelele de difuziune existente în ceea ce privește calitatea imaginilor, diversitatea, eficiența datelor și viteza de inferență. Pe de o parte, modelele autoregresive tradiționale necesită o ordine definită a datelor, în timp ce, pe de altă parte, modelul Visual AutoRegresiv sau VAR reevaluează modul în care se ordonează o imagine, și acesta este ceea ce distinge VAR de metodele AR existente. La scalarea VAR la 2 miliarde de parametri, dezvoltatorii cadru VAR au observat o relație clară de putere între performanța de test și parametrii modelului sau computația de antrenament, cu coeficienți Pearson care se apropie de −0,998, indicând un cadru robust pentru prezicerea performanței. Aceste legi de scalare și posibilitatea de generalizare zero-shot, ca semne distinctive ale LLM-urilor, au fost acum inițial verificate în modelele noastre de transformator VAR.