ciot Modelare vizuală autoregresivă: generare de imagini scalabile prin predicția la scară următoare - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Modelare autoregresivă vizuală: generare de imagini scalabile prin predicția la scară următoare

mm

Publicat

 on

Modelare autoregresivă vizuală: generare de imagini scalabile prin predicția la scară următoare

Apariția modelelor GPT, împreună cu alte modele de limbaj autoregresive sau AR mari, au deschis o nouă epocă în domeniul învățării automate și al inteligenței artificiale. Modelele GPT și autoregresive prezintă adesea inteligență generală și versatilitate care sunt considerate a fi un pas semnificativ către inteligența artificială generală sau AGI, în ciuda unor probleme precum halucinațiile. Cu toate acestea, problema nedumerită a acestor modele mari este o strategie de învățare auto-supravegheată care permite modelului să prezică următorul simbol într-o secvență, o strategie simplă, dar eficientă. Lucrări recente au demonstrat succesul acestor mari modele autoregresive, evidențiind generalizarea și scalabilitatea acestora. Scalabilitatea este un exemplu tipic al legilor de scalare existente care le permite cercetătorilor să prezică performanța modelului mare din performanța modelelor mai mici, rezultând o mai bună alocare a resurselor. Pe de altă parte, generalizarea este adesea evidențiată de strategii de învățare, cum ar fi învățarea zero-shot, one-shot și câteva-shot, evidențiind capacitatea modelelor nesupravegheate, dar instruite de a se adapta la sarcini diverse și nevăzute. Împreună, generalizarea și scalabilitatea dezvăluie potențialul modelelor autoregresive de a învăța dintr-o cantitate mare de date neetichetate. 

Pornind de la aceeași, în acest articol, vom vorbi despre Visual AutoRegressive sau cadrul VAR, un model de nouă generație care redefinește învățarea autoregresivă pe imagini ca „predicție la următoarea rezoluție” sau „predicție la scară următoare” grosieră până la fin. . Deși simplă, abordarea este eficientă și permite transformatoarelor autoregresive să învețe mai bine distribuțiile vizuale și o generalizare îmbunătățită. În plus, modelele Visual AutoRegressive permit modelelor autoregresive în stil GPT să depășească pentru prima dată transferurile de difuzie în generarea de imagini. Experimentele indică, de asemenea, că cadrul VAR îmbunătățește semnificativ liniile de bază autoregresive și depășește cadrul Diffusion Transformer sau DiT în mai multe dimensiuni, inclusiv eficiența datelor, calitatea imaginii, scalabilitatea și viteza de inferență. În plus, extinderea modelelor Visual AutoRegressive demonstrează legile de scalare a legii puterii similare cu cele observate cu modelele de limbaj mari și, de asemenea, afișează capacitatea de generalizare zero-shot în sarcinile din aval, inclusiv editare, in-painting și out-painting. 

Acest articol își propune să acopere în profunzime cadrul Visual AutoRegresiv și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Vom vorbi, de asemenea, despre modul în care cadrul Visual AutoRegresiv demonstrează două proprietăți importante ale LLM-urilor: Legile de scalare și generalizarea zero-shot. Asadar, haideti sa începem.

Modelare vizuală autorregresivă: scalarea generării imaginilor

Un model comun printre modelele de limbaj mari recente este implementarea unei strategii de învățare auto-supravegheată, o abordare simplă, dar eficientă, care prezice următorul simbol din secvență. Datorită abordării, modelele de limbaj autoregresive și mari de astăzi au demonstrat o scalabilitate remarcabilă, precum și o generalizare, proprietăți care dezvăluie potențialul modelelor autoregresive de a învăța dintr-un număr mare de date neetichetate, rezumând astfel esența Inteligenței Artificiale Generale. În plus, cercetătorii din domeniul vederii computerizate au lucrat în paralel pentru a dezvolta modele mari autoregresive sau mondiale, cu scopul de a egala sau depăși scalabilitatea și generalizarea lor impresionantă, modele precum DALL-E și VQGAN demonstrând deja potențialul modelelor autoregresive în domeniu. de generare de imagini. Aceste modele implementează adesea un tokenizer vizual care reprezintă sau aproximează imagini continue într-o grilă de token-uri 2D, care sunt apoi aplatizate într-o secvență 1D pentru învățarea autoregresivă, oglindând astfel procesul de modelare a limbajului secvențial. 

Cu toate acestea, cercetătorii nu au explorat încă legile de scalare ale acestor modele și, ceea ce este mai frustrant este faptul că performanța acestor modele este adesea în urma modelelor de difuzie cu o marjă semnificativă, așa cum se demonstrează în imaginea următoare. Diferența de performanță indică faptul că, în comparație cu modelele de limbaj mari, capacitățile modelelor autoregresive în viziunea computerizată sunt subexplorate. 

Pe de o parte, modelele autoregresive tradiționale necesită o ordine definită a datelor, în timp ce, pe de altă parte, modelul Visual AutoRegresiv sau VAR reconsideră modul de a ordona o imagine și acesta este ceea ce distinge VAR de metodele AR existente. În mod obișnuit, oamenii creează sau percep o imagine într-o manieră ierarhică, captând structura globală urmată de detaliile locale, o abordare multi-scală, grosieră până la fină, care sugerează o ordine pentru imagine în mod natural. În plus, inspirându-se din proiectele multi-scale, cadrul VAR definește învățarea autoregresivă pentru imagini ca predicție la scară următoare, spre deosebire de abordările convenționale care definesc învățarea ca predicție cu simbolul următor. Abordarea implementată de cadrul VAR decolează prin codificarea unei imagini în hărți cu simboluri multi-scale. Cadrul începe apoi procesul autoregresiv de la harta token 1×1 și se extinde progresiv în rezoluție. La fiecare pas, transformatorul prezice următoarea hartă de token cu rezoluție mai mare condiționată de toate cele anterioare, o metodologie la care cadrul VAR se referă ca modelare VAR. 

Cadrul VAR încearcă să folosească arhitectura transformatoare a GPT-2 pentru învățarea autoregresivă vizuală, iar rezultatele sunt evidente pe benchmark-ul ImageNet, unde modelul VAR își îmbunătățește semnificativ linia de bază AR, atingând un FID de 1.80 și un scor inițial de 356 de-a lungul cu o îmbunătățire de 20 ori a vitezei de inferență. Ceea ce este mai interesant este că cadrul VAR reușește să depășească performanța cadrului DiT sau Diffusion Transformer în ceea ce privește scorurile FID și IS, scalabilitatea, viteza de inferență și eficiența datelor. În plus, modelul Visual AutoRegresiv prezintă legi puternice de scalare, similare cu cele observate în modelele mari de limbaj. 

Pentru a rezuma, cadrul VAR încearcă să aducă următoarele contribuții. 

  1. Acesta propune un nou cadru generativ vizual care folosește o abordare autoregresivă multi-scale cu predicție la scară următoare, spre deosebire de predicția tradițională de următor token, rezultând în proiectarea algoritmului autoregresiv pentru sarcinile de viziune computerizată. 
  2. Încearcă să valideze legile de scalare pentru modelele autoregresive împreună cu potențialul de generalizare zero-shot care emulează proprietățile atrăgătoare ale LLM-urilor. 
  3. Oferă o descoperire în performanța modelelor autoregresive vizuale, permițând cadrelor autoregresive în stil GPT să depășească cele existente modele de difuzie în sarcini de sinteză de imagini pentru prima dată. 

În plus, este, de asemenea, vital să discutăm despre legile existente de scalare a legii puterii care descriu matematic relația dintre dimensiunile setului de date, parametrii modelului, îmbunătățirile performanței și resursele de calcul ale modelelor de învățare automată. În primul rând, aceste legi de scalare a legii puterii facilitează aplicarea performanței unui model mai mare prin mărirea dimensiunii modelului, a costurilor de calcul și a dimensiunii datelor, economisind costuri inutile și alocand bugetul de instruire prin furnizarea de principii. În al doilea rând, legile de scalare au demonstrat o creștere consistentă și nesaturatoare a performanței. Mergând mai departe cu principiile de scalare a legilor în modelele de limbaj neuronal, mai multe LLM-uri întruchipează principiul că creșterea scării modelelor tinde să producă rezultate îmbunătățite de performanță. Pe de altă parte, generalizarea zero-shot se referă la capacitatea unui model, în special a unui LLM care îndeplinește sarcini pentru care nu a fost instruit în mod explicit. În domeniul viziunii computerizate, interesul pentru construirea în zero-shot și abilități de învățare în context ale modelelor de fundație. 

Modelele de limbaj se bazează pe algoritmi WordPiece sau pe abordarea de codificare perechi de octeți pentru tokenizarea textului. Modelele de generare vizuală bazate pe modele de limbaj se bazează, de asemenea, în mare măsură pe codificarea imaginilor 2D în secvențe de token 1D. Lucrări timpurii precum VQVAE au demonstrat capacitatea de a reprezenta imagini ca simboluri discrete cu o calitate moderată a reconstrucției. Succesorul VQVAE, cadrul VQGAN a încorporat pierderi perceptuale și adverse pentru a îmbunătăți fidelitatea imaginii și, de asemenea, a folosit un transformator numai pentru decodor pentru a genera simboluri de imagine în mod autoregresiv standard de scanare raster. Pe de altă parte, modelele de difuzie au fost considerate de multă vreme a fi pionieri pentru sarcinile de sinteză vizuală, cu condiția diversității lor și a calității superioare de generație. Avansarea modelelor de difuzie a fost centrată pe îmbunătățirea tehnicilor de eșantionare, îmbunătățiri arhitecturale și eșantionare mai rapidă. Modelele de difuzie latentă aplică difuzie în spațiul latent care îmbunătățește eficiența antrenamentului și inferența. Modelele Diffusion Transformer înlocuiesc arhitectura tradițională U-Net cu o arhitectură bazată pe transformator și a fost implementată în modele recente de sinteză de imagini sau video precum SORA și Difuzie stabilă

Visual AutoRegresiv: Metodologie și Arhitectură

În esență, cadrul VAR are două etape de antrenament distincte. În prima etapă, un autoencoder cuantizat multi-scală sau VQVAE codifică o imagine în hărți simbol, iar pierderea de reconstrucție compusă este implementată în scopuri de instruire. În figura de mai sus, încorporarea este un cuvânt folosit pentru a defini conversia jetoanelor discrete în vectori de încorporare continui. În a doua etapă, transformatorul din modelul VAR este antrenat fie prin minimizarea pierderii de entropie încrucișată, fie prin maximizarea probabilității utilizând abordarea de predicție la scara următoare. VQVAE antrenat produce apoi adevărul de teren al hărții de simbol pentru cadrul VAR. 

Modelare autoregresivă prin predicția Next-Token

Pentru o anumită secvență de jetoane discrete, în care fiecare jeton este un număr întreg dintr-un vocabular de dimensiunea V, modelul autoregresiv următor jeton propune că probabilitatea de a observa jetonul curent depinde doar de prefixul său. Asumarea dependenței unidirecționale de token permite cadrului VAR să descompună șansele de secvență în produsul probabilităților condiționate. Antrenarea unui model autoregresiv implică optimizarea modelului într-un set de date, iar acest proces de optimizare este cunoscut ca predicția următoarei simboluri, și permite modelului antrenat să genereze noi secvențe. Mai mult, imaginile sunt semnale 2D continue prin moștenire, iar aplicarea abordării modelării autoregresive la imagini prin procesul de optimizare a predicției următoarelor simboluri are câteva condiții prealabile. În primul rând, imaginea trebuie să fie tokenizată în mai multe simboluri discrete. De obicei, un autoencoder cuantificat este implementat pentru a converti harta caracteristicilor imaginii în jetoane discrete. În al doilea rând, o ordine 1D a jetoanelor trebuie definită pentru modelarea unidirecțională. 

Token-urile de imagine în jetoanele discrete sunt aranjate într-o grilă 2D și, spre deosebire de propozițiile în limbaj natural care au în mod inerent o ordonare de la stânga la dreapta, ordinea jetoanelor de imagine trebuie definită în mod explicit pentru învățarea autoregresivă unidirecțională. Abordările autoregresive anterioare au aplatizat grila 2D de jetoane discrete într-o secvență 1D folosind metode precum scanarea raster a rândurilor majore, curba z sau ordinea spirală. Odată ce jetoanele discrete au fost aplatizate, modelele AR au extras un set de secvențe din setul de date și apoi au antrenat un model autoregresiv pentru a maximiza probabilitatea în produsul probabilităților condiționate T folosind predicția următorului token. 

Modelare vizual-autoregresivă prin predicția la scara următoare

Cadrul VAR reconceptualizează modelarea autoregresivă asupra imaginilor prin trecerea de la predicția următorului token la abordarea de predicție la scară următoare, un proces prin care, în loc să fie un singur token, unitatea autoregresivă este o întreagă hartă de simboluri. Modelul cuantifică mai întâi harta caracteristicilor în hărți cu simboluri multi-scale, fiecare cu o rezoluție mai mare decât cea precedentă și culminează prin potrivirea rezoluției hărților caracteristice originale. În plus, cadrul VAR dezvoltă un nou codificator de cuantizare multi-scale pentru a codifica o imagine în hărți cu simboluri discrete multi-scale, necesare pentru învățarea VAR. Cadrul VAR folosește aceeași arhitectură ca VQGAN, dar cu un strat de cuantizare multi-scale modificat, cu algoritmii demonstrați în imaginea următoare. 

Autoregresiv vizual: rezultate și experimente

Cadrul VAR folosește arhitectura vanilie VQVAE cu o schemă de cuantizare multi-scală cu convoluție suplimentară K și folosește un cod partajat pentru toate scalele și un dim latent de 32. Accentul principal se află pe algoritmul VAR, datorită căruia proiectarea arhitecturii modelului. este menținut simplu, dar eficient. Cadrul adoptă arhitectura unui transformator standard de decodor, similar cu cele implementate pe modelele GPT-2, singura modificare fiind înlocuirea normalizării straturilor tradiționale cu normalizarea adaptivă sau AdaLN. Pentru sinteza condițională de clasă, cadrul VAR implementează încorporarea clasei ca simbol de pornire și, de asemenea, condiția stratului de normalizare adaptivă. 

Rezultate de generare a imaginii de ultimă generație

Când sunt asociate cu cadrele generative existente, inclusiv GAN-uri sau rețele generative adversare, modele de predicție mascate în stil BERT, modele de difuzie și modele autoregresive în stil GPT, cadrul Visual AutoRegressive arată rezultate promițătoare rezumate în tabelul următor. 

După cum se poate observa, cadrul Visual AutoRegresiv nu numai că este capabil să obțină cele mai bune scoruri FID și IS, dar demonstrează și o viteză remarcabilă de generare a imaginii, comparabilă cu modelele de ultimă generație. În plus, cadrul VAR menține, de asemenea, o precizie satisfăcătoare și scoruri de reamintire, ceea ce confirmă consistența sa semantică. Dar adevărata surpriză este performanța remarcabilă oferită de cadrul VAR în sarcinile tradiționale de capabilități AR, făcându-l primul model autoregresiv care a depășit un model de transformator de difuzie, așa cum este demonstrat în tabelul următor. 

Rezultatul generalizării sarcinii zero-shot

Pentru sarcinile de interior și de exterior, profesorul cadru VAR forțează jetoanele de adevăr de la sol în afara măștii și permite modelului să genereze doar jetoanele din mască, fără a fi injectată nicio informație de etichetă de clasă în model. Rezultatele sunt demonstrate în imaginea următoare și, după cum se poate observa, modelul VAR obține rezultate acceptabile pe sarcinile din aval fără ajustarea parametrilor sau modificarea arhitecturii rețelei, demonstrând generalizarea cadrului VAR. 

Gânduri finale

În acest articol, am vorbit despre un nou cadru generativ vizual numit Visual AutoRegressive Modeling (VAR) care 1) abordează teoretic unele probleme inerente modelelor standard de imagine autoregressive (AR) și 2) face ca modelele AR bazate pe modele de limbaj să depășească mai întâi. modele puternice de difuzie în ceea ce privește calitatea imaginii, diversitatea, eficiența datelor și viteza de inferență. Pe de o parte, modelele autoregresive tradiționale necesită o ordine definită a datelor, în timp ce, pe de altă parte, modelul Visual AutoRegresiv sau VAR reconsideră modul de a ordona o imagine și acesta este ceea ce distinge VAR de metodele AR existente. La scalarea VAR la 2 miliarde de parametri, dezvoltatorii cadrului VAR au observat o relație clară putere-lege între performanța testului și parametrii modelului sau calculul de antrenament, cu coeficienții Pearson apropiindu-se de -0.998, indicând un cadru robust pentru predicția performanței. Aceste legi de scalare și posibilitatea generalizării sarcinilor zero-shot, ca semne distinctive ale LLM-urilor, au fost acum verificate inițial în modelele noastre de transformatoare VAR. 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.