taló Modelatge visual autorregressiu: generació d'imatges escalables mitjançant predicció a escala següent - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Modelatge autorregressiu visual: generació d'imatges escalables mitjançant predicció a escala següent

mm

publicat

 on

Modelatge autorregressiu visual: generació d'imatges escalables mitjançant predicció a escala següent

L'arribada dels models GPT, juntament amb altres models de llenguatge autoregressius o AR grans, va obrir una nova època en el camp de l'aprenentatge automàtic i la intel·ligència artificial. Els models GPT i autoregressius sovint presenten una intel·ligència i versatilitat generals que es consideren un pas important cap a la intel·ligència artificial general o AGI malgrat tenir alguns problemes com les al·lucinacions. Tanmateix, el problema desconcertant d'aquests grans models és una estratègia d'aprenentatge autosupervisada que permet al model predir el següent testimoni en una seqüència, una estratègia senzilla però eficaç. Treballs recents han demostrat l'èxit d'aquests grans models autoregressius, destacant la seva generalització i escalabilitat. L'escalabilitat és un exemple típic de les lleis d'escala existents que permeten als investigadors predir el rendiment del model gran a partir del rendiment dels models més petits, donant lloc a una millor assignació de recursos. D'altra banda, la generalització s'evidencia sovint amb estratègies d'aprenentatge com l'aprenentatge zero, one-shot i pocs cops, posant de manifest la capacitat dels models no supervisats però entrenats per adaptar-se a tasques diverses i invisibles. En conjunt, la generalització i l'escalabilitat revelen el potencial dels models autoregressius per aprendre d'una gran quantitat de dades sense etiquetar. 

A partir del mateix, en aquest article, parlarem de Visual AutoRegressive o el framework VAR, un patró de nova generació que redefineix l'aprenentatge autoregressiu en imatges com a "predicció de propera resolució" o "predicció de propera escala" de gruix a fi. . Tot i que senzill, l'enfocament és eficaç i permet als transformadors autoregressius aprendre millor les distribucions visuals i millorar la generalització. A més, els models Visual AutoRegressive permeten que els models autoregressius d'estil GPT superin les transferències de difusió en la generació d'imatges per primera vegada. Els experiments també indiquen que el marc VAR millora significativament les línies de base autoregressives i supera el Diffusion Transformer o el marc DiT en múltiples dimensions, com ara l'eficiència de les dades, la qualitat de la imatge, l'escalabilitat i la velocitat d'inferència. A més, l'ampliació dels models visuals autorregressius demostra lleis d'escala de la llei de potència similars a les observades amb grans models de llenguatge, i també mostra la capacitat de generalització zero-shot en tasques posteriors, com ara l'edició, la pintura interna i la pintura exterior. 

Aquest article pretén cobrir el marc visual autorregressiu en profunditat, i explorem el mecanisme, la metodologia, l'arquitectura del marc juntament amb la seva comparació amb els marcs d'última generació. També parlarem de com el marc visual autorregressiu demostra dues propietats importants dels LLM: les lleis d'escala i la generalització zero-shot. Així que comencem.

Modelatge visual autorregressiu: generació d'imatges a escala

Un patró comú entre els grans models lingüístics recents és la implementació d'una estratègia d'aprenentatge autosupervisada, un enfocament senzill però eficaç que prediu el següent testimoni de la seqüència. Gràcies a l'enfocament, els models autoregressius i grans de llenguatge actuals han demostrat una escalabilitat i una generalització notables, propietats que revelen el potencial dels models autoregressius per aprendre d'un gran conjunt de dades sense etiquetar, resumint per tant l'essència de la Intel·ligència Artificial General. A més, investigadors del camp de la visió per computador han estat treballant paral·lelament per desenvolupar grans models autoregressius o mundials amb l'objectiu d'igualar o superar la seva impressionant escalabilitat i generalització, amb models com DALL-E i VQGAN que ja demostren el potencial dels models autoregressius en el camp. de generació d'imatges. Aquests models sovint implementen un tokenitzador visual que representen o aproximen imatges contínues en una quadrícula de fitxes 2D, que després s'aplanen en una seqüència 1D per a l'aprenentatge autoregressiu, reflectint així el procés de modelització del llenguatge seqüencial. 

Tanmateix, els investigadors encara no han explorat les lleis d'escala d'aquests models, i el que és més frustrant és el fet que el rendiment d'aquests models sovint queda per darrere dels models de difusió per un marge significatiu, com es demostra a la imatge següent. La bretxa de rendiment indica que, en comparació amb els grans models de llenguatge, les capacitats dels models autoregressius en visió per computador estan poc explorades. 

D'una banda, els models autoregressius tradicionals requereixen un ordre definit de dades, mentre que, d'altra banda, el model Visual AutoRegressive o VAR reconsidera com ordenar una imatge, i això és el que distingeix el VAR dels mètodes AR existents. Normalment, els humans creen o perceben una imatge de manera jeràrquica, capturant l'estructura global seguida dels detalls locals, un enfocament multiescala, de gruixut a fi que suggereix un ordre per a la imatge de manera natural. A més, inspirant-se en dissenys multiescala, el marc VAR defineix l'aprenentatge autoregressiu per a imatges com a predicció d'escala següent a diferència dels enfocaments convencionals que defineixen l'aprenentatge com a predicció de la següent escala. L'enfocament implementat pel marc VAR s'enlaira codificant una imatge en mapes de testimonis multiescala. Aleshores, el marc inicia el procés autoregressiu des del mapa de fitxes 1×1 i s'expandeix en resolució progressivament. A cada pas, el transformador prediu el següent mapa de fitxes de resolució més alta condicionat a tots els anteriors, una metodologia a la qual el marc VAR denomina modelatge VAR. 

El marc VAR intenta aprofitar l'arquitectura del transformador de GPT-2 per a l'aprenentatge visual autorregressiu, i els resultats són evidents a la referència d'ImageNet on el model VAR millora significativament la seva línia de base AR, aconseguint un FID d'1.80 i una puntuació inicial de 356 al llarg amb una millora de 20 vegades en la velocitat d'inferència. El que és més interessant és que el marc VAR aconsegueix superar el rendiment del marc DiT o Diffusion Transformer en termes de puntuacions FID & IS, escalabilitat, velocitat d'inferència i eficiència de dades. A més, el model visual autorregressiu presenta lleis d'escala fortes similars a les que s'observen en els grans models de llenguatge. 

En resum, el marc del VAR intenta fer les següents aportacions. 

  1. Proposa un nou marc generatiu visual que utilitza un enfocament autoregressiu multiescala amb predicció a l'escala següent, al contrari de la predicció tradicional del següent token, donant com a resultat el disseny de l'algorisme autoregressiu per a tasques de visió per ordinador. 
  2. Intenta validar les lleis d'escala per als models autoregressius juntament amb un potencial de generalització zero-shot que emula les propietats atractives dels LLM. 
  3. Ofereix un avenç en el rendiment dels models autoregressius visuals, permetent que els marcs autoregressius d'estil GPT superin els existents. models de difusió en tasques de síntesi d'imatges per primera vegada. 

A més, també és vital discutir les lleis d'escala de la llei de potència existents que descriuen matemàticament la relació entre les mides del conjunt de dades, els paràmetres del model, les millores de rendiment i els recursos computacionals dels models d'aprenentatge automàtic. En primer lloc, aquestes lleis d'escala de la llei de potència faciliten l'aplicació del rendiment d'un model més gran augmentant la mida del model, el cost computacional i la mida de les dades, estalviant costos innecessaris i assignant el pressupost de formació proporcionant principis. En segon lloc, les lleis d'escala han demostrat un augment consistent i no saturant del rendiment. Avançant amb els principis de les lleis d'escala en models de llenguatge neuronal, diversos LLM encarnen el principi que augmentar l'escala dels models tendeix a produir resultats de rendiment millorats. D'altra banda, la generalització zero es refereix a la capacitat d'un model, particularment d'un LLM que realitza tasques en què no s'ha entrenat explícitament. Dins del domini de la visió per computador, l'interès per construir habilitats d'aprenentatge zero-shot i en context dels models fundacionals. 

Els models de llenguatge es basen en algorismes de WordPiece o en l'enfocament de codificació de parells de bytes per a la tokenització de text. Els models de generació visual basats en models de llenguatge també depenen molt de la codificació d'imatges 2D en seqüències de testimonis 1D. Els primers treballs com VQVAE van demostrar la capacitat de representar imatges com a fitxes discretes amb una qualitat de reconstrucció moderada. El successor de VQVAE, el marc VQGAN va incorporar pèrdues perceptives i adversàries per millorar la fidelitat de la imatge i també va emprar un transformador només de descodificador per generar fitxes d'imatge de manera autorregressiva estàndard d'escaneig ràster. D'altra banda, els models de difusió s'han considerat durant molt de temps com els líders per a les tasques de síntesi visual sempre que la seva diversitat i una qualitat de generació superior. L'avenç dels models de difusió s'ha centrat en la millora de les tècniques de mostreig, millores arquitectòniques i un mostreig més ràpid. Els models de difusió latent apliquen difusió a l'espai latent que millora l'eficiència i la inferència de l'entrenament. Els models de transformador de difusió substitueixen l'arquitectura tradicional U-Net per una arquitectura basada en transformadors, i s'ha implementat en models recents de síntesi d'imatges o vídeo com SORA i Difusió estable

Visual Autoregressiu: Metodologia i Arquitectura

En el seu nucli, el marc VAR té dues etapes d'entrenament discretes. En la primera etapa, un codificador automàtic quantificat multiescala o VQVAE codifica una imatge en mapes de testimonis i s'implementa la pèrdua de reconstrucció composta amb finalitats d'entrenament. A la figura anterior, incrustació és una paraula utilitzada per definir la conversió de fitxes discretes en vectors d'incrustació contínua. En la segona etapa, el transformador del model VAR s'entrena minimitzant la pèrdua d'entropia creuada o maximitzant la probabilitat mitjançant l'enfocament de predicció a escala següent. A continuació, el VQVAE entrenat produeix la veritat terrestre del mapa de testimonis per al marc VAR. 

Modelatge autoregressiu mitjançant predicció del següent token

Per a una seqüència donada de fitxes discretes, on cada testimoni és un nombre enter d'un vocabulari de mida V, el model autoregressiu del següent token proposa que la probabilitat d'observar el testimoni actual depèn només del seu prefix. Assumir la dependència unidireccional del testimoni permet que el marc VAR descompondi les possibilitats de seqüència en el producte de probabilitats condicionals. Entrenar un model autoregressiu implica optimitzar el model a través d'un conjunt de dades, i aquest procés d'optimització es coneix com predicció del següent token, i permet que el model entrenat generi noves seqüències. A més, les imatges són senyals continus en 2D per herència, i per aplicar l'enfocament de modelatge autoregressiu a les imatges mitjançant el procés d'optimització de predicció del següent testimoni té uns quants requisits previs. En primer lloc, la imatge ha de ser tokenitzada en diverses fitxes discretes. Normalment, s'implementa un codificador automàtic quantificat per convertir el mapa de característiques de la imatge en fitxes discretes. En segon lloc, s'ha de definir un ordre 1D de fitxes per al modelatge unidireccional. 

Les fitxes d'imatge en fitxes discretes estan disposades en una graella 2D i, a diferència de les frases de llenguatge natural que tenen inherentment un ordre d'esquerra a dreta, l'ordre dels fitxes d'imatge s'ha de definir explícitament per a l'aprenentatge autoregressiu unidireccional. Els enfocaments autoregressius anteriors van aplanar la quadrícula 2D de fitxes discretes en una seqüència 1D mitjançant mètodes com ara l'exploració ràster de la fila principal, la corba z o l'ordre en espiral. Un cop es van aplanar les fitxes discretes, els models AR van extreure un conjunt de seqüències del conjunt de dades i després van entrenar un model autoregressiu per maximitzar la probabilitat en el producte de probabilitats condicionals T utilitzant la predicció del token següent. 

Modelatge visual-autoregressiu mitjançant predicció a escala següent

El marc VAR reconceptualitza el modelatge autoregressiu de les imatges passant de la predicció del token següent a l'enfocament de predicció de la següent escala, un procés sota el qual, en lloc de ser un sol testimoni, la unitat autoregressiva és un mapa sencer de testimonis. El model quantifica primer el mapa de característiques en mapes de fitxes multiescala, cadascun amb una resolució més alta que l'anterior, i culmina fent coincidir la resolució dels mapes de característiques originals. A més, el marc VAR desenvolupa un nou codificador de quantificació multiescala per codificar una imatge en mapes de testimonis discrets multiescala, necessaris per a l'aprenentatge del VAR. El marc VAR utilitza la mateixa arquitectura que VQGAN, però amb una capa de quantificació multiescala modificada, amb els algorismes demostrats a la imatge següent. 

Visual Autoregressiu: resultats i experiments

El marc VAR utilitza l'arquitectura VQVAE de vainilla amb un esquema de quantificació multiescala amb convolució addicional K, i utilitza un llibre de codis compartit per a totes les escales i una intensitat latent de 32. L'enfocament principal es troba en l'algoritme VAR, pel qual el disseny de l'arquitectura del model. es manté senzill però eficaç. El marc adopta l'arquitectura d'un transformador estàndard només de descodificador similar als implementats als models GPT-2, amb l'única modificació que és la substitució de la normalització de capa tradicional per la normalització adaptativa o AdaLN. Per a la síntesi condicional de classe, el marc VAR implementa les incrustacions de classe com a testimoni d'inici, i també la condició de la capa de normalització adaptativa. 

Resultats de generació d'imatges d'última generació

Quan es combina amb marcs generatius existents, inclosos GAN o xarxes generatives adversàries, models de predicció emmascarats a l'estil BERT, models de difusió i models autoregressius d'estil GPT, el marc Visual AutoRegressive mostra resultats prometedors resumits a la taula següent. 

Com es pot observar, el marc Visual AutoRegressive no només és capaç d'aconseguir millors puntuacions FID i IS, sinó que també demostra una velocitat de generació d'imatges notable, comparable als models d'última generació. A més, el marc VAR també manté una precisió satisfactòria i puntuacions de record, la qual cosa confirma la seva consistència semàntica. Però la veritable sorpresa és el rendiment notable que ofereix el marc VAR en tasques de capacitats AR tradicionals, convertint-lo en el primer model autoregressiu que va superar un model de transformador de difusió, tal com es demostra a la taula següent. 

Resultat de la generalització de la tasca zero-shot

Per a les tasques d'entrada i sortida, el professor del marc VAR força les fitxes de veritat del terreny fora de la màscara i permet que el model generi només les fitxes dins de la màscara, sense que s'injecti cap informació de l'etiqueta de classe al model. Els resultats es mostren a la imatge següent i, com es pot veure, el model VAR aconsegueix resultats acceptables en tasques posteriors sense ajustar paràmetres ni modificar l'arquitectura de la xarxa, demostrant la generalització del marc VAR. 

Consideracions finals

En aquest article, hem parlat d'un nou marc visual generatiu anomenat Modelatge visual autorregressiu (VAR) que 1) aborda teòricament alguns problemes inherents als models autoregressius d'imatge (AR) estàndard i 2) fa que els models AR basats en models de llenguatge superin primer. models de difusió sòlids en termes de qualitat d'imatge, diversitat, eficiència de dades i velocitat d'inferència. D'una banda, els models autoregressius tradicionals requereixen un ordre definit de dades, mentre que, d'altra banda, el model Visual AutoRegressive o VAR reconsidera com ordenar una imatge, i això és el que distingeix el VAR dels mètodes AR existents. En escalar el VAR a 2 milions de paràmetres, els desenvolupadors del marc VAR van observar una relació clara de potència entre el rendiment de la prova i els paràmetres del model o el càlcul d'entrenament, amb els coeficients de Pearson a prop de -0.998, cosa que indica un marc robust per a la predicció del rendiment. Aquestes lleis d'escala i la possibilitat de generalització de tasques zero-shot, com a distintius dels LLM, ara s'han verificat inicialment als nostres models de transformadors VAR. 

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.