Intelligenza artificiale

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Published April 10, 2024

Updated April 4, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

L’avvento dei modelli GPT, insieme ad altri grandi modelli di linguaggio autoregressivi o AR, ha aperto una nuova epoca nel campo dell’apprendimento automatico e dell’intelligenza artificiale. I modelli GPT e autoregressivi spesso esibiscono intelligenza generale e versatilità che sono considerate un passo significativo verso l’intelligenza artificiale generale o AGI, nonostante abbiano alcuni problemi come le allucinazioni. Tuttavia, il problema più intrigante con questi grandi modelli è una strategia di apprendimento auto-supervisionato che consente al modello di prevedere il prossimo token in una sequenza, una strategia semplice ma efficace. Lavori recenti hanno dimostrato il successo di questi grandi modelli autoregressivi, evidenziando la loro generalizzabilità e scalabilità. La scalabilità è un esempio tipico delle leggi di scala esistenti che consente ai ricercatori di prevedere le prestazioni del modello grande dalle prestazioni dei modelli più piccoli, risultando in una migliore allocazione delle risorse. D’altra parte, la generalizzabilità è spesso dimostrata da strategie di apprendimento come zero-shot, one-shot e few-shot learning, evidenziando la capacità dei modelli non supervisionati ma addestrati di adattarsi a compiti diversi e non visti. Insieme, generalizzabilità e scalabilità rivelano il potenziale dei modelli autoregressivi di apprendere da una grande quantità di dati non etichettati.

Basandoci sullo stesso, in questo articolo, parleremo del framework Visual AutoRegressive o VAR, un nuovo modello di generazione che ridefinisce l’apprendimento autoregressivo sulle immagini come previsione “coarse-to-fine” o “next-scale prediction”. Sebbene semplice, l’approccio è efficace e consente ai trasformatori autoregressivi di apprendere le distribuzioni visive meglio, e di migliorare la generalizzabilità. Inoltre, i modelli Visual AutoRegressive abilitano i modelli autoregressivi di tipo GPT a superare i trasferimenti di diffusione nella generazione di immagini per la prima volta. Gli esperimenti indicano anche che il framework VAR migliora notevolmente i risultati di base autoregressivi e supera il framework Diffusion Transformer o DiT in più dimensioni, tra cui efficienza dei dati, qualità dell’immagine, scalabilità e velocità di inferenza. Inoltre, l’aumento dei modelli Visual AutoRegressive dimostra leggi di scala di potenza simili a quelle osservate con i grandi modelli di linguaggio, e mostra anche la capacità di generalizzazione zero-shot in compiti downstream, tra cui editing, in-painting e out-painting.

Questo articolo si propone di coprire il framework Visual AutoRegressive in profondità, ed esploriamo il meccanismo, la metodologia, l’architettura del framework insieme al suo confronto con i framework di stato dell’arte. Parleremo anche di come il framework Visual AutoRegressive dimostra due proprietà importanti dei LLM: le leggi di scala e la generalizzazione zero-shot. Quindi, iniziamo.

Visual AutoRegressive Modeling: Scaling Image Generation

Un modello comune tra i recenti grandi modelli di linguaggio è l’implementazione di una strategia di apprendimento auto-supervisionato, un approccio semplice ma efficace che prevede il prossimo token nella sequenza. Grazie all’approccio, i modelli autoregressivi e i grandi modelli di linguaggio di oggi hanno dimostrato una notevole scalabilità e generalizzabilità, proprietà che rivelano il potenziale dei modelli autoregressivi di apprendere da una grande quantità di dati non etichettati, quindi riassumendo l’essenza dell’Intelligenza Artificiale Generale. Inoltre, i ricercatori nel campo della visione artificiale hanno lavorato parallelamente per sviluppare grandi modelli autoregressivi o modelli di mondo con l’obiettivo di eguagliare o superare la loro impressionante scalabilità e generalizzabilità, con modelli come DALL-E e VQGAN che hanno già dimostrato il potenziale dei modelli autoregressivi nel campo della generazione di immagini. Questi modelli spesso implementano un tokenizzatore visivo che rappresenta o approssima immagini continue in una griglia di token 2D, che vengono quindi appiattiti in una sequenza 1D per l’apprendimento autoregressivo, così facendo specchio del processo di modellazione del linguaggio sequenziale.

Tuttavia, i ricercatori non hanno ancora esplorato le leggi di scala di questi modelli, e ciò che è più frustrante è il fatto che le prestazioni di questi modelli spesso rimangono indietro rispetto ai modelli di diffusione di un margine significativo, come dimostrato nell’immagine seguente. Il divario nelle prestazioni indica che, rispetto ai grandi modelli di linguaggio, le capacità dei modelli autoregressivi nella visione artificiale sono poco esplorate.

Da un lato, i modelli autoregressivi tradizionali richiedono un ordine di dati definito, mentre dall’altro lato, il modello Visual AutoRegressive o VAR riconsidera come ordinare un’immagine, ed è questo che distingue il VAR dai metodi AR esistenti. Tipicamente, gli esseri umani creano o percepiscono un’immagine in modo gerarchico, catturando la struttura globale seguita dai dettagli locali, un approccio multi-scala, coarse-to-fine che suggerisce un ordine per l’immagine in modo naturale. Inoltre, traggono ispirazione dai progetti multi-scala, il framework VAR definisce l’apprendimento autoregressivo per le immagini come previsione della prossima scala, anziché come previsione del prossimo token. L’approccio implementato dal framework VAR inizia codificando un’immagine in mappe di token multi-scala. Il framework quindi inizia il processo autoregressivo dalla mappa di token 1×1 e si espande progressivamente in risoluzione. Ad ogni passo, il trasformatore prevede la mappa di token di risoluzione superiore condizionata su tutte le precedenti, una metodologia che il framework VAR si riferisce come modellazione VAR.

Il framework VAR tenta di sfruttare l’architettura del trasformatore di GPT-2 per l’apprendimento autoregressivo visivo, e i risultati sono evidenti sul benchmark ImageNet dove il modello VAR migliora notevolmente la sua linea di base autoregressiva, raggiungendo un FID di 1,80 e un punteggio di inizio di 356, insieme a un miglioramento di 20 volte nella velocità di inferenza. Ciò che è più interessante è che il framework VAR riesce a superare le prestazioni del framework Diffusion Transformer o DiT in termini di punteggi FID e IS, scalabilità, velocità di inferenza e efficienza dei dati. Inoltre, il modello Visual AutoRegressive esibisce forti leggi di scala simili a quelle osservate nei grandi modelli di linguaggio.

Per riassumere, il framework VAR tenta di fare le seguenti contribuzioni.

Propone un nuovo framework generativo visivo che utilizza un approccio autoregressivo multi-scala con previsione della prossima scala, contrario alla previsione del prossimo token, risultando nel progettare l’algoritmo autoregressivo per compiti di visione artificiale.
Tenta di validare le leggi di scala per i modelli autoregressivi insieme al potenziale di generalizzazione zero-shot che emula le proprietà attraenti dei LLM.
Offre una svolta nelle prestazioni dei modelli autoregressivi visivi, abilitando i framework autoregressivi di tipo GPT a superare i modelli di diffusione esistenti nella sintesi di immagini per la prima volta.

Inoltre, è anche vitale discutere le leggi di scala di potenza esistenti che descrivono matematicamente la relazione tra le dimensioni del set di dati, i parametri del modello, i miglioramenti delle prestazioni e le risorse computazionali dei modelli di apprendimento automatico. In primo luogo, queste leggi di scala di potenza facilitano l’applicazione delle prestazioni di un modello più grande scalando il modello, il costo computazionale e le dimensioni del set di dati, risparmiando costi inutili e allocando il budget di addestramento fornendo principi. In secondo luogo, le leggi di scala hanno dimostrato un aumento costante e non saturante delle prestazioni. Proseguendo con i principi delle leggi di scala nei modelli di linguaggio neurale, diversi LLM incorporano il principio che l’aumento della scala dei modelli tende a produrre risultati di prestazioni migliori. La generalizzazione zero-shot, d’altra parte, si riferisce alla capacità di un modello, in particolare di un LLM, di eseguire compiti che non è stato addestrato esplicitamente. All’interno del dominio della visione artificiale, l’interesse per la costruzione di capacità di apprendimento zero-shot e in-context dei modelli di base.

I modelli di linguaggio si basano su algoritmi WordPiece o approcci di codifica Byte Pair per la tokenizzazione del testo. I modelli di generazione visiva basati sui modelli di linguaggio si basano anche fortemente sulla codifica di immagini 2D in sequenze di token 1D. Lavori precedenti come VQVAE hanno dimostrato la capacità di rappresentare immagini come token discreti con qualità di ricostruzione moderata. Il successore di VQVAE, il framework VQGAN ha incorporato perdite percettive e avversarie per migliorare la fedeltà dell’immagine, e ha anche impiegato un trasformatore decoder-only per generare token di immagine in modo autoregressivo standard. I modelli di diffusione, d’altra parte, sono stati a lungo considerati i migliori per i compiti di sintesi visiva, grazie alla loro diversità e qualità di generazione superiore. L’evoluzione dei modelli di diffusione è stata centrata sull’miglioramento delle tecniche di campionamento, sulle migliorie architettoniche e sulla velocità di campionamento. I modelli di diffusione latente applicano la diffusione nello spazio latente che migliora l’efficienza di addestramento e di inferenza. I modelli di trasformatore di diffusione sostituiscono l’architettura U-Net tradizionale con un’architettura basata su trasformatori, e sono stati impiegati in modelli di sintesi di immagini o video recenti come SORA e Stable Diffusion.

Visual-AutoRegressive : Metodologia e Architettura

Al suo nucleo, il framework VAR ha due fasi di addestramento discrete. Nella prima fase, un autoencoder quantizzato multi-scala o VQVAE codifica un’immagine in mappe di token, e una perdita di ricostruzione composta viene implementata per l’addestramento. Nell’immagine sopra, l’incorporamento è una parola utilizzata per definire la conversione di token discreti in vettori di incorporamento continui. Nella seconda fase, il trasformatore nel modello VAR viene addestrato minimizzando la perdita di entropia incrociata o massimizzando la probabilità utilizzando l’approccio di previsione della prossima scala. Il VQVAE addestrato produce quindi la mappa di token di verità di base per il framework VAR.

Modellazione Autoregressiva tramite Previsione del Prossimo Token

Per una data sequenza di token discreti, dove ogni token è un intero da un vocabolario di dimensione V, il modello autoregressivo del prossimo token suppone che la probabilità di osservare il token attuale dipenda solo dal suo prefisso. Supponendo una dipendenza unidirezionale dei token consente al framework VAR di scomporre le probabilità della sequenza nel prodotto delle probabilità condizionali. L’addestramento di un modello autoregressivo coinvolge l’ottimizzazione del modello su un set di dati, e questo processo di ottimizzazione è noto come previsione del prossimo token, e consente al modello addestrato di generare nuove sequenze. Inoltre, le immagini sono segnali continui 2D per eredità, e applicare l’approccio di modellazione autoregressiva alle immagini tramite il processo di ottimizzazione della previsione del prossimo token ha alcuni prerequisiti. In primo luogo, l’immagine deve essere tokenizzata in diversi token discreti. Di solito, viene implementato un autoencoder quantizzato per convertire la mappa di caratteristiche dell’immagine in token discreti. In secondo luogo, un ordine 1D dei token deve essere definito per la modellazione unidirezionale.

I token di immagine in token discreti sono disposti in una griglia 2D, e a differenza delle frasi di linguaggio naturale che hanno un ordine da sinistra a destra, l’ordine dei token di immagine deve essere definito esplicitamente per l’apprendimento autoregressivo unidirezionale. Approcci autoregressivi precedenti hanno appiattito la griglia 2D di token discreti in una sequenza 1D utilizzando metodi come la scansione raster principale, la curva z o l’ordine spiralato. Una volta che i token discreti sono stati appiattiti, i modelli AR estraevano una serie di sequenze dal set di dati, e quindi addestravano un modello autoregressivo per massimizzare la probabilità nel prodotto delle probabilità condizionali T utilizzando la previsione del prossimo token.

Modellazione Visual-AutoRegressive tramite Previsione della Prossima Scala

Il framework VAR ridefinisce la modellazione autoregressiva sulle immagini spostandosi dalla previsione del prossimo token alla previsione della prossima scala, un processo in cui l’unità autoregressiva non è un singolo token, ma una mappa di token intera. Il modello codifica prima la mappa di caratteristiche in mappe di token multi-scala, ognuna con una risoluzione superiore alla precedente, e culmina con la risoluzione della mappa di caratteristiche originale. Inoltre, il framework VAR sviluppa un nuovo encoder di quantizzazione multi-scala per codificare un’immagine in mappe di token discrete multi-scala, necessarie per l’apprendimento VAR. Il framework VAR impiega la stessa architettura di VQGAN, ma con un livello di quantizzazione multi-scala modificato, con gli algoritmi dimostrati nell’immagine seguente.

Visual AutoRegressive : Risultati e Esperimenti

Il framework VAR utilizza l’architettura VQVAE vanilla con uno schema di quantizzazione multi-scala con K convoluzioni extra, e utilizza un codice condiviso per tutte le scale e una dimensione latente di 32. L’attenzione principale si concentra sull’algoritmo VAR, a causa del quale la progettazione dell’architettura del modello è mantenuta semplice ma efficace. Il framework adotta l’architettura di un trasformatore decoder-only standard simile a quello implementato sui modelli GPT-2, con la sola modifica della sostituzione della normalizzazione dei livelli tradizionale con la normalizzazione adattiva o AdaLN. Per la sintesi condizionale della classe, il framework VAR implementa le incorporazioni della classe come token di inizio, e anche la condizione del livello di normalizzazione adattiva.

Risultati di Generazione di Immagini di Stato dell’Arte

Quando confrontato con i framework generativi esistenti, tra cui GAN o Reti Generative Avversarie, modelli di previsione mascherata di tipo BERT, modelli di diffusione e modelli autoregressivi di tipo GPT, il framework Visual AutoRegressive mostra risultati promettenti riassunti nella tabella seguente.

Come si può osservare, il framework Visual AutoRegressive non solo è in grado di ottenere i migliori punteggi FID e IS, ma mostra anche una velocità di generazione di immagini notevole, paragonabile ai modelli di stato dell’arte. Inoltre, il framework VAR dimostra anche una precisione e una ricordanza soddisfacenti, il che conferma la sua coerenza semantica. Ma la vera sorpresa è la prestazione notevole fornita dal framework VAR sui compiti tradizionali di capacità AR, rendendolo il primo modello autoregressivo che ha superato un modello di trasformatore di diffusione, come dimostrato nella tabella seguente.

Risultato di Generalizzazione del Compito Zero-Shot

Per i compiti di in-painting e out-painting, il framework VAR forza i token di verità di base al di fuori della maschera, e lascia che il modello generi solo i token all’interno della maschera, senza iniettare alcuna informazione di etichetta di classe nel modello. I risultati sono dimostrati nell’immagine seguente, e come si può vedere, il modello VAR ottiene risultati accettabili sui compiti downstream senza regolare i parametri o modificare l’architettura della rete, dimostrando la generalizzabilità del framework VAR.

Pensieri Finali

In questo articolo, abbiamo parlato di un nuovo framework generativo visivo chiamato Visual AutoRegressive modeling (VAR) che 1) teoricamente affronta alcuni problemi intrinseci ai modelli AR standard, e 2) fa sì che i modelli AR basati sui modelli di linguaggio superino per la prima volta i modelli di diffusione forti in termini di qualità dell’immagine, diversità, efficienza dei dati e velocità di inferenza. Da un lato, i modelli autoregressivi tradizionali richiedono un ordine di dati definito, mentre dall’altro lato, il modello Visual AutoRegressive o VAR riconsidera come ordinare un’immagine, ed è questo che distingue il VAR dai metodi AR esistenti. Scalando il VAR a 2 miliardi di parametri, gli sviluppatori del framework VAR hanno osservato una chiara relazione di potenza tra le prestazioni di test e i parametri del modello o il calcolo di addestramento, con coefficienti di Pearson vicini a −0,998, indicando un framework robusto per la previsione delle prestazioni. Queste leggi di scala e la possibilità di generalizzazione zero-shot, come marchi di fabbrica dei LLM, sono state ora inizialmente verificate nei nostri modelli di trasformatori VAR.

Kunal Kejriwal

Un ingegnere per professione, uno scrittore per passione. Kunal è uno scrittore tecnico con un profondo amore e comprensione di AI e ML, dedicato a semplificare concetti complessi in questi campi attraverso la sua documentazione coinvolgente e informativa.