Kunstig intelligens

Visuell Autoregressiv Modellering: Skalerbar Bildegenerering via Neste-Skalaeprediksjon

Published April 10, 2024

Updated April 4, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Introduksjonen av GPT-modeller, sammen med andre autoregressive eller AR store språkmodeller, har åpnet en ny epoke i maskinlæring og kunstig intelligens. GPT og autoregressive modeller viser ofte generell intelligens og fleksibilitet som anses å være et betydelig skritt mot generell kunstig intelligens eller AGI, til tross for å ha noen problemer som hallucinasjoner. Det pussige problemet med disse store modellene er en selv-overvåket læringstrategi som tillater modellen å forutsi neste token i en sekvens, en enkel, men effektiv strategi. Nyere arbeider har demonstrert suksessen til disse store autoregressive modellene, og høylysning deres generaliserbarhet og skalerbarhet. Skalerbarhet er et typisk eksempel på eksisterende skaleringslover som tillater forskerne å forutsi ytelsen til den store modellen fra ytelsen til mindre modeller, noe som resulterer i bedre ressursallokering. På den andre siden, er generaliserbarhet ofte dokumentert ved læringstrategier som zero-shot, one-shot og few-shot læring, og høylysning evnen til ubetjent, men trent modell til å tilpasse seg ulike og usette oppgaver. Sammen avslører generaliserbarhet og skalerbarhet potensialet til autoregressive modeller til å lære fra en stor mengde ulabelt data.

Bygging på det samme, i denne artikkelen, vil vi snakke om Visuell Autoregressiv eller VAR-rammeverket, et nytt generasjonsmønster som omdefinerer autoregressiv læring på bilder som grov-til-fine “neste-skalaeprediksjon” eller “neste-resolusjonsprediksjon”. Selv om det er enkelt, er tilnærmingen effektiv og tillater autoregressive transformatorer å lære visuelle distribusjoner bedre, og forbedret generaliserbarhet. Videre tillater Visuell Autoregressiv-modellene GPT-stil autoregressive modeller å overgå diffusjonsmodeller i bildegenerering for første gang. Eksperimenter indikerer også at VAR-rammeverket forbedrer autoregressive basislinjene betydelig, og overgår Diffusjonstransformator eller DiT-rammeverket i flere dimensjoner, inkludert dataeffektivitet, bildekvalitet, skalerbarhet og inferenshastighet. Videre viser skaleringsopphøying av Visuell Autoregressiv-modellene kraftlovskaleringslover som ligner på de som er observert med store språkmodeller, og viser også null-skudd generaliseringsEvne i nedstrømsoppgaver, inkludert redigering, innmalings- og utmalingsoppgaver.

Denne artikkelen har som mål å dekke Visuell Autoregressiv-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med sammenligningen med state-of-the-art-rammeverk. Vi vil også snakke om hvordan Visuell Autoregressiv-rammeverket demonstrerer to viktige egenskaper til LLM-er: Skaleringslover og null-skudd generalisering. Så la oss komme i gang.

Visuell Autoregressiv Modellering: Skalerbar Bildegenerering

En vanlig mønster blant nyere store språkmodeller er implementeringen av en selv-overvåket læringstrategi, en enkel, men effektiv tilnærming som forutsier neste token i sekvensen. Takk til tilnærmingen, har autoregressive og store språkmodeller i dag demonstrert bemerkelsesverdig skalerbarhet samt generaliserbarhet, egenskaper som avslører potensialet til autoregressive modeller til å lære fra en stor mengde ulabelt data, og dermed summerer essensen av generell kunstig intelligens. Videre har forskere i datavisjonsfeltet arbeidet parallelt for å utvikle store autoregressive eller verdenmodeller med målet å matche eller overgå deres imponerende skalerbarhet og generaliserbarhet, med modeller som DALL-E og VQGAN som allerede demonstrerer potensialet til autoregressive modeller i bildegenerering. Disse modellene implementerer ofte en visuell tokenisator som representerer eller approksimerer kontinuerlige bilder i en grid av 2D-tokens, som deretter flattes ut i en 1D-sekvens for autoregressiv læring, og dermed speiler den sekvensielle språkmodellprosessen.

Men forskerne har ennå ikke utforsket skaleringslovene til disse modellene, og hva som er mer frustrerende er det faktum at ytelsen til disse modellene ofte ligger bak diffusjonsmodellene med et betydelig margin, som demonstrert i følgende bilde. Gapet i ytelse indikerer at når sammenlignet med store språkmodeller, er evnene til autoregressive modeller i datavisjon underutforsket.

På den ene siden, krever tradisjonelle autoregressive modeller en definert rekkefølge av data, mens på den andre siden, reevaluerer Visuell Autoregressiv eller VAR-modellen hvordan man bestiller et bilde, og dette er hva som skiller VAR fra eksisterende AR-metoder. Vanligvis skaper eller oppfatter mennesker et bilde på en hierarkisk måte, ved å fange den globale strukturen fulgt av lokale detaljer, en multi-skala, grov-til-fine tilnærming som foreslår en rekkefølge for bildet naturlig. Videre, ved å dra inspirasjon fra multi-skala design, definerer VAR-rammeverket autoregressiv læring for bilder som neste-skalaeprediksjon i motsetning til konvensjonelle tilnærminger som definerer læringen som neste-token-prediksjon. Tilnærmingen implementert av VAR-rammeverket starter med å kode et bilde inn i multi-skala token-kart. Rammeverket starter deretter den autoregressive prosessen fra 1×1 token-kartet, og utvider i oppløsning progressivt. På hvert trinn, forutsier transformatorn neste høyere oppløsning token-kart betinget på alle tidligere, en metode som VAR-rammeverket refererer til som VAR-modellering.

VAR-rammeverket forsøker å utnytte transformator-arkitekturen til GPT-2 for visuell autoregressiv læring, og resultater er tydelige på ImageNet-benchmarket hvor VAR-modellen forbedrer AR-baselinjen betydelig, og oppnår en FID på 1,80, og en oppfinnelsesscore på 356, sammen med en 20x forbedring av inferenshastigheten. Hva som er mer interessant er at VAR-rammeverket klarer å overgå ytelsen til DiT eller Diffusjonstransformator-rammeverket i termer av FID- og IS-scorer, skalerbarhet, inferenshastighet og dataeffektivitet. Videre viser Visuell Autoregressiv-modellen sterke skaleringslover som ligner på de som er observert i store språkmodeller.

For å summerer, forsøker VAR-rammeverket å bidra med følgende.

Det foreslår et nytt visuelt generativt rammeverk som bruker en multi-skala autoregressiv tilnærming med neste-skalaeprediksjon, i motsetning til den tradisjonelle neste-token-prediksjon, noe som resulterer i å designe den autoregressive algoritmen for datavisjonsoppgaver.
Det forsøker å validere skaleringslover for autoregressive modeller sammen med null-skudd generaliseringspotensial som emulerer de tiltalende egenskapene til LLM-er.
Det tilbyr et gjennombrudd i ytelsen til visuelle autoregressive modeller, og muliggjør GPT-stil autoregressive rammeverk å overgå eksisterende diffusjonsmodeller i bilde synteseoppgaver for første gang.

Videre er det også viktig å diskutere de eksisterende skaleringslovene som matematisk beskriver forholdet mellom datasettstørrelser, modellparametere, ytelsesforbedringer og beregningsressurser til maskinlæringsmodeller. Først, faciliterer disse skaleringslovene anvendelsen av en større modells ytelse ved å skalerer opp modellstørrelsen, beregningskostnaden og datamengden, og sparar unødvendige kostnader og allokerer treningbudsjettet ved å gi prinsipper. Andre, har skaleringslovene demonstrert en konsistent og ikke-metnings ytelsesøkning. Fremover med prinsippene til skaleringslovene i neurale språkmodeller, innlemmer flere LLM-er prinsippet om at økning av modellskalaen tenderer å gi forbedrede ytelsesresultater. Null-skudd generalisering på den andre siden, refererer til evnen til en modell, spesielt en LLM, til å utføre oppgaver den ikke er trent på eksplisitt. Innenfor datavisjonsdomenet, er interessen for å bygge inn null-skudd og kontekstlæringsevner til grunnlagsmodeller.

Språkmodeller avhenger av WordPiece-algoritmer eller Byte Pair Encoding-tilnærming for teksttokenisering. Visuelle genereringsmodeller basert på språkmodeller avhenger også tungt av å kode 2D-bilder inn i 1D token-sekvenser. Tidlige arbeider som VQVAE demonstrerte evnen til å representere bilder som diskrete tokens med moderat rekonstruksjonskvalitet. Arvtakeren til VQVAE, VQGAN-rammeverket, innlemmet perseptuelle og adversarielle tap for å forbedre bildekvaliteten, og brukte også en decoder-bare transformator for å generere bilde-tokens i standard raster-scan autoregressiv måte. Diffusjonsmodeller på den andre siden, har lenge vært ansett som frontløpere for visuell synteseoppgaver, takket være deres mangfold og overlegen genereringskvalitet. Fremgangen i diffusjonsmodeller har vært sentrert rundt å forbedre samplingsteknikker, arkitektoniske forbedringer og raskere sampling. Latente diffusjonsmodeller anvender diffusjon i latentrommet, noe som forbedrer treningseffektiviteten og inferensen. Diffusjonstransformator-modeller erstatter den tradisjonelle U-Net-arkitekturen med en transformator-basert arkitektur, og har vært deployert i nyere bilde- eller videosyntese-modeller som SORA og Stable Diffusion.

Visuell Autoregressiv : Metodikk og Arkitektur

I kjernen, har VAR-rammeverket to separate treningstadier. I det første stadiet, kodar en multi-skala kvantisert autoencoder eller VQVAE et bilde inn i token-kart, og en sammensatt rekonstruksjonstap implementeres for trening. I figuren ovenfor, er innbetging et ord som brukes til å definere konvertering av diskrete tokens til kontinuerlige innbetgingsvektorer. I det andre stadiet, trenes transformatorn i VAR-modellen ved å minimere kryss-entropitapen eller maksimere sannsynligheten ved å bruke neste-skalaeprediksjonstilnærmingen. Den trenede VQVAE produserer deretter token-kart-grundigheten for VAR-rammeverket.

Autoregressiv Modellering via Neste-Token-Prediksjon

For en gitt sekvens av diskrete tokens, hvor hvert token er et heltall fra et vokabular på størrelse V, foreslår neste-token autoregressiv modell at sannsynligheten for å observere det nåværende tokenet avhenger bare av dets prefiks. Antagelse av unidireksjonal token-avhengighet tillater VAR-rammeverket å dekomponere sannsynligheten til sekvensen i produktet av betingede sannsynligheter. Trening av en autoregressiv modell innebærer å optimere modellen over en datasett, og denne optimeringsprosessen er kjent som neste-token-prediksjon, og tillater den trenede modellen å generere nye sekvenser. Videre, er bilder 2D kontinuerlige signaler av natur, og å anvende den autoregressive modelleringstilnærmingen til bilder via neste-token-prediksjonsprosessen har noen forutsetninger. Først, må bildet tokeniseres inn i flere diskrete tokens. Vanligvis implementeres en kvantisert autoencoder for å konvertere bilde-egenskapskartet til diskrete tokens. Andre, må en 1D rekkefølge av tokens defineres for unidireksjonal modellering.

Bilde-tokenene i diskrete tokens er ordnet i en 2D grid, og i motsetning til naturlige språksetninger som har en innebygd venstre-til-høyre rekkefølge, må rekkefølgen av bilde-tokens defineres eksplisitt for unidireksjonal autoregressiv læring. Tidligere autoregressive tilnærminger flattet den 2D griden av diskrete tokens ut i en 1D-sekvens ved å bruke metoder som rad-hoved raster-scan, z-kurve eller spiral-rekkefølge. Når de diskrete tokenene var flattet, ekstraherte AR-modellene en mengde sekvenser fra datasett, og deretter trenet en autoregressiv modell for å maksimere sannsynligheten i produktet av T betingede sannsynligheter ved å bruke neste-token-prediksjon.

Visuell-Autoregressiv Modellering via Neste-Skalaeprediksjon

VAR-rammeverket omdefinierer den autoregressive modelleringen på bilder ved å skifte fra neste-token-prediksjon til neste-skalaeprediksjonstilnærming, en prosess under hvilken, i stedet for å være ett enkelt token, er den autoregressive enheten en hel token-kart. Modellen kvantiserer først egenskapskartet inn i multi-skala token-kart, hver med en høyere oppløsning enn den foregående, og kulminerer med å matche oppløsningen til de originale egenskapskartene. Videre utvikler VAR-rammeverket en ny multi-skala kvantisering-encoder for å kode et bilde inn i multi-skala diskrete token-kart, nødvendig for VAR-læringen. VAR-rammeverket anvender samme arkitektur som VQGAN, men med en modifisert multi-skala kvantisering-lag, med algoritmene demonstrert i følgende bilde.

Visuell Autoregressiv : Resultater og Eksperimenter

VAR-rammeverket bruker den vanlige VQVAE-arkitekturen med en multi-skala kvantiseringsskjema med K ekstra konvolusjon, og bruker en delt kodebok for alle skalaer og en latent dimensjon på 32. Hovedfokuset ligger på VAR-algoritmen, og derfor er modellarkitektur-designet holdt enkelt, men effektivt. Rammeverket anvender arkitekturen til en standard decoder-bare transformator, lignende de som er implementert på GPT-2-modeller, med den eneste modifikasjonen som er å erstatte tradisjonell lag-normalisering med adaptiv normalisering eller AdaLN. For klasse-betinget syntese, implementerer VAR-rammeverket klasse-embeddings som start-token, og også betingelsen til den adaptive normaliseringslaget.

State of the Art Bildegenereringsresultater

Når sammenlignet med eksisterende generative rammeverk, inkludert GAN-er eller Generative Adversarial Networks, BERT-stil maskert prediksjonsmodeller, diffusjonsmodeller og GPT-stil autoregressive modeller, viser Visuell Autoregressiv-rammeverket løftende resultater, sammenfattet i følgende tabell.

Som det kan observeres, er Visuell Autoregressiv-rammeverket ikke bare i stand til å beste FID- og IS-scorer, men det demonstrerer også bemerkelsesverdig bildegenereringshastighet, sammenlignbar med state-of-the-art-modeller. Videre viser VAR-rammeverket også tilfredsstillende presisjon og gjentakelsesscorer, noe som bekrefter dens semantiske konsistens. Men den virkelige overraskelsen er den bemerkelsesverdige ytelsen levert av VAR-rammeverket på tradisjonelle AR-evner, og gjør det til den første autoregressive modellen som overgår en Diffusjonstransformator-modell, som demonstrert i følgende tabell.

Null-Skudd Oppgavegeneraliseringsresultat

For inn- og utmalingsoppgaver, tvinger VAR-rammeverket grunnighets-tokenene utenfor masken, og lar modellen generere bare tokenene innenfor masken, uten å injisere noen klasse-etikettinformasjon i modellen. Resultatene er demonstrert i følgende bilde, og som det kan sees, oppnår VAR-modellen akseptable resultater på nedstrømsoppgaver uten å justere parametre eller modifisere nettverksarkitekturen, og demonstrerer dermed generaliserbarheten til VAR-rammeverket.

Slutt tanker

I denne artikkelen har vi snakket om et nytt visuelt generativt rammeverk kalt Visuell Autoregressiv modellering (VAR) som 1) teoretisk adresserer noen problemer innebygd i standard bilde-AR-modeller, og 2) gjør språkmodell-basert AR-modeller til å overgå sterke diffusjonsmodeller i termer av bildekvalitet, mangfold, dataeffektivitet og inferenshastighet. På den ene siden, krever tradisjonelle autoregressive modeller en definert rekkefølge av data, mens på den andre siden, reevaluerer Visuell Autoregressiv eller VAR-modellen hvordan man bestiller et bilde, og dette er hva som skiller VAR fra eksisterende AR-metoder. Ved å skalerer opp VAR til 2 milliarder parametere, observerte utviklerne av VAR-rammeverket en tydelig kraftlovskaleringsforhold mellom testytelse og modellparametere eller trening beregning, med Pearsons koeffisienter nærmer seg −0,998, og indikerer et robust rammeverk for ytelsesprediksjon. Disse skaleringslovene og muligheten for null-skudd oppgavegeneralisering, som kjennetegn til LLM-er, har nå blitt initialt verifisert i våre VAR-transformator-modeller.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.