Kunstig intelligens
Visuelt Autoregressivt Modeling: Skalerbar Billedegeneration via Næste-Skalaforudsigelse
Med opkomsten af GPT-modeller samt andre autoregressive eller AR store sprogmodeller er der blevet foldet ud en ny æra inden for maskinlæring og kunstig intelligens. GPT og autoregressive modeller viser ofte generel intelligens og fleksibilitet, der betragtes som et betydeligt skridt mod generel kunstig intelligens eller AGI, selvom de har nogle problemer som hallucinationer. Det problematiske problem med disse store modeller er dog en selv-overvåget lærestrategi, der giver mulighed for, at modellen kan forudsige den næste token i en sekvens, en simpel, men effektiv strategi. Senere arbejder har demonstreret succesen med disse store autoregressive modeller, der fremhæver deres generaliserbarhed og skalerbarhed. Skalerbarhed er et typisk eksempel på de eksisterende skaleringslove, der giver forskerne mulighed for at forudsige den store modells præstation ud fra den mindre modells præstation, hvilket resulterer i en bedre ressourceallokering. På den anden side er generaliserbarhed ofte bevidnet ved lærestrategier som zero-shot, one-shot og few-shot læring, der fremhæver evnen hos ubetjente, men trænede modeller til at tilpasse sig forskellige og usete opgaver. Sammen afslører generaliserbarhed og skalerbarhed potentialet for autoregressive modeller til at lære fra en stor mængde ulabellede data.
Bygget på dette, vil vi i denne artikel tale om Visuelt Autoregressivt eller VAR-rammen, en ny generationsmønster, der omdefinerer autoregressivt læring på billeder som grov-til-fine “næste-skalaforudsigelse” eller “næste-skalaforudsigelse”. Selvom det er enkelt, er tilgangen effektiv og giver mulighed for, at autoregressive transformatorer kan lære visuelle distributioner bedre, og forbedret generaliserbarhed. Desuden giver Visuelt Autoregressivt-modellerne mulighed for, at GPT-stil autoregressive modeller kan overgå diffusionstransformatorer i billedegeneration for første gang. Eksperimenterne viser også, at VAR-rammen forbedrer autoregressive baseline væsentligt og overgår Diffusion Transformer eller DiT-rammen på flere dimensioner, herunder dataeffektivitet, billedekvalitet, skalerbarhed og inferenshastighed. Yderligere viser det sig, at opskalering af Visuelt Autoregressivt-modeller demonstrerer power-love skaleringslove, lignende dem, der er observeret med store sprogmodeller, og viser også zero-shot generalisations-evne i downstream-opgaver, herunder redigering, in-painting og out-painting.
Denne artikel har til formål at dække Visuelt Autoregressivt-rammen i dybden, og vi udforsker mekanismen, metoden, arkitekturen i rammen samt sammenligningen med state-of-the-art-rammer. Vi vil også tale om, hvordan Visuelt Autoregressivt-rammen demonstrerer to vigtige egenskaber hos LLM’er: Skaleringslove og zero-shot generalisering. Så lad os komme i gang.
Visuelt Autoregressivt Modeling: Skalerbar Billedegeneration
En fælles mønster blandt seneste store sprogmodeller er implementeringen af en selv-overvåget lærestrategi, en simpel, men effektiv tilgang, der forudsiger den næste token i sekvensen. Takket være denne tilgang har autoregressive og store sprogmodeller i dag demonstreret bemærkelsesværdig skalerbarhed samt generaliserbarhed, egenskaber, der afslører potentialet for autoregressive modeller til at lære fra en stor mængde ulabellede data, og dermed sammenfatter essensen af Generel Kunstig Intelligens. Desuden har forskere inden for computer vision feltet arbejdet parallelt med at udvikle store autoregressive eller verden modeller med det formål at matche eller overgå deres imponerende skalerbarhed og generaliserbarhed, med modeller som DALL-E og VQGAN, der allerede har demonstreret potentialet for autoregressive modeller inden for billedegeneration. Disse modeller implementerer ofte en visuel tokenizer, der repræsenterer eller approksimerer kontinuerte billeder i en grid af 2D-token, der herefter flades ud i en 1D-sekvens til autoregressivt læring, og dermed spejler den sekventielle sprogmodeleringproces.

Men forskerne er endnu ikke kommet i gang med at udforske skaleringslovene for disse modeller, og hvad der er endnu mere frustrerende, er, at præstationen af disse modeller ofte falder bagud i forhold til diffusionmodeller med en betydelig margin, som demonstreret i følgende billede. Gapet i præstation indikerer, at når sammenlignet med store sprogmodeller, er evnerne hos autoregressive modeller inden for computer vision underudforsket.

På den ene side kræver traditionelle autoregressive modeller en defineret rækkefølge af data, mens på den anden side genovervejer Visuelt Autoregressivt eller VAR-modellen, hvordan man kan ordne et billede, og det er dette, der adskiller VAR fra eksisterende AR-metoder. Typisk skaber eller opfatter mennesker et billede på en hierarkisk måde, ved at fange den globale struktur efterfulgt af lokale detaljer, en multi-skala, grov-til-fine tilgang, der foreslår en rækkefølge for billedet naturligt. Desuden tager VAR-rammen inspiration fra multi-skala design og definerer autoregressivt læring for billeder som næste-skalaforudsigelse i stedet for konventionelle tilgange, der definerer læringen som næste-tokenforudsigelse. Tilgangen implementeret af VAR-rammen tager afsted ved at kodificere et billede i multi-skala token-kort. Rammen starter herefter den autoregressive proces fra 1×1 token-kort og udvider i opløsning progressivt. Ved hvert trin forudsiger transformator den næste højere opløsning token-kort betinget af alle tidligere, en metode, som VAR-rammen henviser til som VAR-modelering.
VAR-rammen forsøger at udnytte transformatorarkitekturen af GPT-2 til visuelt autoregressivt læring, og resultaterne er tydelige på ImageNet-benchmark, hvor VAR-modellen forbedrer sin AR-baseline væsentligt, og opnår en FID på 1,80, og en inception-score på 356 samt en 20-gange forbedring af inferenshastigheden. Hvad der er endnu mere interessant, er, at VAR-rammen formår at overgå præstationen af DiT eller Diffusion Transformer-rammen i forhold til FID- og IS-scores, skalerbarhed, inferenshastighed og dataeffektivitet. Desuden viser Visuelt Autoregressivt-modellen stærke skaleringslove, lignende dem, der er observeret i store sprogmodeller.
For at summerer forsøger VAR-rammen at bidrage med følgende:
- Den foreslår en ny visuel generativ ramme, der anvender en multi-skala autoregressiv tilgang med næste-skalaforudsigelse, i stedet for den traditionelle næste-tokenforudsigelse, hvilket resulterer i design af den autoregressive algoritme til computer vision-opgaver.
- Den forsøger at validere skaleringslove for autoregressive modeller samt zero-shot generalisations-potentiale, der efterligner de tiltalende egenskaber hos LLM’er.
- Den tilbyder en gennembrud i præstationen af visuelt autoregressive modeller, hvilket giver mulighed for, at GPT-stil autoregressive rammer kan overgå eksisterende diffusionmodeller i billede-syntese-opgaver for første gang nogensinde.
Desuden er det også vigtigt at diskutere de eksisterende power-love skaleringslove, der matematisk beskriver forholdet mellem datasætstørrelser, modelparametre, præstationsforbedringer og beregningsressourcer hos maskinlæringsmodeller. Først giver disse power-love skaleringslove mulighed for at anvende en større models præstation ved at skale op modellens størrelse, beregningsomkostninger og datasætstørrelse, hvilket resulterer i en bedre ressourceallokering og giver principper. Anden giver skaleringslovene en konsekvent og ikke-mættende stigning i præstation. Fremad med principperne for skaleringslove i neurale sprogmodeller, indeholder flere LLM’er principper, der fastslår, at øgning af modellens størrelse tenderer til at give bedre præstationsresultater. Zero-shot generalisering på den anden side henviser til evnen hos en model, især en LLM, der udfører opgaver, den ikke er blevet trænet på eksplicit. Inden for computer vision-domenet er interessen for at bygge zero-shot og in-context læringsevner hos grundlæggende modeller.
Sprogmodeller afhænger af WordPiece-algoritmer eller Byte Pair Encoding-tilgang til teksttokenisering. Visuelle generationsmodeller baseret på sprogmodeller afhænger også stærkt af kodificering af 2D-billeder i 1D-token-sekvenser. Tidlige arbejder som VQVAE demonstrerede evnen til at repræsentere billeder som diskrete token med moderat rekonstruktionskvalitet. Efterfølgeren til VQVAE, VQGAN-rammen, inkorporerede perceptuelle og adversarielle tab for at forbedre billedtroværdigheden og anvendte også en decoder-kun transformator til at generere billedtoken i standard raster-scan autoregressiv måde. Diffusionmodeller på den anden side er længe blevet betragtet som frontløberne for visuel synteseopgaver på grund af deres diversitet og overlegne generationskvalitet. Fremgangen af diffusionmodeller er blevet centreret omkring forbedring af samplingsteknikker, arkitektoniske forbedringer og hurtigere sampling. Latente diffusionmodeller anvender diffusion i det latente rum, hvilket forbedrer trænings-effektiviteten og inferens. Diffusion Transformer-modeller erstatter den traditionelle U-Net-arkitektur med en transformator-baseret arkitektur og er blevet anvendt i seneste billed- eller videosyntese-modeller som SORA og Stable Diffusion.
Visuelt Autoregressivt: Metode og Arkitektur

I sin kerne har VAR-rammen to separate træningsfaser. I den første fase kodificerer en multi-skala kvantiseret autoencoder eller VQVAE et billede i token-kort, og en sammensat rekonstruktions-tab bliver implementeret til træningsformål. I ovenstående figur er embedding et ord, der definerer konvertering af diskrete token til kontinuerte embedding-vektorer. I den anden fase bliver transformator i VAR-modellen trænet ved enten at minimere cross-entropy-taben eller maksimere sandsynligheden ved hjælp af næste-skalaforudsigelses-tilgangen. Den trænede VQVAE producerer herefter token-kort grundsandheden for VAR-rammen.
Autoregressivt Modeling via Næste-Tokenforudsigelse
For en given sekvens af diskrete token, hvor hvert token er et integer fra et vokabularium af størrelse V, foreslår den næste-token autoregressive model, at sandsynligheden for at observere det nuværende token afhænger kun af dets præfiks. Antagelse af unidirektionel token-afhængighed giver mulighed for, at VAR-rammen kan dekomponere sandsynligheden for sekvensen i produktet af betingede sandsynligheder. Træning af en autoregressiv model indebærer optimering af modellen på tværs af et datasæt, og denne optimeringsproces kaldes næste-tokenforudsigelse, og giver mulighed for, at den trænede model kan generere nye sekvenser. Desuden er billeder 2D kontinuerte signaler af natur, og for at anvende den autoregressive modeleringstilgang til billeder via næste-tokenforudsigelses-optimeringsprocessen har nogle forudsætninger. Først skal billedet tokeniseres i flere diskrete token. Så skal en 1D-rækkefølge af token defineres for unidirektionel modelering.
Billed-token i diskrete token er arrangeret i en 2D-grid, og til forskel fra naturlige sprog-sætninger, der har en indbygget venstre-til-højre-rækkefølge, skal rækkefølgen af billed-token defineres eksplicit for unidirektionel autoregressivt læring. Tidligere autoregressive tilgange fladede den 2D-grid af diskrete token ud i en 1D-sekvens ved hjælp af metoder som row-major raster-scan, z-kurve eller spiral-rækkefølge. Når de diskrete token var fladede, trænede AR-modellerne en samling af sekvenser fra datasættet og trænede herefter en autoregressiv model til at maksimere sandsynligheden i produktet af T betingede sandsynligheder ved hjælp af næste-tokenforudsigelse.
Visuelt Autoregressivt Modeling via Næste-Skalaforudsigelse
VAR-rammen omdefinerer den autoregressive modelering på billeder ved at skifte fra næste-tokenforudsigelse til næste-skalaforudsigelses-tilgang, en proces, hvor den autoregressive enhed ikke er et enkelt token, men en hel token-kort. Modellen kvantiserer først feature-kortet i multi-skala token-kort, hver med en højere opløsning end den foregående, og kulminerer med at matche opløsningen af de originale feature-kort. Desuden udvikler VAR-rammen en ny multi-skala kvantiserings-encoder til at kodificere et billede i multi-skala diskrete token-kort, nødvendigt for VAR-læring. VAR-rammen anvender samme arkitektur som VQGAN, men med en modificeret multi-skala kvantiserings-lag, med algoritmerne demonstreret i følgende billede.

Visuelt Autoregressivt: Resultater og Eksperimenter
VAR-rammen anvender den vanille VQVAE-arkitektur med en multi-skala kvantiserings-skema med K ekstra convolution og anvender en delt kodebog for alle skalaer og en latent dim på 32. Den primære fokus ligger på VAR-algoritmen, hvorfra modellens arkitekturdesign er holdt enkelt, men effektivt. Rammen anvender arkitekturen af en standard decoder-kun transformator, lignende dem, der er implementeret på GPT-2-modeller, med den eneste modification, der er erstatning af traditionel lag-normalisering for adaptiv normalisering eller AdaLN. Til klassisk betinget syntese implementerer VAR-rammen klasse-embedding som start-token og også betingelse for den adaptive normaliserings-lag.
State of the Art Billedegeneration Resultater
Når sammenlignet med eksisterende generative rammer, herunder GAN’er eller Generative Adversarial Networks, BERT-stil masked prediction-modeller, diffusion-modeller og GPT-stil autoregressive modeller, viser Visuelt Autoregressivt-rammen lovende resultater, som sammenfattes i følgende tabel.

Som det kan observeres, er Visuelt Autoregressivt-rammen ikke kun i stand til at overgå FID- og IS-scores, men den viser også bemærkelsesværdig billedegenerationshastighed, der er sammenlignelig med state of the art-modeller. Desuden viser VAR-rammen også tilfredsstillende præcision og genkaldelses-scores, hvilket bekræfter dens semantiske konsistens. Men den virkelige overraskelse er den bemærkelsesværdige præstation, der leveres af VAR-rammen på traditionelle AR-egenskaber-opgaver, hvilket gør det til den første autoregressive model, der overgår en Diffusion Transformer-model, som demonstreret i følgende tabel.

Zero-Shot Opgave Generalisering Resultat
Til in- og out-painting-opgaver tvinger VAR-rammen grundsandheden-token uden for masken og lader modellen generere kun token inden for masken, uden nogen klasse-label-information indsprøjtet i modellen. Resultaterne vises i følgende billede, og som det kan ses, opnår VAR-modellen acceptable resultater på downstream-opgaver uden at justere parametre eller ændre netværksarkitekturen, hvilket demonstrerer generaliserbarheden af VAR-rammen.

Afsluttende Tanker
I denne artikel har vi talt om en ny visuel generativ ramme kaldet Visuelt Autoregressivt Modeling (VAR), der 1) teoretisk adresserer nogle problemer, der er indbygget i standard billed-autoregressive (AR) modeller, og 2) giver mulighed for, at sprogmodel-baserede AR-modeller først overgår stærke diffusion-modeller i forhold til billedekvalitet, diversitet, dataeffektivitet og inferenshastighed. På den ene side kræver traditionelle autoregressive modeller en defineret rækkefølge af data, mens på den anden side genovervejer Visuelt Autoregressivt eller VAR-modellen, hvordan man kan ordne et billede, og det er dette, der adskiller VAR fra eksisterende AR-metoder. Ved at skale VAR op til 2 milliarder parametre observerede udviklerne af VAR-rammen en tydelig power-lov skaleringslov mellem testpræstation og modelparametre eller træningsberegningsressourcer, med Pearson-koefficienter nær -0,998, hvilket indikerer en robust ramme til præstationsforudsigelse. Disse skaleringslove og muligheden for zero-shot generalisering, som kendetegn hos LLM’er, er nu blevet initialt verificeret i vores VAR-transformator-modeller.












