Artificiell intelligens

Visuell AutoRegressiv Modellering: Skalbar Bildgenerering via Next-Scale-Prediktion

Publicerad 10 april 2024

Uppdaterad 22 maj 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Genombrottet av GPT-modeller, tillsammans med andra autoregressiva eller stora språkmodeller, har inletts en ny era inom maskinlärning och artificiell intelligens. GPT och autoregressiva modeller visar ofta allmän intelligens och anpassningsförmåga som anses vara ett betydande steg mot allmän artificiell intelligens eller AGI, trots att de har vissa problem som hallucinationer. Men det förbryllande problemet med dessa stora modeller är en självständig inlärningsstrategi som tillåter modellen att förutsäga nästa token i en sekvens, en enkel men effektiv strategi. Nya arbeten har visat framgången för dessa stora autoregressiva modeller, som betonar deras generaliserbarhet och skalbarhet. Skalbarhet är ett typiskt exempel på befintliga skalningslagar som tillåter forskare att förutsäga prestationen hos den stora modellen från prestationen hos mindre modeller, vilket resulterar i en bättre resursfördelning. Å andra sidan är generaliserbarhet ofta belagd med inlärningsstrategier som zero-shot, one-shot och few-shot-inlärning, som betonar förmågan hos oövervakade men tränade modeller att anpassa sig till olika och outforskade uppgifter. Tillsammans avslöjar generaliserbarhet och skalbarhet potentialen hos autoregressiva modeller att lära sig från en stor mängd oetiketterad data.

Byggande på samma, i den här artikeln kommer vi att prata om Visuell AutoRegressiv eller VAR-ramverket, ett nytt generationsmönster som omdefinierar autoregressivt lärande på bilder som grov-till-fine “nästa-upplösning-prediktion” eller “nästa-skala-prediktion”. Trots att det är enkelt är tillvägagångssättet effektivt och tillåter autoregressiva transformer att lära sig visuella distributioner bättre, och förbättrad generaliserbarhet. Dessutom möjliggör Visuell AutoRegressiva modeller GPT-liknande autoregressiva modeller att för första gången överträffa diffusionsöverföringar i bildgenerering. Experiment visar också att VAR-ramverket förbättrar autoregressiva baslinjer avsevärt och överträffar Diffusion Transformer eller DiT-ramverket i flera dimensioner, inklusive dataeffektivitet, bildkvalitet, skalbarhet och inferenshastighet. Dessutom visar skalning av Visuell AutoRegressiva modeller kraftlagsskalningslagar liknande de som observerats med stora språkmodeller, och visar också nollskottsgeneraliseringsförmåga i nedströmsuppgifter, inklusive redigering, in-painting och ut-painting.

Denna artikel syftar till att täcka Visuell AutoRegressiv ramverk i djupet, och vi utforskar mekanismen, metodiken, arkitekturen i ramverket samt dess jämförelse med state-of-the-art-ramverk. Vi kommer också att prata om hur Visuell AutoRegressiv ramverk demonstrerar två viktiga egenskaper hos LLM: Skalningslagar och nollskottsgeneralisering. Så låt oss komma igång.

Visuell AutoRegressiv Modellering: Skalbar Bildgenerering

Ett vanligt mönster bland senaste stora språkmodeller är implementeringen av en självständig inlärningsstrategi, en enkel men effektiv tillvägagångssätt som förutsäger nästa token i sekvensen. Tack vare tillvägagångssättet har autoregressiva och stora språkmodeller idag visat remarkabel skalbarhet och generaliserbarhet, egenskaper som avslöjar potentialen hos autoregressiva modeller att lära sig från en stor mängd oetiketterad data, och sammanfattar därmed essensen av allmän artificiell intelligens. Dessutom har forskare inom datavisualiseringsområdet arbetat parallellt för att utveckla stora autoregressiva eller världsmodeller med målet att matcha eller överträffa deras imponerande skalbarhet och generaliserbarhet, med modeller som DALL-E och VQGAN som redan visat potentialen hos autoregressiva modeller inom bildgenerering. Dessa modeller implementerar ofta en visuell tokenisator som representerar eller approximerar kontinuerliga bilder i en 2D-token grid, som sedan plattas till en 1D-sekvens för autoregressivt lärande, och speglar därmed den sekventiella språkmodelleringen.

Men forskare har ännu inte utforskat skalningslagarna för dessa modeller, och vad som är ännu mer frustrerande är det faktum att prestationen hos dessa modeller ofta ligger efter diffusionsmodeller med en betydande marginal, som visas i följande bild. Gapet i prestanda indikerar att när jämfört med stora språkmodeller, är förmågan hos autoregressiva modeller inom datavisualisering underutforskad.

Å ena sidan kräver traditionella autoregressiva modeller en definierad ordning av data, medan å andra sidan Visuell AutoRegressiv eller VAR-modellen omprövar hur man beställer en bild, och detta är vad som skiljer VAR från befintliga AR-metoder. Vanligtvis skapar eller uppfattar människor en bild på ett hierarkiskt sätt, som fångar den globala strukturen följt av lokala detaljer, en multi-skala, grov-till-fine-approach som föreslår en ordning för bilden naturligt. Dessutom, med inspiration från multi-skala-design, definierar VAR-ramverket autoregressivt lärande för bilder som nästa-skala-prediktion, till skillnad från konventionella tillvägagångssätt som definierar lärandet som nästa-token-prediktion. Tillvägagångssättet som implementeras av VAR-ramverket börjar med att koda en bild i multi-skala-token-kartor. Ramverket startar sedan den autoregressiva processen från 1×1-token-kartan och expanderar i upplösning progressivt. Vid varje steg förutsäger transformatorn nästa högre upplösning token-karta villkorad av alla tidigare, en metodik som VAR-ramverket hänvisar till som VAR-modellering.

VAR-ramverket försöker utnyttja transformatorarkitekturen i GPT-2 för visuellt autoregressivt lärande, och resultaten är uppenbara på ImageNet-benchmarken där VAR-modellen förbättrar sin AR-baslinje avsevärt, och uppnår en FID på 1,80, och en inceptions-poäng på 356, tillsammans med en 20-gånger förbättring av inferenshastigheten. Vad som är ännu mer intressant är att VAR-ramverket lyckas överträffa prestationen hos DiT eller Diffusion Transformer-ramverket i termer av FID- och IS-poäng, skalbarhet, inferenshastighet och dataeffektivitet. Dessutom visar Visuell AutoRegressiv modell starka skalningslagar liknande de som observerats i stora språkmodeller.

För att sammanfatta försöker VAR-ramverket att bidra med följande.

Det föreslår ett nytt visuellt generativt ramverk som använder en multi-skala autoregressiv approach med nästa-skala-prediktion, till skillnad från den traditionella nästa-token-prediktionen, vilket resulterar i att utforma den autoregressiva algoritmen för datavisualiseringsuppgifter.
Det försöker validera skalningslagar för autoregressiva modeller, tillsammans med nollskottsgeneraliseringspotential som emulerar de tilltalande egenskaperna hos LLM.
Det erbjuder ett genombrott i prestationen hos visuella autoregressiva modeller, vilket möjliggör GPT-liknande autoregressiva ramverk att för första gången överträffa befintliga diffusionsmodeller i bildsyntesuppgifter.

Dessutom är det också viktigt att diskutera befintliga kraftlagsskalningslagar som matematiskt beskriver relationen mellan datamängder, modellparametrar, prestandaförbättringar och beräkningsresurser för maskinlärningsmodeller. Först underlättar dessa kraftlagsskalningslagar tillämpningen av en större modells prestanda genom att skala upp modellstorleken, beräkningskostnaden och datamängden, vilket sparar onödiga kostnader och tilldelar utbildningsbudgeten genom att tillhandahålla principer. För det andra har skalningslagar visat en konsekvent och icke-mättnad prestandaförbättring. Fortsättning med principerna för skalningslagar i neurala språkmodeller, innehåller flera LLM de principen att öka modellens skala tenderar att ge förbättrade prestandaresultat. Nollskottsgeneralisering å andra sidan refererar till förmågan hos en modell, särskilt en LLM, att utföra uppgifter den inte har tränats på explicit. Inom datavisualiseringsdomänen är intresset för att bygga in nollskott och i-sammanhang-lärande förmågor hos grundmodeller.

Språkmodeller förlitar sig på WordPiece-algoritmer eller Byte Pair Encoding-approach för texttokenisering. Visuella genereringsmodeller baserade på språkmodeller förlitar sig också tungt på att koda 2D-bilder i 1D-token-sekvenser. Tidiga arbeten som VQVAE visade förmågan att representera bilder som diskreta token med måttlig rekonstruktionskvalitet. Efterföljaren till VQVAE, VQGAN-ramverket, inkorporerade perceptuella och adversariala förluster för att förbättra bildtrohet, och använde också en decoder-only-transformator för att generera bildtoken i standard raster-scan autoregressivt sätt. Diffusionsmodeller å andra sidan har länge ansetts vara frontförarna för visuella syntesuppgifter, tack vare deras mångfald och överlägsna genereringskvalitet. Utvecklingen av diffusionsmodeller har centrerats kring att förbättra samplingstekniker, arkitektoniska förbättringar och snabbare sampling. Latent diffusionsmodeller tillämpar diffusionsmodeller i latenta utrymmet, vilket förbättrar utbildningseffektiviteten och inferensen. Diffusion Transformer-modeller ersätter den traditionella U-Net-arkitekturen med en transformer-baserad arkitektur, och har använts i nyliga bild- eller videosyntesmodeller som SORA och Stable Diffusion.

Visuell AutoRegressiv : Metodik och Arkitektur

I sin kärna har VAR-ramverket två diskreta utbildningsstadier. I det första stadiet kodar en multi-skala kvantiserad autoencoder eller VQVAE en bild i token-kartor, och en sammansatt rekonstruktionsförlust implementeras för utbildningsändamål. I ovanstående figur är inbäddning ett ord som används för att definiera omvandling av diskreta token till kontinuerliga inbäddningsvektorer. I det andra stadiet tränas transformatorn i VAR-modellen genom att antingen minimera korsentropiförlusten eller maximera sannolikheten med hjälp av nästa-skala-prediktionen. Den tränade VQVAE producerar sedan token-karta grundvärdet för VAR-ramverket.

Autoregressiv Modellering via Nästa-Token-Prediktion

För en given sekvens av diskreta token, där varje token är ett heltal från ett ordförråd av storlek V, föreslår den autoregressiva modellen att sannolikheten för att observera det aktuella tokenet beror endast på dess prefix. Antagandet om unidirektionell tokenberoende tillåter VAR-ramverket att bryta ned sannolikheten för sekvensen i produkten av villkorliga sannolikheter. Utbildning av en autoregressiv modell innebär att optimera modellen över en datamängd, och denna optimeringsprocess kallas nästa-token-prediktion, och tillåter den tränade modellen att generera nya sekvenser. Dessutom är bilder 2D-kontinuerliga signaler av arv, och för att tillämpa den autoregressiva modelleringen på bilder via nästa-token-prediktionsoptimeringsprocessen har några förutsättningar. Först måste bilden tokeniseras i flera diskreta token. Vanligtvis implementeras en kvantiserad autoencoder för att omvandla bildfunktionen till diskreta token.

Bildtoken i diskreta token är arrangerade i en 2D-token-grid, och till skillnad från naturliga språkmeningar som har en inbyggd vänster-till-höger-ordning, måste token-ordningen definieras explicit för unidirektionellt autoregressivt lärande. Tidigare autoregressiva tillvägagångssätt plattade den 2D-token-gridden till en 1D-sekvens med hjälp av metoder som rad-huvudsaklig raster-scan, z-kurva eller spiral-ordning. När de diskreta tokenen var plattade, extraherade AR-modellerna en uppsättning sekvenser från datamängden, och tränade sedan en autoregressiv modell för att maximera sannolikheten i produkten av T villkorliga sannolikheter med hjälp av nästa-token-prediktion.

Visuell-AutoRegressiv Modellering via Nästa-Skala-Prediktion

VAR-ramverket omkonceptualiserar den autoregressiva modelleringen på bilder genom att skifta från nästa-token-prediktion till nästa-skala-prediktion, en process under vilken den autoregressiva enheten inte är en enskild token, utan en hel token-karta. Modellen kvantiserar först funktionen i multi-skala-token-kartor, var och en med en högre upplösning än den föregående, och kulminerar genom att matcha upplösningen på de ursprungliga funktionerna. Dessutom utvecklar VAR-ramverket en ny multi-skala-kvantiseringskodare för att koda en bild till multi-skala-diskreta-token-kartor, nödvändiga för VAR-lärande. VAR-ramverket använder samma arkitektur som VQGAN, men med en modifierad multi-skala-kvantiseringslager, med algoritmerna som visas i följande bild.

Visuell AutoRegressiv : Resultat och Experiment

VAR-ramverket använder den vanliga VQVAE-arkitekturen med en multi-skala-kvantiseringschema med K extra konvolution, och använder en delad kodbook för alla skalor och en latent dim på 32. Den primära fokus ligger på VAR-algoritmen, vilket gör att modellarkitekturdesignen hålls enkel men effektiv. Ramverket antar arkitekturen för en standard decoder-only-transformator, liknande de som implementerats på GPT-2-modeller, med den enda modifieringen att traditionell lager-normalisering ersätts med adaptiv normalisering eller AdaLN. För klass-villkorsbetingad syntes implementerar VAR-ramverket klass-inbäddningar som start-token, och även villkoret för den adaptiva normaliseringslagret.

State of the Art Bildgenereringsresultat

När jämfört med befintliga generativa ramverk, inklusive GAN eller Generativa Adversarial Networks, BERT-liknande maskerade förutsägelsemodeller, diffusionsmodeller och GPT-liknande autoregressiva modeller, visar Visuell AutoRegressiv ramverk lovande resultat som sammanfattas i följande tabell.

Som det kan observeras är Visuell AutoRegressiv ramverk inte bara i stånd att överträffa FID och IS-poäng, utan det visar också remarkabel bildgenereringshastighet, jämförbar med state-of-the-art-modeller. Dessutom visar VAR-ramverket också tillfredsställande precision och återkallningspoäng, vilket bekräftar dess semantiska konsekvens. Men den riktiga överraskningen är den remarkabla prestationen som levereras av VAR-ramverket på traditionella AR-förmågor-uppgifter, vilket gör det till den första autoregressiva modellen som överträffar en Diffusion Transformer-modell, som visas i följande tabell.

Nollskottsuppgiftsgeneraliseringsresultat

För in- och ut-painting-uppgifter tvingar VAR-ramverket grundvärdetoken utanför masken, och låter modellen generera endast tokenen inom masken, utan någon klass-etikettinformation injiceras i modellen. Resultaten visas i följande bild, och som det kan ses, uppnår VAR-modellen acceptabla resultat på nedströmsuppgifter utan att justera parametrar eller modifiera nätverksarkitekturen, vilket visar generaliserbarheten hos VAR-ramverket.

Slutliga Tankar

I den här artikeln har vi talat om ett nytt visuellt generativt ramverk som kallas Visuell AutoRegressiv modellering (VAR) som 1) teoretiskt behandlar vissa problem som är inneboende i standardbild-AR-modeller, och 2) gör språkmodellbaserade AR-modeller för första gången överträffa starka diffusionsmodeller i termer av bildkvalitet, mångfald, dataeffektivitet och inferenshastighet. Å ena sidan kräver traditionella autoregressiva modeller en definierad ordning av data, medan å andra sidan Visuell AutoRegressiv eller VAR-modellen omprövar hur man beställer en bild, och detta är vad som skiljer VAR från befintliga AR-metoder. När VAR skalas upp till 2 miljarder parametrar observerade utvecklarna av VAR-ramverket en tydlig kraftlagssrelation mellan testprestanda och modellparametrar eller utbildningsberäkning, med Pearsons koefficienter som närmar sig −0,998, vilket indikerar ett robust ramverk för prestandaprediktion. Dessa skalningslagar och möjligheten för nollskottsuppgiftsgeneralisering, som kännetecken för LLM, har nu initialt bekräftats i våra VAR-transformator-modeller.