Kunstmatige intelligentie

Visuele Autoregressieve Modellering: Schaalbare Afbeeldingsgeneratie via Next-Scale Voorspelling

Published April 10, 2024

Updated April 4, 2026

Kunal Kejriwal

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

De komst van GPT-modellen, samen met andere autoregressieve of AR-grote taalmodellen, heeft een nieuwe epoch in het veld van machine learning en kunstmatige intelligentie ontsloten. GPT en autoregressieve modellen vertonen vaak algemene intelligentie en veelzijdigheid die als een significante stap naar algemene kunstmatige intelligentie of AGI worden beschouwd, ondanks enkele problemen zoals hallucinaties. Het puzzelende probleem met deze grote modellen is echter een zelfsupervised learning-strategie die de model in staat stelt de volgende token in een sequentie te voorspellen, een eenvoudige maar effectieve strategie. Recent onderzoek heeft de succesvolle toepassing van deze grote autoregressieve modellen aangetoond, waarbij hun generaliseerbaarheid en schaalbaarheid worden benadrukt. Schaalbaarheid is een typisch voorbeeld van de bestaande schaalwetten die onderzoekers in staat stellen de prestaties van een groot model te voorspellen op basis van de prestaties van kleinere modellen, waardoor een betere allocatie van middelen mogelijk wordt. Aan de andere kant wordt generaliseerbaarheid vaak aangetoond door leerstrategieën zoals zero-shot, one-shot en few-shot learning, waarbij de mogelijkheid van onbegeleide maar getrainde modellen om zich aan te passen aan diverse en ongeziene taken wordt benadrukt. Samen onthullen generaliseerbaarheid en schaalbaarheid het potentieel van autoregressieve modellen om te leren van een grote hoeveelheid ongelabelde gegevens.

Op basis van het bovenstaande zullen we in dit artikel spreken over Visuele Autoregressieve of de VAR-structuur, een nieuw generatiepatroon dat autoregressief leren op afbeeldingen herdefinieert als een grof-tot-fijn “next-resolutievoorspelling” of “next-schaalvoorspelling”. Hoewel eenvoudig, is de benadering effectief en stelt autoregressieve transformatoren in staat visuele distributies beter te leren en generaliseerbaarheid te verbeteren. Bovendien stellen Visuele Autoregressieve modellen GPT-achtige autoregressieve modellen in staat om diffusietransformatoren in afbeeldingsgeneratie voor het eerst te overtreffen. Experimenten geven ook aan dat de VAR-structuur de autoregressieve basismodellen aanzienlijk verbetert en de Diffusie-Transformatoren of DiT-structuur in meerdere dimensies overtreft, waaronder gegevensefficiëntie, afbeeldingskwaliteit, schaalbaarheid en inferentiesnelheid. Bovendien toont het opschalen van Visuele Autoregressieve modellen kracht-wet-schaalwetten die vergelijkbaar zijn met die welke worden waargenomen bij grote taalmodellen en toont ook zero-shot-generalisatievermogen in downstream-taken, waaronder bewerken, inkleuren en uitkleuren.

Dit artikel heeft als doel de Visuele Autoregressieve structuur diepgaand te behandelen en we zullen de mechanisme, de methodologie, de architectuur van de structuur en de vergelijking met state-of-the-art-structuren onderzoeken. We zullen ook spreken over hoe de Visuele Autoregressieve structuur twee belangrijke eigenschappen van LLM’s vertoont: schaalwetten en zero-shot-generalisatie. Laten we beginnen.

Visuele Autoregressieve Modellering: Schaalbare Afbeeldingsgeneratie

Een gemeenschappelijk patroon onder recente grote taalmodellen is de implementatie van een zelfsupervised learning-strategie, een eenvoudige maar effectieve benadering die de volgende token in de sequentie voorspelt. Dankzij deze benadering hebben autoregressieve en grote taalmodellen vandaag de dag aanzienlijke schaalbaarheid en generaliseerbaarheid aangetoond, eigenschappen die het potentieel van autoregressieve modellen om te leren van een grote hoeveelheid ongelabelde gegevens onthullen en zo de essentie van Algemene Kunstmatige Intelligentie samenvatten. Bovendien hebben onderzoekers op het gebied van computerzien parallel gewerkt aan de ontwikkeling van grote autoregressieve of wereldmodellen met als doel hun indrukwekkende schaalbaarheid en generaliseerbaarheid te evenaren of te overtreffen, met modellen zoals DALL-E en VQGAN die al het potentieel van autoregressieve modellen in het veld van afbeeldingsgeneratie hebben aangetoond. Deze modellen implementeren vaak een visuele tokenizer die continue afbeeldingen benadert of approximeert in een grid van 2D-tokens, die vervolgens worden platgelegd in een 1D-sequentie voor autoregressief leren, waarmee het sequentiële taalmodelleringproces wordt gemodelleerd.

Onderzoekers hebben echter nog niet de schaalwetten van deze modellen onderzocht en wat nog frustrerender is, is het feit dat de prestaties van deze modellen vaak achterblijven bij diffusiemodellen met een significante marge, zoals wordt aangetoond in de onderstaande afbeelding. De prestatieverschillen geven aan dat, in vergelijking met grote taalmodellen, de mogelijkheden van autoregressieve modellen in computerzien onvoldoende worden onderzocht.

Enerzijds vereisen traditionele autoregressieve modellen een gedefinieerde volgorde van gegevens, terwijl anderzijds de Visuele Autoregressieve of de VAR-modellen opnieuw bekijken hoe een afbeelding moet worden besteld, en dit is wat de VAR onderscheidt van bestaande AR-methoden. Typisch creëren mensen een afbeelding op een hiërarchische manier, waarbij eerst de globale structuur en vervolgens de lokale details worden vastgelegd, een multi-schaal, grof-tot-fijn benadering die een natuurlijke volgorde voor de afbeelding suggereert. Verder, door inspiratie te putten uit multi-schaalontwerpen, definieert de VAR-structuur autoregressief leren voor afbeeldingen als next-schaalvoorspelling, in tegenstelling tot conventionele benaderingen die het leren definiëren als next-tokenvoorspelling. De benadering die door de VAR-structuur wordt geïmplementeerd, begint met het coderen van een afbeelding in multi-schaal tokenkaarten. De structuur begint vervolgens het autoregressieve proces vanaf de 1×1 tokenkaart en breidt deze progressief uit in resolutie. Op elk moment voorspelt de transformatie de volgende hogere resolutie tokenkaart, voorwaardelijk op alle voorgaande, een methodologie die de VAR-structuur VAR-modellering noemt.

De VAR-structuur probeert de transformatiearchitectuur van GPT-2 te benutten voor visueel autoregressief leren en de resultaten zijn zichtbaar op de ImageNet-benchmark, waar de VAR-modellen de AR-basismodellen aanzienlijk verbeteren, een FID van 1,80 en een inceptiescore van 356 behalen, evenals een 20-voudige verbetering van de inferentiesnelheid. Wat nog interessanter is, is dat de VAR-structuur erin slaagt de prestaties van de DiT- of Diffusie-Transformatoren-structuur te overtreffen in termen van FID- en IS-scores, schaalbaarheid, inferentiesnelheid en gegevensefficiëntie. Bovendien vertoont de Visuele Autoregressieve modellen sterke schaalwetten die vergelijkbaar zijn met die welke worden waargenomen bij grote taalmodellen.

Om samen te vatten, probeert de VAR-structuur de volgende bijdragen te leveren.

Het voorstelt een nieuwe visuele generatieve structuur die een multi-schaal autoregressieve benadering met next-schaalvoorspelling gebruikt, in tegenstelling tot de traditionele next-tokenvoorspelling, waardoor het autoregressieve algoritme voor computerzien-taken wordt ontworpen.
Het probeert de schaalwetten voor autoregressieve modellen te valideren, evenals het zero-shot-generalisatiepotentieel dat de aantrekkelijke eigenschappen van LLM’s imiteert.
Het biedt een doorbraak in de prestaties van visuele autoregressieve modellen, waardoor GPT-achtige autoregressieve structuren bestaande diffusiemodellen in afbeeldingssynthese-taken voor het eerst overtreffen.

Bovendien is het ook essentieel om de bestaande kracht-wet-schaalwetten te bespreken die wiskundig de relatie tussen gegevensgroottes, modelparameters, prestatieverbeteringen en computationele middelen van machine learning-modellen beschrijven. Ten eerste faciliteren deze kracht-wet-schaalwetten de toepassing van een groter model door de modelgrootte, computationele kosten en gegevensgrootte op te schalen, waardoor onnodige kosten worden bespaard en de trainingsbegroting wordt toegewezen door principes te bieden. Ten tweede hebben schaalwetten een consistente en niet-verzadigende toename van de prestaties aangetoond. Verdergaand met de principes van schaalwetten in neurale taalmodellen, belichamen verschillende LLM’s het principe dat het vergroten van de schaal van modellen leidt tot verbeterde prestatieresultaten. Zero-shot-generalisatie daarentegen verwijst naar de mogelijkheid van een model, met name een LLM, om taken uit te voeren die het niet expliciet is getraind. Binnen het domein van computerzien is er interesse in het opbouwen van zero-shot- en in-contextleerbaarheid van foundation-modellen.

Taalmodellen vertrouwen op WordPiece-algoritmen of Byte Pair Encoding-benaderingen voor teksttokenisatie. Visuele generatie-modellen op basis van taalmodellen vertrouwen zwaar op het coderen van 2D-afbeeldingen in 1D-tokensequentie. Vroege werken zoals VQVAE toonden de mogelijkheid aan om afbeeldingen te representeren als discrete tokens met matige reconstructiekwaliteit. De opvolger van VQVAE, de VQGAN-structuur, incorporeerde perceptuele en adversarial verliezen om de afbeeldingskwaliteit te verbeteren en gebruikte ook een decoder-only-transformatie om afbeeldingstokens in een standaard raster-scan-autoregressieve manier te genereren. Diffusiemodellen daarentegen zijn lange tijd beschouwd als de koplopers voor visuele synthese-taken vanwege hun diversiteit en superieure generatiekwaliteit. De vooruitgang van diffusiemodellen is gericht op het verbeteren van steekproeftechnieken, architecturale verbeteringen en snellere steekproeven. Latente diffusiemodellen passen diffusie toe in de latent ruimte, waardoor de trainings- en inferentie-efficiëntie wordt verbeterd. Diffusie-Transformatoren vervangen de traditionele U-Net-architectuur door een transformatie-gebaseerde architectuur en zijn geïmplementeerd in recente afbeeldings- of videosynthese-modellen zoals SORA en Stable Diffusion.

Visuele Autoregressief: Methodologie en Architectuur

In zijn kern heeft de VAR-structuur twee discrete trainingsfasen. In de eerste fase codeert een multi-schaal-gequantificeerde autoencoder of VQVAE een afbeelding in tokenkaarten en wordt een samengestelde reconstructieverlies geïmplementeerd voor trainingsdoeleinden. In de bovenstaande afbeelding wordt “embedding” gebruikt om discrete tokens om te zetten in continue embedding-vectoren. In de tweede fase wordt de transformatie in de VAR-modellen getraind door het cross-entropieverlies te minimaliseren of door de waarschijnlijkheid te maximaliseren met de next-schaalvoorspelling-benadering. De getrainde VQVAE produceert vervolgens de tokenkaart-grondwaarheid voor de VAR-structuur.

Autoregressief Modellering via Next-Token Voorspelling

Voor een gegeven sequentie van discrete tokens, waarbij elke token een geheel getal is uit een vocabulaire van grootte V, stelt het next-token-autoregressieve model voor dat de waarschijnlijkheid van het observeren van de huidige token afhankelijk is van zijn prefix. Aannemend dat er een unidirectionele token-afhankelijkheid is, stelt de VAR-structuur voor dat de kans op de sequentie kan worden afgebroken in het product van conditionele waarschijnlijkheden. Het trainen van een autoregressief model houdt in dat het model wordt geoptimaliseerd over een dataset en dit optimalisatieproces wordt next-token voorspelling genoemd, waardoor het getrainde model in staat is om nieuwe sequenties te genereren. Bovendien zijn afbeeldingen 2D-continue signalen van nature en om de autoregressieve modellering-benadering op afbeeldingen toe te passen via het next-token-voorspelling-optimalisatieproces, zijn enkele voorwaarden nodig. Ten eerste moet de afbeelding worden getokeniseerd in discrete tokens. Gewoonlijk wordt een gequantificeerde autoencoder geïmplementeerd om de afbeeldingsfunctiekaart om te zetten in discrete tokens. Ten tweede moet een 1D-volgorde van tokens worden gedefinieerd voor unidirectioneel modelleren.

De afbeeldingstokens in discrete tokens worden gerangschikt in een 2D-grid en, in tegenstelling tot natuurlijke taalzinnen die van nature een links-naar-rechts-volgorde hebben, moet de volgorde van afbeeldingstokens expliciet worden gedefinieerd voor unidirectioneel autoregressief leren. Eerdere autoregressieve benaderingen hebben de 2D-grid van discrete tokens platgelegd in een 1D-sequentie met methoden zoals row-major raster-scan, z-curve of spiral-volgorde. Zodra de discrete tokens waren platgelegd, hebben de AR-modellen een set sequenties uit de dataset geëxtraheerd en vervolgens een autoregressief model getraind om de waarschijnlijkheid te maximaliseren in het product van T conditionele waarschijnlijkheden met next-token voorspelling.

Visueel-Autoregressief Modellering via Next-Schaal Voorspelling

De VAR-structuur reconceptualiseert het autoregressieve modellering op afbeeldingen door over te schakelen van next-token voorspelling naar next-schaalvoorspelling-benadering, een proces waarbij in plaats van een enkele token, de autoregressieve eenheid een hele tokenkaart is. Het model codeert eerst de functiekaart in multi-schaal tokenkaarten, elk met een hogere resolutie dan de vorige, en eindigt met het bereiken van de resolutie van de oorspronkelijke functiekaarten. Bovendien ontwikkelt de VAR-structuur een nieuwe multi-schaal-quantificatie-encoder om een afbeelding om te zetten in multi-schaal discrete tokenkaarten, noodzakelijk voor het VAR-lernen. De VAR-structuur gebruikt dezelfde architectuur als VQGAN, maar met een gemodificeerde multi-schaal-quantificatielaag, met de algoritmen die in de onderstaande afbeelding worden getoond.

Visuele Autoregressief: Resultaten en Experimenten

De VAR-structuur gebruikt de vanilla VQVAE-architectuur met een multi-schaal-quantificatieschema met K extra convolutie en gebruikt een gedeelde codebook voor alle schalen en een latent dimensie van 32. De primaire focus ligt op het VAR-algoritme, waardoor de modelarchitectuurontwerp eenvoudig maar effectief wordt gehouden. De structuur neemt de architectuur van een standaard decoder-only-transformatie over, vergelijkbaar met die welke op GPT-2-modellen wordt geïmplementeerd, met als enige modificatie het vervangen van traditionele layer-normalisatie voor adaptieve normalisatie of AdaLN. Voor klasse-conditionele synthese implementeert de VAR-structuur de klasse-embeddings als starttoken en ook de conditie van de adaptieve normalisatielaag.

State-of-the-Art Afbeeldingsgeneratie Resultaten

Wanneer vergeleken met bestaande generatieve structuren, waaronder GAN’s of Generatieve Adversarial Netwerken, BERT-achtige gemaskerde voorspellingsmodellen, diffusiemodellen en GPT-achtige autoregressieve modellen, toont de Visuele Autoregressieve structuur veelbelovende resultaten, samengevat in de onderstaande tabel.

Zoals te zien is, is de Visuele Autoregressieve structuur niet alleen in staat om de beste FID- en IS-scores te behalen, maar toont het ook opmerkelijke afbeeldingsgeneratiesnelheid, vergelijkbaar met state-of-the-art-modellen. Bovendien toont de VAR-structuur ook bevredigende precisie- en herroepingscores, wat de semantische consistentie bevestigt. Maar de echte verrassing is de opmerkelijke prestatie die door de VAR-structuur wordt geleverd op traditionele AR-mogelijkheden, waardoor het de eerste autoregressieve modellen zijn die een Diffusie-Transformatoren-model overtreffen, zoals wordt aangetoond in de onderstaande tabel.

Zero-Shot Taak Generalisatie Resultaat

Voor in- en uitkleur-taken forceert de VAR-structuur de grondwaarheidstokens buiten de masker en laat het model alleen de tokens binnen de masker genereren, zonder enige klasse-labelinformatie in het model te injecteren. De resultaten worden getoond in de onderstaande afbeelding en, zoals te zien is, behaalt de VAR-modellen aanvaardbare resultaten op downstream-taken zonder parameters aan te passen of de netwerkarchitectuur te modificeren, waardoor de generaliseerbaarheid van de VAR-structuur wordt aangetoond.

Slotgedachten

In dit artikel hebben we gesproken over een nieuwe visuele generatieve structuur genaamd Visuele Autoregressieve modellering (VAR) die 1) theoretisch enkele problemen inherent aan standaard afbeeldingsautoregressieve (AR) modellen aanpakt en 2) taalmodel-gebaseerde AR-modellen voor het eerst in staat stelt om sterke diffusiemodellen te overtreffen in termen van afbeeldingskwaliteit, diversiteit, gegevensefficiëntie en inferentiesnelheid. Enerzijds vereisen traditionele autoregressieve modellen een gedefinieerde volgorde van gegevens, terwijl anderzijds de Visuele Autoregressieve of de VAR-modellen opnieuw bekijken hoe een afbeelding moet worden besteld, en dit is wat de VAR onderscheidt van bestaande AR-methoden. Bij het opschalen van de VAR naar 2 miljard parameters, hebben de ontwikkelaars van de VAR-structuur een duidelijke kracht-wet-relatie tussen testprestaties en modelparameters of trainingsberekeningen waargenomen, met Pearsons-coëfficiënten die dicht bij −0,998 liggen, wat een robuuste structuur voor prestatievoorspelling aangeeft. Deze schaalwetten en de mogelijkheid voor zero-shot-taakgeneralisatie, als kenmerken van LLM’s, zijn nu voor het eerst in onze VAR-transformatiemodellen bevestigd.

Kunal Kejriwal

Een ingenieur van beroep, een schrijver van hart. Kunal is een technisch schrijver met een diepe liefde en begrip voor AI en ML, toegewijd aan het vereenvoudigen van complexe concepten in deze gebieden door middel van zijn boeiende en informatieve documentatie.