stomp Visuele autoregressieve modellering: schaalbare beeldgeneratie via next-scale voorspelling - Unite.AI
Verbind je met ons

Artificial Intelligence

Visuele autoregressieve modellering: schaalbare beeldgeneratie via voorspelling op volgende schaal

mm

gepubliceerd

 on

Visuele autoregressieve modellering: schaalbare beeldgeneratie via voorspelling op volgende schaal

De komst van GPT-modellen, samen met andere autoregressieve of AR-grote taalmodellen, heeft een nieuw tijdperk ingeluid op het gebied van machinaal leren en kunstmatige intelligentie. GPT- en autoregressieve modellen vertonen vaak algemene intelligentie en veelzijdigheid die worden beschouwd als een belangrijke stap in de richting van algemene kunstmatige intelligentie of AGI, ondanks enkele problemen zoals hallucinaties. Het raadselachtige probleem met deze grote modellen is echter een zelfgecontroleerde leerstrategie waarmee het model het volgende token in een reeks kan voorspellen, een eenvoudige maar effectieve strategie. Recent werk heeft het succes van deze grote autoregressieve modellen aangetoond, waarbij hun generaliseerbaarheid en schaalbaarheid worden benadrukt. Schaalbaarheid is een typisch voorbeeld van de bestaande schaalwetten die onderzoekers in staat stellen de prestaties van het grote model te voorspellen op basis van de prestaties van kleinere modellen, wat resulteert in een betere toewijzing van middelen. Aan de andere kant blijkt de generaliseerbaarheid vaak uit leerstrategieën als zero-shot, one-shot en weinig-shot leren, wat het vermogen benadrukt van niet-gecontroleerde maar getrainde modellen om zich aan te passen aan diverse en onzichtbare taken. Samen onthullen generaliseerbaarheid en schaalbaarheid het potentieel van autoregressieve modellen om te leren van een enorme hoeveelheid ongelabelde gegevens. 

Hierop voortbouwend zullen we het in dit artikel hebben over Visual AutoRegressive of het VAR-framework, een patroon van de nieuwe generatie dat autoregressief leren op afbeeldingen opnieuw definieert als grof-naar-fijn ‘voorspelling op de volgende resolutie’ of ‘voorspelling op de volgende schaal’. . Hoewel eenvoudig, is de aanpak effectief en stelt autoregressieve transformatoren in staat visuele distributies beter te leren, en de generaliseerbaarheid te verbeteren. Bovendien zorgen de Visual AutoRegressive-modellen ervoor dat autoregressieve modellen in GPT-stijl voor het eerst diffusieoverdrachten bij het genereren van afbeeldingen kunnen overtreffen. Experimenten geven ook aan dat het VAR-framework de autoregressieve basislijnen aanzienlijk verbetert en beter presteert dan het Diffusion Transformer- of DiT-framework in meerdere dimensies, waaronder data-efficiëntie, beeldkwaliteit, schaalbaarheid en inferentiesnelheid. Verder demonstreert het opschalen van de Visual AutoRegressive-modellen de schaalwetten van de machtswet die vergelijkbaar zijn met die waargenomen bij grote taalmodellen, en toont ook het vermogen tot zero-shot-generalisatie bij stroomafwaartse taken, waaronder bewerken, in-painting en out-painting. 

Dit artikel heeft tot doel het Visual AutoRegressive-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. We zullen ook praten over hoe het Visual AutoRegressive-framework twee belangrijke eigenschappen van LLM's demonstreert: schaalwetten en zero-shot-generalisatie. Dus laten we beginnen.

Visuele autoregressieve modellering: het genereren van afbeeldingen op schaal

Een veel voorkomend patroon bij recente grote taalmodellen is de implementatie van een zelfgestuurde leerstrategie, een eenvoudige maar effectieve aanpak die het volgende token in de reeks voorspelt. Dankzij deze aanpak hebben autoregressieve en grote taalmodellen tegenwoordig opmerkelijke schaalbaarheid en generaliseerbaarheid laten zien, eigenschappen die het potentieel van autoregressieve modellen onthullen om te leren van een grote verzameling ongelabelde gegevens, en daarmee de essentie van algemene kunstmatige intelligentie samenvatten. Bovendien hebben onderzoekers op het gebied van computervisie parallel gewerkt aan de ontwikkeling van grote autoregressieve of wereldmodellen met als doel hun indrukwekkende schaalbaarheid en generaliseerbaarheid te evenaren of te overtreffen, waarbij modellen als DALL-E en VQGAN al het potentieel van autoregressieve modellen in het veld aantonen. van beeldgeneratie. Deze modellen implementeren vaak een visuele tokenizer die continue beelden vertegenwoordigt of benadert in een raster van 2D-tokens, die vervolgens worden afgevlakt tot een 1D-reeks voor autoregressief leren, waardoor het sequentiële taalmodelleringsproces wordt weerspiegeld. 

Onderzoekers moeten de schaalwetten van deze modellen echter nog onderzoeken, en wat nog frustrerender is, is het feit dat de prestaties van deze modellen vaak aanzienlijk achterlopen op diffusiemodellen, zoals blijkt uit de volgende afbeelding. De prestatiekloof geeft aan dat, vergeleken met grote taalmodellen, de mogelijkheden van autoregressieve modellen in computervisie onderbelicht zijn. 

Aan de ene kant vereisen traditionele autoregressieve modellen een gedefinieerde volgorde van gegevens, terwijl aan de andere kant het Visual AutoRegressive- of het VAR-model heroverweegt hoe een afbeelding moet worden geordend, en dit is wat de VAR onderscheidt van bestaande AR-methoden. Doorgaans creëren of waarnemen mensen een beeld op een hiërarchische manier, waarbij ze de globale structuur vastleggen, gevolgd door de lokale details, een meerschalige, grof-naar-fijn benadering die op natuurlijke wijze een volgorde voor het beeld suggereert. Bovendien definieert het VAR-framework, geïnspireerd door ontwerpen op meerdere schaal, autoregressief leren voor afbeeldingen als voorspelling op de volgende schaal, in tegenstelling tot conventionele benaderingen die het leren definiëren als voorspelling van de volgende token. De aanpak die door het VAR-framework wordt geïmplementeerd, begint door een afbeelding te coderen in tokenkaarten op meerdere schaal. Het raamwerk start vervolgens het autoregressieve proces vanaf de 1×1 tokenkaart en breidt zich geleidelijk uit in resolutie. Bij elke stap voorspelt de transformator de volgende tokenkaart met hogere resolutie op basis van alle voorgaande, een methodologie die in het VAR-framework VAR-modellering wordt genoemd. 

Het VAR-framework probeert de transformatorarchitectuur van GPT-2 te benutten voor visueel autoregressief leren, en de resultaten zijn duidelijk zichtbaar in de ImageNet-benchmark, waar het VAR-model zijn AR-basislijn aanzienlijk verbetert, een FID van 1.80 en een inception-score van 356 bereikt. met een 20x verbetering in de inferentiesnelheid. Wat interessanter is, is dat het VAR-framework erin slaagt de prestaties van het DiT- of Diffusion Transformer-framework te overtreffen in termen van FID & IS-scores, schaalbaarheid, inferentiesnelheid en data-efficiëntie. Bovendien vertoont het Visual AutoRegressive-model sterke schaalwetten die vergelijkbaar zijn met die in grote taalmodellen. 

Samenvattend probeert het VAR-framework de volgende bijdragen te leveren. 

  1. Het stelt een nieuw visueel generatief raamwerk voor dat gebruik maakt van een autoregressieve benadering op meerdere schaalniveaus met voorspelling op de volgende schaal, in tegenstelling tot de traditionele voorspelling van de volgende token, resulterend in het ontwerpen van het autoregressieve algoritme voor computervisietaken. 
  2. Het probeert schaalwetten voor autoregressieve modellen te valideren, samen met zero-shot generalisatiepotentieel dat de aantrekkelijke eigenschappen van LLM's emuleert. 
  3. Het biedt een doorbraak in de prestaties van visuele autoregressieve modellen, waardoor de autoregressieve raamwerken in GPT-stijl de bestaande kunnen overtreffen diffusiemodellen voor het eerst ooit in beeldsynthesetaken. 

Bovendien is het ook van vitaal belang om de bestaande schaalwetten van de machtswet te bespreken die op wiskundige wijze de relatie beschrijven tussen datasetgroottes, modelparameters, prestatieverbeteringen en computationele bronnen van machine learning-modellen. In de eerste plaats vergemakkelijken deze schaalwetten van de machtswet de toepassing van de prestaties van een groter model door de modelomvang, de rekenkosten en de gegevensomvang op te schalen, onnodige kosten te besparen en het trainingsbudget toe te wijzen door principes aan te reiken. Ten tweede hebben de schaalwetten een consistente en niet-verzadigende prestatieverbetering aangetoond. Voortbouwend op de principes van schaalwetten in neurale taalmodellen, belichamen verschillende LLM's het principe dat het vergroten van de schaal van modellen doorgaans betere prestatieresultaten oplevert. Zero-shot-generalisatie verwijst daarentegen naar het vermogen van een model, met name een LLM die taken uitvoert waarvoor het niet expliciet is getraind. Binnen het domein van de computervisie, de interesse in het opbouwen van zero-shot en in-context leervermogen van basismodellen. 

Taalmodellen zijn afhankelijk van WordPiece-algoritmen of een Byte Pair Encoding-aanpak voor teksttokenisatie. Visuele generatiemodellen gebaseerd op taalmodellen zijn ook sterk afhankelijk van het coderen van 2D-afbeeldingen in 1D-tokenreeksen. Vroege werken zoals VQVAE demonstreerden het vermogen om afbeeldingen weer te geven als discrete tokens met een matige reconstructiekwaliteit. De opvolger van VQVAE, het VQGAN-framework, integreerde perceptuele en vijandige verliezen om de beeldgetrouwheid te verbeteren, en gebruikte ook een transformator die alleen voor een decoder beschikbaar was om beeldtokens te genereren op een standaard autoregressieve manier van rasterscans. Diffusiemodellen daarentegen worden lange tijd beschouwd als de koplopers op het gebied van visuele synthesetaken, vanwege hun diversiteit en superieure generatiekwaliteit. De vooruitgang van diffusiemodellen is gecentreerd rond het verbeteren van bemonsteringstechnieken, architectonische verbeteringen en snellere bemonstering. Latente diffusiemodellen passen diffusie toe in de latente ruimte die de trainingsefficiëntie en gevolgtrekking verbetert. Diffusion Transformer-modellen vervangen de traditionele U-Net-architectuur door een op transformatoren gebaseerde architectuur, en zijn ingezet in recente beeld- of videosynthesemodellen zoals SORA, en Stabiele diffusie

Visuele autoregressief: methodologie en architectuur

In de kern heeft het VAR-framework twee afzonderlijke trainingsfasen. In de eerste fase codeert een meerschalige gekwantiseerde autoencoder of VQVAE een afbeelding in tokenkaarten, en wordt samengesteld reconstructieverlies geïmplementeerd voor trainingsdoeleinden. In de bovenstaande afbeelding is inbedding een woord dat wordt gebruikt om het omzetten van discrete tokens in continue inbeddingsvectoren te definiëren. In de tweede fase wordt de transformator in het VAR-model getraind door ofwel het kruis-entropieverlies te minimaliseren, ofwel door de waarschijnlijkheid te maximaliseren met behulp van de voorspellingsbenadering op de volgende schaal. De getrainde VQVAE produceert vervolgens de token-map-grondwaarheid voor het VAR-framework. 

Autoregressieve modellering via voorspelling van volgende tokens

Voor een gegeven reeks discrete tokens, waarbij elk token een geheel getal is uit een vocabulaire van grootte V, stelt het autoregressieve model van het volgende token naar voren dat de waarschijnlijkheid van het waarnemen van het huidige token alleen afhangt van het voorvoegsel. Door uit te gaan van unidirectionele tokenafhankelijkheid kan het VAR-framework de kansen op sequentie ontleden in het product van voorwaardelijke kansen. Het trainen van een autoregressief model omvat het optimaliseren van het model voor een dataset, en dit optimalisatieproces staat bekend als voorspelling van het volgende tokenen zorgt ervoor dat het getrainde model nieuwe reeksen kan genereren. Bovendien zijn afbeeldingen door overerving continue 2D-signalen, en om de autoregressieve modelleringsaanpak toe te passen op afbeeldingen via het next-token voorspellingsoptimalisatieproces zijn een aantal vereisten vereist. Eerst moet de afbeelding worden tokenized in verschillende afzonderlijke tokens. Gewoonlijk wordt een gekwantiseerde auto-encoder geïmplementeerd om de afbeeldingskenmerkenkaart om te zetten in discrete tokens. Ten tweede moet een 1D-volgorde van tokens worden gedefinieerd voor unidirectionele modellering. 

De afbeeldingstokens in discrete tokens zijn gerangschikt in een 2D-raster, en in tegenstelling tot zinnen in natuurlijke taal die inherent een volgorde van links naar rechts hebben, moet de volgorde van afbeeldingstokens expliciet worden gedefinieerd voor unidirectioneel autoregressief leren. Eerdere autoregressieve benaderingen hebben het 2D-raster van discrete tokens afgevlakt tot een 1D-reeks met behulp van methoden als rij-major rasterscan, z-curve of spiraalvormige volgorde. Nadat de afzonderlijke tokens waren afgevlakt, haalden de AR-modellen een reeks reeksen uit de dataset en trainden vervolgens een autoregressief model om de waarschijnlijkheid te maximaliseren in het product van T voorwaardelijke kansen met behulp van de voorspelling van de volgende token. 

Visueel-autoregressieve modellering via voorspelling op volgende schaal

Het VAR-framework herconceptualiseert de autoregressieve modellering van afbeeldingen door over te schakelen van next-token-voorspelling naar next-scale-voorspellingsbenadering, een proces waarbij de autoregressieve eenheid in plaats van een enkel token te zijn, een volledige token-kaart is. Het model kwantiseert eerst de featuremap in tokenkaarten op meerdere schaal, elk met een hogere resolutie dan de vorige, en culmineert in het matchen van de resolutie van de originele featuremaps. Bovendien ontwikkelt het VAR-framework een nieuwe multi-schaal kwantisatie-encoder om een ​​afbeelding te coderen naar meerschalige discrete token-kaarten, noodzakelijk voor het VAR-leren. Het VAR-framework maakt gebruik van dezelfde architectuur als VQGAN, maar met een aangepaste kwantiseringslaag op meerdere schalen, waarbij de algoritmen worden gedemonstreerd in de volgende afbeelding. 

Visuele autoregressieve: resultaten en experimenten

Het VAR-framework maakt gebruik van de standaard VQVAE-architectuur met een meerschalig kwantiseringsschema met K extra convolutie, en gebruikt een gedeeld codeboek voor alle schalen en een latente dim van 32. De primaire focus ligt op het VAR-algoritme, waardoor het ontwerp van de modelarchitectuur wordt eenvoudig maar effectief gehouden. Het raamwerk neemt de architectuur over van een standaard-decoder-only transformator vergelijkbaar met degene die zijn geïmplementeerd op GPT-2-modellen, met als enige wijziging de vervanging van traditionele laagnormalisatie door adaptieve normalisatie of AdaLN. Voor voorwaardelijke synthese van klassen implementeert het VAR-framework de klasse-inbedding als starttoken, en ook de toestand van de adaptieve normalisatielaag. 

State-of-the-art resultaten voor het genereren van afbeeldingen

Wanneer gecombineerd met bestaande generatieve raamwerken, waaronder GAN's of generatieve vijandige netwerken, gemaskerde voorspellingsmodellen in BERT-stijl, diffusiemodellen en autoregressieve modellen in GPT-stijl, toont het Visual AutoRegressive-framework veelbelovende resultaten, samengevat in de volgende tabel. 

Zoals u kunt zien, is het Visual AutoRegressive-framework niet alleen in staat om de beste FID- en IS-scores te behalen, maar vertoont het ook een opmerkelijke snelheid voor het genereren van beelden, vergelijkbaar met de modernste modellen. Bovendien handhaaft het VAR-framework ook bevredigende precisie- en herinneringsscores, wat de semantische consistentie ervan bevestigt. Maar de echte verrassing zijn de opmerkelijke prestaties die het VAR-framework levert op het gebied van traditionele AR-capaciteitstaken, waardoor het het eerste autoregressieve model is dat beter presteerde dan een Diffusion Transformer-model, zoals blijkt uit de volgende tabel. 

Resultaat van zero-shot-taakgeneralisatie

Voor in- en uitschildertaken forceert de leraar van het VAR-framework de grondwaarheidstokens buiten het masker, en laat het model alleen de tokens binnen het masker genereren, zonder dat er klasselabelinformatie in het model wordt geïnjecteerd. De resultaten worden gedemonstreerd in de volgende afbeelding, en zoals je kunt zien, behaalt het VAR-model acceptabele resultaten op downstream-taken zonder parameters af te stemmen of de netwerkarchitectuur aan te passen, wat de generaliseerbaarheid van het VAR-framework aantoont. 

Conclusie

In dit artikel hebben we gesproken over een nieuw visueel generatief raamwerk, genaamd Visual AutoRegressive Modeling (VAR), dat 1) theoretisch een aantal problemen aanpakt die inherent zijn aan standaard autoregressieve (AR)-modellen, en 2) ervoor zorgt dat op taalmodellen gebaseerde AR-modellen eerst de sterke diffusiemodellen in termen van beeldkwaliteit, diversiteit, data-efficiëntie en inferentiesnelheid. Aan de ene kant vereisen traditionele autoregressieve modellen een gedefinieerde volgorde van gegevens, terwijl aan de andere kant het Visual AutoRegressive- of het VAR-model heroverweegt hoe een afbeelding moet worden geordend, en dit is wat de VAR onderscheidt van bestaande AR-methoden. Bij het opschalen van VAR naar 2 miljard parameters constateerden de ontwikkelaars van het VAR-framework een duidelijke machtswetrelatie tussen testprestaties en modelparameters of trainingscomputers, waarbij Pearson-coëfficiënten bijna -0.998 naderden, wat wijst op een robuust raamwerk voor prestatievoorspelling. Deze schaalwetten en de mogelijkheid voor zero-shot taakgeneralisatie, als kenmerken van LLM's, zijn nu in eerste instantie geverifieerd in onze VAR-transformatormodellen. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.