stomp Visuele outoregressiewe modellering: skaalbare beeldgenerering via volgende skaalvoorspelling - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Visuele outoregressiewe modellering: skaalbare beeldgenerering via volgende skaalvoorspelling

mm

Gepubliseer

 on

Visuele outoregressiewe modellering: skaalbare beeldgenerering via volgende skaalvoorspelling

Die koms van GPT-modelle, saam met ander outoregressiewe of AR-groottaalmodelle, het 'n nuwe epog op die gebied van masjienleer en kunsmatige intelligensie ontplooi. GPT en outoregressiewe modelle vertoon dikwels algemene intelligensie en veelsydigheid wat beskou word as 'n beduidende stap in die rigting van algemene kunsmatige intelligensie of AGI, ten spyte van 'n paar probleme soos hallusinasies. Die raaiselagtige probleem met hierdie groot modelle is egter 'n self-toesig leerstrategie wat die model toelaat om die volgende teken in 'n volgorde te voorspel, 'n eenvoudige dog effektiewe strategie. Onlangse werke het die sukses van hierdie groot outoregressiewe modelle getoon, wat hul veralgemeenbaarheid en skaalbaarheid beklemtoon. Skaalbaarheid is 'n tipiese voorbeeld van die bestaande skaalwette wat navorsers in staat stel om die werkverrigting van die groot model uit die werkverrigting van kleiner modelle te voorspel, wat lei tot beter toewysing van hulpbronne. Aan die ander kant word veralgemeenbaarheid dikwels bewys deur leerstrategieë soos nulskoot-, eenskoot- en minskootleer, wat die vermoë van sonder toesig dog opgeleide modelle beklemtoon om by diverse en onsigbare take aan te pas. Saam onthul veralgemeenbaarheid en skaalbaarheid die potensiaal van outoregressiewe modelle om uit 'n groot hoeveelheid ongemerkte data te leer. 

Voortbou op dieselfde, in hierdie artikel, sal ons praat oor Visual AutoRegressive of die VAR-raamwerk, 'n nuwe generasie patroon wat outoregressiewe leer op beelde herdefinieer as grof-tot-fyn "volgende-resolusie voorspelling" of "volgende-skaal voorspelling" . Alhoewel dit eenvoudig is, is die benadering effektief en laat outoregressiewe transformators visuele verspreidings beter aanleer, en verbeterde veralgemeenbaarheid. Verder stel die Visual AutoRegressive-modelle GPT-styl outoregressiewe modelle in staat om diffusie-oordragte in beeldgenerering vir die eerste keer te oortref. Eksperimente dui ook aan dat die VAR-raamwerk die outoregressiewe basislyne aansienlik verbeter, en beter as die Diffusion Transformer of DiT-raamwerk presteer in verskeie dimensies, insluitend data-doeltreffendheid, beeldkwaliteit, skaalbaarheid en afleidingspoed. Verder, die opskaling van die Visuele OutoRegressiewe modelle demonstreer krag-wet-skaalwette soortgelyk aan dié wat met groot taalmodelle waargeneem word, en vertoon ook nulskoot veralgemeningsvermoë in stroomaf take insluitend redigering, in-verf en uitverf. 

Hierdie artikel het ten doel om die Visuele OutoRegressiewe raamwerk in diepte te dek, en ons ondersoek die meganisme, die metodologie, die argitektuur van die raamwerk tesame met die vergelyking daarvan met moderne raamwerke. Ons sal ook praat oor hoe die Visuele OutoRegressiewe raamwerk twee belangrike eienskappe van LLM's demonstreer: Skaalwette en nulskoot veralgemening. So kom ons begin.

Visuele outoregressiewe modellering: skaalbeeldgenerering

'n Algemene patroon onder onlangse groot taalmodelle is die implementering van 'n self-toesig leerstrategie, 'n eenvoudige dog effektiewe benadering wat die volgende teken in die volgorde voorspel. Danksy die benadering het outoregressiewe en groottaalmodelle vandag merkwaardige skaalbaarheid sowel as veralgemeenbaarheid getoon, eienskappe wat die potensiaal van outoregressiewe modelle openbaar om uit 'n groot poel ongemerkte data te leer, wat dus die essensie van Algemene Kunsmatige Intelligensie opsom. Verder het navorsers in die rekenaarvisie-veld parallel gewerk om groot outoregressiewe of wêreldmodelle te ontwikkel met die doel om hul indrukwekkende skaalbaarheid en veralgemeenbaarheid te pas of te oortref, met modelle soos DALL-E en VQGAN wat reeds die potensiaal van outoregressiewe modelle in die veld demonstreer van beeldgenerering. Hierdie modelle implementeer dikwels 'n visuele tokenizer wat kontinue beelde voorstel of benader in 'n rooster van 2D-tokens, wat dan in 'n 1D-reeks afgeplat word vir outoregressiewe leer, en sodoende die opeenvolgende taalmodelleringsproses weerspieël. 

Navorsers moet egter nog die skaalwette van hierdie modelle ondersoek, en wat meer frustrerend is, is die feit dat die werkverrigting van hierdie modelle dikwels met 'n beduidende marge agter diffusiemodelle val, soos gedemonstreer in die volgende prent. Die gaping in prestasie dui aan dat in vergelyking met groot taalmodelle, die vermoëns van outoregressiewe modelle in rekenaarvisie onderontgin word. 

Aan die een kant vereis tradisionele outoregressiewe modelle 'n gedefinieerde volgorde van data, terwyl die Visual AutoRegressive of die VAR-model aan die ander kant heroorweeg hoe om 'n beeld te bestel, en dit is wat die VAR van bestaande AR-metodes onderskei. Tipies skep of neem mense 'n beeld op 'n hiërargiese manier waar, en neem die globale struktuur vas, gevolg deur die plaaslike besonderhede, 'n multi-skaal, grof-tot-fyn benadering wat 'n natuurlike volgorde vir die beeld voorstel. Verder, met inspirasie uit multi-skaal ontwerpe, definieer die VAR-raamwerk outoregressiewe leer vir beelde as volgende skaal voorspelling in teenstelling met konvensionele benaderings wat die leer definieer as volgende token voorspelling. Die benadering wat deur die VAR-raamwerk geïmplementeer word, begin deur 'n beeld in multiskaal tekenkaarte te enkodeer. Die raamwerk begin dan die outoregressiewe proses vanaf die 1×1-tekenkaart, en brei progressief uit in resolusie. By elke stap voorspel die transformator die volgende tokenkaart met hoër resolusie gekondisioneer op al die voriges, 'n metodologie waarna die VAR-raamwerk verwys as VAR-modellering. 

Die VAR-raamwerk poog om die transformator-argitektuur van GPT-2 vir visuele outoregressiewe leer te benut, en die resultate is duidelik op die ImageNet-maatstaf waar die VAR-model sy AR-basislyn aansienlik verbeter, met 'n FID van 1.80 en 'n begintelling van 356 saam. met 'n 20x verbetering in die afleidingspoed. Wat meer interessant is, is dat die VAR-raamwerk daarin slaag om die prestasie van die DiT- of Diffusion Transformer-raamwerk te oortref in terme van FID- en IS-tellings, skaalbaarheid, afleidingspoed en datadoeltreffendheid. Verder vertoon die Visual AutoRegressive-model sterk skaalwette soortgelyk aan dié wat in groot taalmodelle gesien word. 

Om dit op te som, die VAR-raamwerk poog om die volgende bydraes te maak. 

  1. Dit stel 'n nuwe visuele generatiewe raamwerk voor wat 'n multi-skaal outoregressiewe benadering gebruik met volgende skaal voorspelling, in teenstelling met die tradisionele volgende-token voorspelling, wat lei tot die ontwerp van die outoregressiewe algoritme vir rekenaarvisie take. 
  2. Dit poog om skaalwette vir outoregressiewe modelle te bekragtig tesame met nul-skoot veralgemeningspotensiaal wat die aantreklike eienskappe van LLM's naboots. 
  3. Dit bied 'n deurbraak in die werkverrigting van visuele outoregressiewe modelle, wat die GPT-styl outoregressiewe raamwerke in staat stel om bestaande te oortref diffusie modelle vir die eerste keer ooit in beeldsintese-take. 

Verder is dit ook noodsaaklik om die bestaande kragwet-skaalwette te bespreek wat die verband tussen datastelgroottes, modelparameters, prestasieverbeterings en berekeningshulpbronne van masjienleermodelle wiskundig beskryf. Eerstens fasiliteer hierdie krag-wet-skaalwette die toepassing van 'n groter model se prestasie deur die modelgrootte, berekeningskoste en datagrootte op te skaal, onnodige koste te bespaar en die opleidingsbegroting toe te ken deur beginsels te verskaf. Tweedens het skaalwette 'n konsekwente en nie-versadigende toename in prestasie getoon. Om vorentoe te beweeg met die beginsels van skaalwette in neurale taalmodelle, beliggaam verskeie LLM's die beginsel dat die verhoging van die skaal van modelle geneig is om verbeterde prestasie-uitkomste te lewer. Zero-shot veralgemening aan die ander kant verwys na die vermoë van 'n model, veral 'n LLM wat take verrig waarop dit nie eksplisiet opgelei is nie. Binne die rekenaarvisiedomein, die belangstelling in die inbou van nulskoot- en in-konteksleervermoëns van grondslagmodelle. 

Taalmodelle maak staat op WordPiece-algoritmes of Byte Pair Encoding-benadering vir tekstokenisering. Visuele generasiemodelle gebaseer op taalmodelle maak ook baie staat op die enkodering van 2D-beelde in 1D-tekenreekse. Vroeë werke soos VQVAE het die vermoë gedemonstreer om beelde as diskrete tekens met matige rekonstruksiekwaliteit voor te stel. Die opvolger van VQVAE, die VQGAN-raamwerk, het perseptuele en teenstrydige verliese ingesluit om beeldgetrouheid te verbeter, en het ook 'n dekodeerder-net-transformator gebruik om beeldtokens op standaard raster-skandering outoregressiewe wyse te genereer. Diffusiemodelle aan die ander kant is lank reeds beskou as die voorlopers vir visuele sintese take, mits hul diversiteit en voortreflike generasie kwaliteit. Die bevordering van diffusiemodelle is gesentreer rondom die verbetering van steekproeftegnieke, argitektoniese verbeterings en vinniger steekproefneming. Latente diffusiemodelle pas diffusie toe in die latente ruimte wat die opleidingsdoeltreffendheid en afleiding verbeter. Diffusie-transformator-modelle vervang die tradisionele U-Net-argitektuur met 'n transformator-gebaseerde argitektuur, en dit is ontplooi in onlangse beeld- of videosintese-modelle soos SORA, en Stabiele verspreiding

Visuele outoregressief: metodologie en argitektuur

In sy kern het die VAR-raamwerk twee diskrete opleidingstadia. In die eerste fase kodeer 'n multi-skaal gekwantiseerde outo-enkodeerder of VQVAE 'n beeld in tekenkaarte, en saamgestelde rekonstruksieverlies word geïmplementeer vir opleidingsdoeleindes. In die bostaande figuur is inbedding 'n woord wat gebruik word om die omskakeling van diskrete tekens in deurlopende inbeddingsvektore te definieer. In die tweede fase word die transformator in die VAR-model opgelei deur óf die kruis-entropieverlies te minimaliseer óf deur die waarskynlikheid te maksimeer deur die volgende skaal voorspellingsbenadering te gebruik. Die opgeleide VQVAE produseer dan die tokenkaartgrondwaarheid vir die VAR-raamwerk. 

Outoregressiewe modellering via Next-Token Prediction

Vir 'n gegewe volgorde van diskrete tekens, waar elke teken 'n heelgetal uit 'n woordeskat van grootte V is, stel die volgende-teken outoregressiewe model voor dat die waarskynlikheid om die huidige teken waar te neem slegs van sy voorvoegsel afhang. Die veronderstelling van eenrigting-tekenafhanklikheid laat die VAR-raamwerk toe om die kanse op volgorde te ontbind in die produk van voorwaardelike waarskynlikhede. Opleiding van 'n outoregressiewe model behels die optimalisering van die model oor 'n datastel, en hierdie optimaliseringsproses staan ​​bekend as volgende teken voorspelling, en laat die opgeleide model toe om nuwe reekse te genereer. Verder is beelde 2D aaneenlopende seine deur oorerwing, en om die outoregressiewe modelleringsbenadering op beelde toe te pas via die volgende-token voorspelling optimeringsproses het 'n paar voorvereistes. Eerstens moet die beeld in verskeie diskrete tekens geteken word. Gewoonlik word 'n gekwantiseerde outo-enkodeerder geïmplementeer om die beeldkenmerkkaart na diskrete tekens om te skakel. Tweedens moet 'n 1D-volgorde van tekens gedefinieer word vir eenrigtingmodellering. 

Die beeldtekens in diskrete tokens word in 'n 2D-rooster gerangskik, en anders as natuurlike taalsinne wat inherent 'n links na regs volgorde het, moet die volgorde van beeldtekens eksplisiet gedefinieer word vir eenrigting outoregressiewe leer. Vorige outoregressiewe benaderings het die 2D-rooster van diskrete tokens in 'n 1D-volgorde afgeplat met metodes soos ry-hoofrasterskandering, z-kurwe of spiraalvolgorde. Sodra die diskrete tokens afgeplat is, het die AR-modelle 'n stel reekse uit die datastel onttrek, en dan 'n outoregressiewe model opgelei om die waarskynlikheid in die produk van T-voorwaardelike waarskynlikhede te maksimeer deur gebruik te maak van volgende-token-voorspelling. 

Visuele-outo-regressiewe modellering via volgende skaalvoorspelling

Die VAR-raamwerk herkonseptualiseer die outoregressiewe modellering op beelde deur van volgende-tekenvoorspelling na volgende-skaalvoorspellingsbenadering te verskuif, 'n proses waarvolgens die outoregressiewe eenheid 'n hele tekenkaart is, in plaas daarvan om 'n enkele teken te wees. Die model kwantifiseer eers die kenmerkkaart in multiskaal tekenkaarte, elk met 'n hoër resolusie as die vorige, en bereik 'n hoogtepunt deur die resolusie van die oorspronklike kenmerkkaarte te pas. Verder ontwikkel die VAR-raamwerk 'n nuwe multi-skaal kwantisering enkodeerder om 'n beeld te enkodeer na multi-skaal diskrete token kaarte, wat nodig is vir die VAR leer. Die VAR-raamwerk gebruik dieselfde argitektuur as VQGAN, maar met 'n gewysigde multi-skaal kwantiseringslaag, met die algoritmes wat in die volgende prent gedemonstreer word. 

Visuele outoregressief: resultate en eksperimente

Die VAR-raamwerk gebruik die vanielje-VQVAE-argitektuur met 'n multi-skaal kwantiseringskema met K ekstra konvolusie, en gebruik 'n gedeelde kodeboek vir alle skale en 'n latente dowwe van 32. Die primêre fokus lê op die VAR-algoritme as gevolg waarvan die modelargitektuurontwerp word eenvoudig maar doeltreffend gehou. Die raamwerk aanvaar die argitektuur van 'n standaard-dekodeerder-alleen-transformator soortgelyk aan dié wat op GPT-2-modelle geïmplementeer is, met die enigste wysiging die vervanging van tradisionele laagnormalisering vir adaptiewe normalisering of AdaLN. Vir klasvoorwaardelike sintese implementeer die VAR-raamwerk die klasinbeddings as die beginteken, en ook die toestand van die aanpasbare normaliseringslaag. 

Gevorderde beeldgenereringresultate

Wanneer gepaard teen bestaande generatiewe raamwerke insluitend GAN'e of Generatiewe Adversariële Netwerke, BERT-styl gemaskerde voorspellingsmodelle, diffusiemodelle en GPT-styl outoregressiewe modelle, toon die Visual AutoRegressive raamwerk belowende resultate wat in die volgende tabel opgesom word. 

Soos dit waargeneem kan word, is die Visual AutoRegressive-raamwerk nie net in staat om die beste FID- en IS-tellings te behaal nie, maar dit demonstreer ook merkwaardige beeldgenereringspoed, vergelykbaar met moderne modelle. Verder handhaaf die VAR-raamwerk ook bevredigende akkuraatheid en herroeptellings, wat die semantiese konsekwentheid daarvan bevestig. Maar die werklike verrassing is die merkwaardige prestasie wat deur die VAR-raamwerk op tradisionele AR-vermoëtake gelewer word, wat dit die eerste outoregressiewe model maak wat beter as 'n Diffusion Transformer-model presteer het, soos in die volgende tabel gedemonstreer. 

Nulskoot-taakveralgemeningsresultaat

Vir in- en uitskildertake dwing die VAR-raamwerkonderwyser die grondwaarheid-tekens buite die masker, en laat die model slegs die tekens binne die masker genereer, sonder dat klasetiketinligting in die model ingespuit word. Die resultate word in die volgende beeld gedemonstreer, en soos gesien kan word, behaal die VAR-model aanvaarbare resultate op stroomaf take sonder om parameters in te stel of die netwerkargitektuur te wysig, wat die veralgemeenbaarheid van die VAR-raamwerk demonstreer. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor 'n nuwe visuele generatiewe raamwerk genaamd Visual AutoRegressive modellering (VAR) wat 1) teoreties sekere kwessies aanspreek wat inherent is aan standaardbeeld outoregressiewe (AR) modelle, en 2) taalmodel-gebaseerde AR-modelle eerste laat oortref sterk diffusiemodelle in terme van beeldkwaliteit, diversiteit, datadoeltreffendheid en afleidingsspoed. Aan die een kant vereis tradisionele outoregressiewe modelle 'n gedefinieerde volgorde van data, terwyl die Visual AutoRegressive of die VAR-model aan die ander kant heroorweeg hoe om 'n beeld te bestel, en dit is wat die VAR van bestaande AR-metodes onderskei. Met die skaal van VAR tot 2 miljard parameters, het die ontwikkelaars van die VAR-raamwerk 'n duidelike kragwetverwantskap tussen toetsprestasie en modelparameters of opleidingsberekening waargeneem, met Pearson-koëffisiënte wat naby -0.998 was, wat 'n robuuste raamwerk vir prestasievoorspelling aandui. Hierdie skaalwette en die moontlikheid vir nulskoottaakveralgemening, as kenmerke van LLM's, is nou aanvanklik in ons VAR-transformatormodelle geverifieer. 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.