stub Immudellar Autoregressiv Viżwali: Ġenerazzjoni ta' Immaġni Skalabbli permezz ta' Tbassir ta' Skala Li jmiss - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Immudellar Autoregressiv Viżwali: Ġenerazzjoni ta' Immaġni Skalabbli permezz ta' Tbassir ta' Skala Li jmiss

mm

ippubblikat

 on

Immudellar Autoregressiv Viżwali: Ġenerazzjoni ta' Immaġni Skalabbli permezz ta' Tbassir ta' Skala Li jmiss

Il-miġja tal-mudelli GPT, flimkien ma 'mudelli oħra ta' lingwa autoregressive jew AR kbar har unfurled epoch ġdida fil-qasam tat-tagħlim tal-magni, u l-intelliġenza artifiċjali. Mudelli GPT u autoregressivi ħafna drabi juru intelliġenza ġenerali u versatilità li huma meqjusa bħala pass sinifikanti lejn intelliġenza artifiċjali ġenerali jew AGI minkejja li għandhom xi kwistjonijiet bħall-alluċinazzjonijiet. Madankollu, il-problema mħawda b'dawn il-mudelli kbar hija strateġija ta 'tagħlim awto-superviżjoni li tippermetti lill-mudell ibassar it-token li jmiss f'sekwenza, strateġija sempliċi iżda effettiva. Xogħlijiet reċenti wrew is-suċċess ta 'dawn il-mudelli awtoregressivi kbar, u enfasizzaw il-ġeneralizzazzjoni u l-iskalabbiltà tagħhom. L-iskalabbiltà hija eżempju tipiku tal-liġijiet tal-iskala eżistenti li tippermetti lir-riċerkaturi jbassru l-prestazzjoni tal-mudell kbir mill-prestazzjoni ta 'mudelli iżgħar, li jirriżulta f'allokazzjoni aħjar tar-riżorsi. Min-naħa l-oħra, il-ġeneralizzazzjoni ħafna drabi hija evidenzjata minn strateġiji ta 'tagħlim bħal tagħlim zero-shot, one-shot u ftit shot, li jenfasizzaw l-abbiltà ta' mudelli mhux sorveljati iżda mħarrġa biex jadattaw għal ħidmiet diversi u li ma jidhrux. Flimkien, il-ġeneralizzazzjoni u l-iskalabbiltà jiżvelaw il-potenzjal ta 'mudelli awtoregressivi biex jitgħallmu minn ammont kbir ta' dejta mhux ittikkettata. 

Nibnu fuq l-istess, f'dan l-artikolu, se nkunu qed nitkellmu dwar Visual AutoRegressive jew il-qafas VAR, mudell ta 'ġenerazzjoni ġdida li tiddefinixxi mill-ġdid it-tagħlim autoregressiv fuq immaġini bħala "tbassir ta' riżoluzzjoni li jmiss" jew "tbassir fuq skala li jmiss" minn oħxon għal fin. . Għalkemm sempliċi, l-approċċ huwa effettiv u jippermetti li transformers awtoregressivi jitgħallmu distribuzzjonijiet viżwali aħjar, u ġeneralizzabbiltà mtejba. Barra minn hekk, il-mudelli Viżwali AutoRegressive jippermettu mudelli awtoregressivi stil GPT biex jaqbżu t-trasferimenti tad-diffużjoni fil-ġenerazzjoni tal-immaġni għall-ewwel darba. L-esperimenti jindikaw ukoll li l-qafas VAR itejjeb il-linji bażi awtoregressivi b'mod sinifikanti, u jegħleb il-qafas tad-Diffusion Transformer jew DiT f'dimensjonijiet multipli inklużi l-effiċjenza tad-dejta, il-kwalità tal-immaġni, l-iskalabbiltà u l-veloċità tal-inferenza. Barra minn hekk, l-iskala tal-mudelli Viżwali AutoRegressive turi liġijiet tal-iskala tal-liġi tal-enerġija simili għal dawk osservati b'mudelli ta 'lingwa kbira, u juri wkoll kapaċità ta' ġeneralizzazzjoni zero-shot f'kompiti downstream inklużi editjar, in-pittura u out-painting. 

Dan l-artikolu għandu l-għan li jkopri l-qafas Viżwali AutoRegressive fil-fond, u nesploraw il-mekkaniżmu, il-metodoloġija, l-arkitettura tal-qafas flimkien mat-tqabbil tiegħu ma 'oqfsa avvanzati. Se nitkellmu wkoll dwar kif il-qafas Viżwali AutoRegressive juri żewġ proprjetajiet importanti ta 'LLMs: Liġijiet ta' Scaling u ġeneralizzazzjoni zero-shot. Mela ejja nibdew.

Immudellar Awtorigressiv Viżwali: Ġenerazzjoni tal-Immaġni Skala

Mudelli komuni fost mudelli lingwistiċi kbar reċenti huwa l-implimentazzjoni ta 'strateġija ta' tagħlim awto-superviżjoni, approċċ sempliċi iżda effettiv li jbassar it-token li jmiss fis-sekwenza. Grazzi għall-approċċ, mudelli autoregressivi u lingwistiċi kbar illum wrew skalabbiltà notevoli kif ukoll ġeneralizzabbiltà, proprjetajiet li jiżvelaw il-potenzjal ta 'mudelli autoregressivi biex jitgħallmu minn ġabra kbira ta' dejta mhux tikkettata, għalhekk tiġbor fil-qosor l-essenza tal-Intelliġenza Artifiċjali Ġenerali. Barra minn hekk, riċerkaturi fil-qasam tal-viżjoni tal-kompjuter ilhom jaħdmu b'mod parallel biex jiżviluppaw mudelli kbar awtoregressivi jew dinjija bil-għan li jqabblu jew jaqbżu l-iskalabbiltà u l-ġeneralizzazzjoni impressjonanti tagħhom, b'mudelli bħal DALL-E u VQGAN diġà juru l-potenzjal ta 'mudelli awtoregressivi fil-qasam. tal-ġenerazzjoni tal-immaġni. Dawn il-mudelli spiss jimplimentaw tokenizer viżwali li jirrappreżentaw jew approssimaw immaġini kontinwi fi grid ta 'tokens 2D, li mbagħad jiġu ċċattjati f'sekwenza 1D għal tagħlim autoregressiv, u b'hekk jirriflettu l-proċess ta' mmudellar tal-lingwa sekwenzjali. 

Madankollu, ir-riċerkaturi għad iridu jesploraw il-liġijiet tal-iskala ta 'dawn il-mudelli, u dak li hu aktar frustranti huwa l-fatt li l-prestazzjoni ta' dawn il-mudelli ta 'spiss taqa' wara mudelli ta 'diffużjoni b'marġni sinifikanti, kif muri fl-immaġni li ġejja. Id-differenza fil-prestazzjoni tindika li meta mqabbla ma 'mudelli lingwistiċi kbar, il-kapaċitajiet ta' mudelli awtoregressivi fil-viżjoni tal-kompjuter mhumiex esplorati biżżejjed. 

Min-naħa waħda, il-mudelli awtoregressivi tradizzjonali jeħtieġu ordni definita tad-dejta, filwaqt li min-naħa l-oħra, il-mudell Awtoregressiv Viżwali jew il-VAR jirrikonsidra kif tordna immaġini, u dan huwa dak li jiddistingwi l-VAR minn metodi AR eżistenti. Tipikament, il-bnedmin joħolqu jew jipperċepixxu immaġni b'mod ġerarkiku, jaqbdu l-istruttura globali segwita mid-dettalji lokali, approċċ fuq skala multipla, oħxon għal fin li jissuġġerixxi ordni għall-immaġni b'mod naturali. Barra minn hekk, billi jispira minn disinji fuq skala multipla, il-qafas VAR jiddefinixxi t-tagħlim awtoregressiv għall-immaġini bħala tbassir fuq skala li jmiss għall-kuntrarju ta 'approċċi konvenzjonali li jiddefinixxu t-tagħlim bħala tbassir tat-token li jmiss. L-approċċ implimentat mill-qafas VAR jibda billi jikkodifika immaġini f'mapep tokens fuq skala kbira. Il-qafas imbagħad jibda l-proċess autoregressiv mill-mappa token 1 × 1, u jespandi fir-riżoluzzjoni progressivament. F'kull pass, it-transformer ibassar il-mappa tat-tokens ta 'riżoluzzjoni ogħla li jmiss ikkundizzjonata fuq dawk kollha ta' qabel, metodoloġija li l-qafas VAR jirreferi għaliha bħala mudellar VAR. 

Il-qafas VAR jipprova jisfrutta l-arkitettura tat-transformer ta 'GPT-2 għal tagħlim awtoregressiv viżwali, u r-riżultati huma evidenti fuq il-benchmark ImageNet fejn il-mudell VAR itejjeb il-linja bażi AR tiegħu b'mod sinifikanti, u jikseb FID ta' 1.80, u punteġġ tal-bidu ta '356 flimkien. b'titjib 20x fil-veloċità tal-inferenza. X'hemm aktar interessanti huwa li l-qafas VAR jirnexxielu jaqbeż il-prestazzjoni tal-qafas DiT jew Diffusion Transformer f'termini ta 'punteġġi FID & IS, iskalabbiltà, veloċità ta' inferenza, u effiċjenza tad-dejta. Barra minn hekk, il-mudell Viżwali AutoRegressive juri liġijiet ta' skala qawwija simili għal dawk li nsibu f'mudelli kbar ta' lingwa. 

Fil-qosor, il-qafas tal-VAR jipprova jagħmel il-kontribuzzjonijiet li ġejjin. 

  1. Tipproponi qafas ġenerattiv viżwali ġdid li juża approċċ awtoregressiv fuq skala multipla bi tbassir fuq skala li jmiss, kuntrarjament għat-tbassir tradizzjonali tat-token li jmiss, li jirriżulta fit-tfassil tal-algoritmu awtoregressiv għall-kompiti tal-viżjoni tal-kompjuter. 
  2. Jipprova jivvalida l-liġijiet tal-iskala għal mudelli autoregressivi flimkien ma 'potenzjal ta' ġeneralizzazzjoni zero-shot li jimita l-proprjetajiet attraenti tal-LLMs. 
  3. Joffri avvanz fil-prestazzjoni tal-mudelli awtoregressivi viżwali, li jippermetti lill-oqfsa awtoregressivi tal-istil GPT jaqbżu eżistenti mudelli tad-diffużjoni f’ħidmiet ta’ sintesi ta’ immaġini għall-ewwel darba. 

Barra minn hekk, huwa wkoll vitali li jiġu diskussi l-liġijiet eżistenti tal-iskala tal-liġi tal-enerġija li matematikament jiddeskrivu r-relazzjoni bejn id-daqsijiet tas-sett tad-dejta, il-parametri tal-mudell, it-titjib tal-prestazzjoni, u r-riżorsi komputazzjonali tal-mudelli tat-tagħlim tal-magni. L-ewwel, dawn il-liġijiet tal-iskala tal-liġi tal-enerġija jiffaċilitaw l-applikazzjoni ta 'prestazzjoni ta' mudell akbar billi jżidu d-daqs tal-mudell, l-ispiża komputazzjonali u d-daqs tad-dejta, jiffrankaw spejjeż mhux meħtieġa u jallokaw il-baġit tat-taħriġ billi jipprovdu prinċipji. It-tieni, il-liġijiet tal-iskala wrew żieda konsistenti u mhux saturata fil-prestazzjoni. Nimxu 'l quddiem bil-prinċipji tal-iskala tal-liġijiet fil-mudelli tal-lingwa newrali, diversi LLMs jinkorporaw il-prinċipju li ż-żieda fl-iskala tal-mudelli għandha tendenza li tagħti riżultati ta' prestazzjoni mtejba. Il-ġeneralizzazzjoni zero-shot min-naħa l-oħra tirreferi għall-abbiltà ta 'mudell, partikolarment LLM li jwettaq kompiti li ma jkunx ġie mħarreġ b'mod espliċitu. Fi ħdan id-dominju tal-viżjoni bil-kompjuter, l-interess fil-bini ta 'zero-shot, u abbiltajiet ta' tagħlim fil-kuntest tal-mudelli tal-pedament. 

Mudelli lingwistiċi jiddependu fuq algoritmi WordPiece jew approċċ Byte Pair Encoding għat-tokenizzazzjoni tat-test. Mudelli ta’ ġenerazzjoni viżwali bbażati fuq mudelli tal-lingwa wkoll jiddependu ħafna fuq l-ikkodifikazzjoni ta’ immaġini 2D f’sekwenzi ta’ tokens 1D. Xogħlijiet bikrija bħal VQVAE wrew il-kapaċità li jirrappreżentaw immaġini bħala tokens diskreti bi kwalità moderata ta 'rikostruzzjoni. Is-suċċessur ta 'VQVAE, il-qafas VQGAN inkorpora telf perċettiv u avversarju biex itejjeb il-fedeltà tal-immaġni, u impjega wkoll transformer ta' decoder biss biex jiġġenera tokens tal-immaġini b'mod autoregressiv standard raster-scan. Il-mudelli tad-diffużjoni min-naħa l-oħra ilhom jitqiesu bħala l-quddiem għall-kompiti ta 'sintesi viżwali sakemm id-diversità tagħhom, u l-kwalità superjuri tal-ġenerazzjoni. L-avvanz tal-mudelli tad-diffużjoni kien iċċentrat fuq it-titjib tat-tekniki ta 'kampjunar, titjib arkitettoniku, u teħid ta' kampjuni aktar mgħaġġel. Mudelli ta 'diffużjoni latenti japplikaw diffużjoni fl-ispazju moħbi li jtejjeb l-effiċjenza tat-taħriġ u l-inferenza. Mudelli tat-Transformer tad-Diffużjoni jissostitwixxu l-arkitettura tradizzjonali U-Net b'arkitettura bbażata fuq transformer, u ġiet skjerata f'mudelli riċenti ta' immaġni jew ta' sintesi tal-vidjo bħal SORA, u Diffużjoni Stabbli

Viżwali AutoRegressive: Metodoloġija u Arkitettura

Fil-qalba tiegħu, il-qafas tal-VAR għandu żewġ stadji ta’ taħriġ diskreti. Fl-ewwel stadju, autoencoder kwantizzat multi-skala jew VQVAE jikkodifika immaġini f'mapep tokens, u telf ta 'rikostruzzjoni kompost huwa implimentat għal skopijiet ta' taħriġ. Fil-figura ta 'hawn fuq, l-inkorporazzjoni hija kelma użata biex tiddefinixxi l-konverżjoni ta' tokens diskreti f'vettori ta 'inkorporazzjoni kontinwa. Fit-tieni stadju, it-transformer fil-mudell VAR jiġi mħarreġ jew billi jimminimizza t-telf ta 'entropija inkroċjata jew billi timmassimizza l-probabbiltà bl-użu tal-approċċ ta' tbassir fuq skala li jmiss. Il-VQVAE mħarreġ imbagħad jipproduċi l-verità tal-art tal-mappa tat-token għall-qafas VAR. 

Immudellar awtoregressiv permezz tat-Tbassir tat-Token Li jmiss

Għal sekwenza partikolari ta 'tokens diskreti, fejn kull token huwa numru sħiħ minn vokabularju ta' daqs V, il-mudell autoregressiv tat-token li jmiss iressaq li l-probabbiltà li jiġi osservat it-token attwali tiddependi biss fuq il-prefiss tiegħu. Jekk wieħed jassumi dipendenza token unidirezzjonali jippermetti li l-qafas VAR jiddekomponi ċ-ċansijiet ta 'sekwenza fil-prodott ta' probabbiltajiet kundizzjonali. It-taħriġ ta’ mudell awtoregressiv jinvolvi l-ottimizzazzjoni tal-mudell fuq sett ta’ dejta, u dan il-proċess ta’ ottimizzazzjoni huwa magħruf bħala tbassir tat-token li jmiss, u tippermetti lill-mudell imħarreġ jiġġenera sekwenzi ġodda. Barra minn hekk, l-immaġini huma sinjali kontinwi 2D permezz ta 'wirt, u biex jiġi applikat l-approċċ tal-immudellar autoregressiv għall-immaġini permezz tal-proċess ta' ottimizzazzjoni ta 'previżjoni tat-token li jmiss għandu ftit prerekwiżiti. L-ewwel, l-immaġni jeħtieġ li tiġi tokenizzata f'diversi tokens diskreti. Normalment, autoencoder kwantizzat huwa implimentat biex jikkonverti l-mappa tal-karatteristika tal-immaġni għal tokens diskreti. It-tieni, ordni 1D ta 'tokens trid tiġi definita għall-immudellar unidirezzjonali. 

It-tokens tal-immaġini f'tokens diskreti huma rranġati fi grilja 2D, u b'differenza għal sentenzi tal-lingwa naturali li intrinsikament għandhom ordni tax-xellug għal-lemin, l-ordni tat-tokens tal-immaġini għandha tiġi definita b'mod espliċitu għal tagħlim awtoregressiv unidirezzjonali. Approċċi awtoregressivi preċedenti ċċattjaw il-grilja 2D ta 'tokens diskreti f'sekwenza 1D bl-użu ta' metodi bħall-iskannjar tar-raster ta 'ringiela maġġuri, kurva z, jew ordni spirali. Ladarba t-tokens diskreti ġew iċċattjati, il-mudelli AR estratt sett ta 'sekwenzi mis-sett tad-dejta, u mbagħad ħarrġu mudell autoregressiv biex jimmassimizzaw il-probabbiltà fil-prodott ta' probabbiltajiet kondizzjonali T bl-użu ta 'previżjoni tat-token li jmiss. 

Immudellar Viżwali-AwtoRgressiv permezz ta' Tbassir ta' Skala Li jmiss

Il-qafas VAR jirrikonċettwalizza l-immudellar autoregressiv fuq immaġini billi jaqleb minn tbassir tat-token li jmiss għal approċċ ta 'tbassir fuq skala li jmiss, proċess li taħtu minflok ma tkun token wieħed, l-unità awtoregressiva hija mappa token sħiħa. Il-mudell l-ewwel jikkwantizza l-mappa tal-karatteristiċi f'mapep tat-token b'ħafna skala, kull waħda b'riżoluzzjoni ogħla minn ta 'qabel, u tilħaq il-qofol tagħha billi tqabbel ir-riżoluzzjoni tal-mapep tal-karatteristiċi oriġinali. Barra minn hekk, il-qafas tal-VAR jiżviluppa encoder ta' kwantizzazzjoni ġdid fuq skala kbira biex jikkodifika immaġini għal mapep ta' token diskreti b'ħafna skala, meħtieġa għat-tagħlim tal-VAR. Il-qafas VAR juża l-istess arkitettura bħal VQGAN, iżda b'saff ta 'kwantizzazzjoni multi-skala modifikat, bl-algoritmi murija fl-immaġni li ġejja. 

Viżwali AutoRegressive: Riżultati u Esperimenti

Il-qafas VAR juża l-arkitettura vanilla VQVAE bi skema ta' kwantizzazzjoni fuq skala multipla b'konvoluzzjoni żejda K, u juża ktieb tal-kodiċi kondiviż għall-iskali kollha u dim moħbi ta' 32. L-enfasi primarja tinsab fuq l-algoritmu VAR li minħabba fih id-disinn tal-arkitettura tal-mudell. tinżamm sempliċi iżda effettiva. Il-qafas jadotta l-arkitettura ta 'transformer standard ta' decoder biss simili għal dawk implimentati fuq mudelli GPT-2, bl-unika modifika tkun is-sostituzzjoni tan-normalizzazzjoni tas-saff tradizzjonali għal normalizzazzjoni adattiva jew AdaLN. Għas-sintesi kondizzjonali tal-klassi, il-qafas VAR jimplimenta l-inkorporazzjonijiet tal-klassi bħala t-token tal-bidu, u wkoll il-kundizzjoni tas-saff ta 'normalizzazzjoni adattiva. 

Riżultati tal-Ġenerazzjoni tal-Immaġni tal-Istat tal-Art

Meta mqabbla ma' oqfsa ġenerattivi eżistenti inklużi GANs jew Netwerks Avversarji Ġenerattivi, mudelli ta 'tbassir masked stil BERT, mudelli ta' diffużjoni, u mudelli awtoregressivi ta 'stil GPT, il-qafas Visual AutoRegressive juri riżultati promettenti miġbura fil-qosor fit-tabella li ġejja. 

Kif jista 'jiġi osservat, il-qafas Viżwali AutoRegressive mhux biss kapaċi jikseb l-aħjar punteġġi FID u IS, iżda juri wkoll veloċità notevoli ta' ġenerazzjoni ta 'immaġni, komparabbli ma' mudelli ta 'l-aħħar teknoloġija. Barra minn hekk, il-qafas tal-VAR iżomm ukoll punteġġi ta’ preċiżjoni u ta’ recall sodisfaċenti, li jikkonferma l-konsistenza semantika tiegħu. Iżda l-veru sorpriża hija l-prestazzjoni notevoli mogħtija mill-qafas VAR fuq kompiti tradizzjonali ta 'kapaċitajiet AR, li jagħmilha l-ewwel mudell awtoregressiv li qabeż mudell ta' Diffusion Transformer, kif muri fit-tabella li ġejja. 

Riżultat tal-Ġeneralizzazzjoni tal-Kompitu Zero-Shot

Għal ħidmiet ta' żebgħa ta' ġewwa u ta' barra, l-għalliem tal-qafas VAR jisforza t-tokens tal-verità tal-art barra l-maskra, u jħalli lill-mudell jiġġenera biss it-tokens fil-maskra, mingħajr ma tiġi injettata l-ebda informazzjoni dwar it-tikketta tal-klassi fil-mudell. Ir-riżultati jintwerew fl-immaġni li ġejja, u kif jidher, il-mudell VAR jikseb riżultati aċċettabbli fuq kompiti downstream mingħajr irfinar tal-parametri jew jimmodifika l-arkitettura tan-netwerk, li juri l-ġeneralizzazzjoni tal-qafas VAR. 

Ħsibijiet Finali

F'dan l-artikolu, tkellimna dwar qafas viżwali ġenerattiv ġdid imsejjaħ Visual AutoRegressive modeling (VAR) li 1) teoretikament jindirizza xi kwistjonijiet inerenti fil-mudelli standard autoregressive (AR) ta' immaġini, u 2) jagħmel mudelli AR bbażati fuq lingwaġġ l-ewwel jaqbżu. mudelli ta 'diffużjoni b'saħħithom f'termini ta' kwalità ta 'immaġni, diversità, effiċjenza tad-dejta, u veloċità ta' inferenza. Min-naħa waħda, il-mudelli awtoregressivi tradizzjonali jeħtieġu ordni definita tad-dejta, filwaqt li min-naħa l-oħra, il-mudell Awtoregressiv Viżwali jew il-VAR jirrikonsidra kif tordna immaġini, u dan huwa dak li jiddistingwi l-VAR minn metodi AR eżistenti. Mal-iskala tal-VAR għal 2 biljun parametri, l-iżviluppaturi tal-qafas VAR osservaw relazzjoni ċara tal-liġi tal-qawwa bejn il-prestazzjoni tat-test u l-parametri tal-mudell jew il-komputazzjoni tat-taħriġ, b'koeffiċjenti Pearson joqorbu lejn -0.998, li jindikaw qafas robust għall-previżjoni tal-prestazzjoni. Dawn il-liġijiet tal-iskala u l-possibbiltà għall-ġeneralizzazzjoni tal-kompitu zero-shot, bħala l-karatteristiċi tal-LLMs, issa ġew ivverifikati inizjalment fil-mudelli tat-transformer VAR tagħna. 

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.