stub Vizualus automatiškai regresyvus modeliavimas: keičiamo dydžio vaizdo generavimas naudojant kito masto numatymą – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Vizualus autoregresyvus modeliavimas: keičiamo dydžio vaizdo generavimas naudojant kito mastelio numatymą

mm

paskelbta

 on

Vizualus autoregresyvus modeliavimas: keičiamo dydžio vaizdo generavimas naudojant kito mastelio numatymą

GPT modelių ir kitų autoregresyvių arba AR didelių kalbų modelių atsiradimas atskleidė naują epochą mašininio mokymosi ir dirbtinio intelekto srityje. GPT ir autoregresyvūs modeliai dažnai pasižymi bendru intelektu ir universalumu, kurie laikomi reikšmingu žingsniu link bendro dirbtinio intelekto arba AGI, nepaisant kai kurių problemų, tokių kaip haliucinacijos. Tačiau mįslinga šių didelių modelių problema yra savarankiškai prižiūrima mokymosi strategija, leidžianti modeliui numatyti kitą žetoną iš eilės – paprasta, bet veiksminga strategija. Naujausi darbai parodė šių didelių autoregresyvių modelių sėkmę, pabrėždami jų apibendrinimą ir mastelio keitimą. Mastelio keitimas yra tipiškas esamų mastelio keitimo dėsnių pavyzdys, leidžiantis tyrėjams numatyti didelio modelio našumą pagal mažesnių modelių veikimą, todėl geriau paskirstomi ištekliai. Kita vertus, apibendrinamumą dažnai liudija mokymosi strategijos, pvz., „nulinis, vienkartinis ir kelių kadrų“ mokymasis, pabrėžiant neprižiūrimų, tačiau apmokytų modelių gebėjimą prisitaikyti prie įvairių ir nematytų užduočių. Kartu apibendrinimas ir mastelio keitimas atskleidžia autoregresinių modelių potencialą mokytis iš daugybės nepažymėtų duomenų. 

Remdamiesi tuo pačiu, šiame straipsnyje kalbėsime apie „Visual AutoRegressive“ arba „VAR“ sistemą – naujos kartos modelį, kuris iš naujo apibrėžia autoregresinį vaizdų mokymąsi kaip „kitos skyros numatymą“ arba „kito masto numatymą“. . Nors ir paprastas, metodas yra veiksmingas ir leidžia autoregresiniams transformatoriams geriau išmokti vizualinį pasiskirstymą ir pagerinti apibendrinimą. Be to, Visual AutoRegressive modeliai leidžia GPT stiliaus autoregresyviems modeliams pirmą kartą pranokti difuzijos perdavimą generuojant vaizdą. Eksperimentai taip pat rodo, kad VAR sistema žymiai pagerina autoregresyvias bazines linijas ir pranoksta Diffusion Transformer arba DiT sistemą įvairiais aspektais, įskaitant duomenų efektyvumą, vaizdo kokybę, mastelį ir išvadų greitį. Be to, „Visual AutoRegressive“ modelių mastelio padidinimas parodo galios dėsnio mastelio dėsnius, panašius į tuos, kurie stebimi naudojant didelius kalbos modelius, taip pat rodomas nulinio apibendrinimo gebėjimas atliekant tolesnius darbus, įskaitant redagavimą, įtraukimą ir piešimą. 

Šio straipsnio tikslas yra išsamiai apžvelgti Visual AutoRegressive sistemą, o mes tyrinėjame mechanizmą, metodiką, sistemos architektūrą ir palyginimą su naujausiomis sistemomis. Taip pat kalbėsime apie tai, kaip Visual AutoRegressive sistema demonstruoja dvi svarbias LLM savybes: mastelio keitimo dėsnius ir nulinio kadro apibendrinimą. Taigi pradėkime.

Vizualus automatinis regresinis modeliavimas: vaizdo generavimo mastelio keitimas

Dažnas pastarojo meto didelių kalbų modelių modelis yra savarankiškai prižiūrimos mokymosi strategijos įgyvendinimas – paprastas, bet veiksmingas metodas, numatantis kitą seką. Dėl šio požiūrio autoregresyvūs ir didelės kalbos modeliai šiandien parodė puikų mastelį ir apibendrinamumą – savybes, kurios atskleidžia autoregresinių modelių potencialą mokytis iš didelio nepažymėtų duomenų rinkinio, todėl apibendrina bendrojo dirbtinio intelekto esmę. Be to, kompiuterinio matymo srities mokslininkai lygiagrečiai dirbo kurdami didelius autoregresinius arba pasaulinius modelius, siekdami suderinti arba pranokti jų įspūdingą mastelį ir apibendrinimą, o modeliai, tokie kaip DALL-E ir VQGAN, jau demonstruoja autoregresyvių modelių potencialą šioje srityje. įvaizdžio generavimo. Šiuose modeliuose dažnai įdiegiamas vizualinis atpažinimo įtaisas, kuris vaizduoja arba apytiksliai atitinka ištisinius vaizdus į 2D žetonų tinklelį, kuris vėliau suplojamas į 1D seką autoregresiniam mokymuisi ir taip atspindi nuoseklų kalbos modeliavimo procesą. 

Tačiau mokslininkai dar turi ištirti šių modelių mastelio dėsnius, o dar labiau apmaudu yra tai, kad šių modelių našumas dažnai gerokai atsilieka nuo difuzijos modelių, kaip parodyta toliau pateiktame paveikslėlyje. Našumo atotrūkis rodo, kad, palyginti su didelių kalbų modeliais, autoregresinių modelių galimybės kompiuteriniame regėjime yra nepakankamai ištirtos. 

Viena vertus, tradiciniams autoregresiniams modeliams reikalinga apibrėžta duomenų tvarka, o kita vertus, Visual AutoRegressive arba VAR modelis persvarsto, kaip užsakyti vaizdą, ir tai išskiria VAR nuo esamų AR metodų. Paprastai žmonės kuria arba suvokia vaizdą hierarchiškai, užfiksuodami globalią struktūrą, po kurios seka vietinės detalės. Tai daugialypis, nuo stambaus iki smulkaus požiūrio, kuris rodo natūralią vaizdo tvarką. Be to, įkvėpimo iš kelių mastelių projektų, VAR sistema apibrėžia autoregresinį vaizdų mokymąsi kaip kito masto numatymą, o ne įprastus metodus, kurie apibrėžia mokymąsi kaip kito žetono numatymą. VAR sistemos įgyvendintas metodas pradeda koduoti vaizdą į kelių mastelių žetonų žemėlapius. Tada sistema pradeda autoregresinį procesą nuo 1 × 1 žetonų žemėlapio ir palaipsniui plečiasi skiriamoji geba. Kiekviename žingsnyje transformatorius numato kitą didesnės skiriamosios gebos žetonų žemėlapį, susijusį su visais ankstesniais – metodika, kurią VAR sistema vadina VAR modeliavimu. 

VAR sistema bando panaudoti GPT-2 transformatoriaus architektūrą vizualiniam autoregresiniam mokymuisi, o rezultatai yra akivaizdūs ImageNet etalonu, kai VAR modelis žymiai pagerina savo AR bazinę liniją, pasiekdamas 1.80 FID ir 356 pradinį balą. 20 kartų pagerinus išvados greitį. Dar įdomiau yra tai, kad VAR sistema sugeba pranokti DiT arba Diffusion Transformer sistemos našumą pagal FID ir IS balus, mastelį, išvadų greitį ir duomenų efektyvumą. Be to, „Visual AutoRegressive“ modelis pasižymi stipriais mastelio keitimo dėsniais, panašiais į tuos, kurie matomi didelių kalbų modeliuose. 

Apibendrinant galima pasakyti, kad VAR sistema bando prisidėti toliau. 

  1. Jame siūloma nauja vizualinio generavimo sistema, kurioje naudojamas kelių masto autoregresyvus metodas su kito masto numatymu, priešingai nei tradicinis kito žetono numatymas, todėl sukuriamas autoregresinis algoritmas kompiuterinio matymo užduotims atlikti. 
  2. Juo bandoma patvirtinti autoregresinių modelių mastelio keitimo dėsnius kartu su nulinio apibendrinimo potencialu, kuris imituoja patrauklias LLM savybes. 
  3. Tai yra proveržis vizualinių autoregresyvių modelių našumo srityje, leidžiantis GPT tipo autoregresinėms sistemoms pranokti esamas difuzijos modeliai vaizdų sintezės užduotyse pirmą kartą. 

Be to, taip pat labai svarbu aptarti esamus galios įstatymo mastelio dėsnius, kurie matematiškai apibūdina ryšį tarp duomenų rinkinio dydžių, modelio parametrų, našumo patobulinimų ir mašininio mokymosi modelių skaičiavimo išteklių. Pirma, šie galios įstatymo mastelio dėsniai palengvina didesnio modelio našumo taikymą padidindami modelio dydį, skaičiavimo sąnaudas ir duomenų dydį, sutaupydami nereikalingas išlaidas ir paskirstydami mokymo biudžetą, numatydami principus. Antra, mastelio dėsniai parodė nuoseklų ir neprisotinantį našumo padidėjimą. Vykdant neuroninių kalbų modelių mastelio keitimo dėsnių principus, keli LLM įkūnija principą, kad modelių masto didinimas paprastai duoda geresnių rezultatų. Kita vertus, nulinis apibendrinimas reiškia modelio, ypač LLM, gebėjimą atlikti užduotis, kurių jis nebuvo aiškiai apmokytas. Kompiuterinio matymo srityje susidomėjimas nulinio kadro kūrimo ir mokymosi kontekste gebėjimų pagrindų modeliais. 

Kalbos modeliai remiasi WordPiece algoritmais arba baitų poros kodavimo metodu, skirtu teksto tokenizavimui. Vaizdinės kartos modeliai, pagrįsti kalbų modeliais, taip pat labai priklauso nuo 2D vaizdų kodavimo į 1D žetonų sekas. Ankstyvieji darbai, tokie kaip VQVAE, parodė galimybę vaizdus vaizduoti kaip atskirus žetonus su vidutine rekonstrukcijos kokybe. VQVAE įpėdinė, VQGAN sistema apėmė suvokimo ir priešiškumo praradimus, kad pagerintų vaizdo tikslumą, taip pat naudojo tik dekoderio transformatorių, kad generuotų vaizdo žetonus standartiniu rastrinio nuskaitymo autoregresiniu būdu. Kita vertus, difuzijos modeliai ilgą laiką buvo laikomi vizualinės sintezės užduočių lyderiais, jei jų įvairovė ir aukšta generavimo kokybė. Difuzijos modelių tobulinimas buvo sutelktas į mėginių ėmimo metodų tobulinimą, architektūrinius patobulinimus ir greitesnį atranką. Latentinės difuzijos modeliai taiko difuziją latentinėje erdvėje, kuri pagerina mokymo efektyvumą ir išvadas. Difuzijos transformatorių modeliai pakeičia tradicinę U-Net architektūrą transformatoriumi pagrįsta architektūra, ir ji buvo įdiegta naujausiuose vaizdo ar vaizdo sintezės modeliuose, tokiuose kaip SORA ir Stabili difuzija

Vizualinis automatinis regresyvumas: metodika ir architektūra

Iš esmės VAR sistema turi du atskirus mokymo etapus. Pirmajame etape daugialypis kvantuotas automatinis kodavimo įrenginys arba VQVAE koduoja vaizdą į žetonų žemėlapius, o treniruočių tikslais įgyvendinamas sudėtinės rekonstrukcijos praradimas. Aukščiau pateiktame paveikslėlyje įterpimas yra žodis, naudojamas apibrėžti atskirų žetonų konvertavimą į nuolatinio įterpimo vektorius. Antrajame etape VAR modelio transformatorius yra apmokomas sumažinant kryžminės entropijos nuostolius arba padidinant tikimybę naudojant kito masto prognozavimo metodą. Tada apmokytas VQVAE sukuria žetonų žemėlapio pagrindinę tiesą VAR sistemai. 

Autoregresyvus modeliavimas naudojant „Next-Token“ numatymą

Nurodytai diskrečiųjų žetonų sekai, kur kiekvienas atpažinimo ženklas yra sveikasis skaičius iš V dydžio žodyno, autoregresinis kito žetono modelis teigia, kad dabartinio žetono stebėjimo tikimybė priklauso tik nuo jo priešdėlio. Darant prielaidą, kad priklausomybė nuo žetonų yra vienakryptė, VAR sistema gali išskaidyti sekos tikimybę į sąlyginių tikimybių sandaugą. Autoregresinio modelio mokymas apima modelio optimizavimą visame duomenų rinkinyje, o šis optimizavimo procesas žinomas kaip kito žetono prognozėir leidžia apmokytam modeliui generuoti naujas sekas. Be to, vaizdai yra 2D ištisiniai signalai pagal paveldėjimą, o autoregresinio modeliavimo metodo taikymas vaizdams per sekančio žetono prognozavimo optimizavimo procesą turi keletą būtinų sąlygų. Pirma, vaizdas turi būti suskirstytas į kelis atskirus žetonus. Paprastai, norint konvertuoti vaizdo ypatybių žemėlapį į atskirus žetonus, įdiegiamas kvantuotas automatinis kodavimo įrenginys. Antra, vienakrypčiui modeliavimui turi būti nustatyta 1D žetonų tvarka. 

Atskiruose žetonuose esantys vaizdo žetonai yra išdėstyti 2D tinklelyje ir, skirtingai nuo natūralios kalbos sakinių, kurie iš prigimties yra iš kairės į dešinę, vaizdo žetonų tvarka turi būti aiškiai apibrėžta vienakrypčiam autoregresiniam mokymuisi. Ankstesni autoregresyvūs metodai išlygino 2D diskrečių žetonų tinklelį į 1D seką, naudojant tokius metodus kaip rastrinis nuskaitymas eilutėje, z kreivė arba spiralės tvarka. Kai atskiri žetonai buvo išlyginti, AR modeliai iš duomenų rinkinio ištraukė sekų rinkinį, o tada parengė autoregresinį modelį, kad padidintų tikimybę į T sąlyginių tikimybių sandaugą, naudojant kito žetono numatymą. 

Vizualus-autoregresyvus modeliavimas naudojant kito masto numatymą

VAR sistema iš naujo konceptualizuoja autoregresyvų vaizdų modeliavimą, pereinant nuo kito žetono numatymo prie kito masto numatymo metodo, kurio metu autoregresyvus vienetas yra ne vienas prieigos raktas, o visas prieigos rakto žemėlapis. Modelis pirmiausia kiekybiškai įvertina objektų žemėlapį į kelių mastelių žetonų žemėlapius, kurių kiekvienas turi didesnę skiriamąją gebą nei ankstesnis, o kulminacija pasiekia pirminių objektų žemėlapių skiriamąją gebą. Be to, VAR sistema sukuria naują kelių mastelių kvantavimo kodavimo įrenginį, skirtą užkoduoti vaizdą į kelių mastelių diskrečius žetonų žemėlapius, reikalingus VAR mokymuisi. VAR sistemoje naudojama tokia pati architektūra kaip ir VQGAN, bet su modifikuotu kelių mastelių kvantavimo sluoksniu, naudojant algoritmus, parodytus kitame paveikslėlyje. 

Vizualinis automatinis regresas: rezultatai ir eksperimentai

VAR sistema naudoja vanilinę VQVAE architektūrą su kelių mastelių kvantavimo schema su K papildoma konvoliucija ir naudoja bendrą kodų knygą visoms skalėms ir latentinį pritemdymą 32. Pagrindinis dėmesys skiriamas VAR algoritmui, dėl kurio modelio architektūra kuriama. yra paprastas, bet veiksmingas. Sistema naudoja standartinio tik dekoderio transformatoriaus architektūrą, panašią į įdiegtas GPT-2 modeliuose, o vienintelis modifikavimas yra tradicinio sluoksnio normalizavimo pakeitimas adaptyviuoju normalizavimu arba AdaLN. Klasės sąlyginei sintezei VAR sistema įgyvendina klasių įterpimus kaip pradžios atpažinimo raktą, taip pat prisitaikančio normalizavimo sluoksnio sąlygą. 

Naujausi vaizdo generavimo rezultatai

Suporavus su esamomis generacinėmis sistemomis, įskaitant GAN arba generuojamieji priešpriešiniai tinklai, BERT stiliaus užmaskuoti prognozavimo modeliai, difuzijos modeliai ir GPT stiliaus autoregresyvūs modeliai, Visual AutoRegressive sistema rodo daug žadančius rezultatus, apibendrintus šioje lentelėje. 

Kaip galima pastebėti, „Visual AutoRegressive“ sistema ne tik gali gauti geriausius FID ir IS balus, bet ir demonstruoja puikų vaizdų generavimo greitį, palyginamą su naujausiais modeliais. Be to, VAR sistema taip pat išlaiko patenkinamą tikslumą ir atkūrimo balus, o tai patvirtina jos semantinį nuoseklumą. Tačiau tikras siurprizas yra puikus VAR sistemos našumas atliekant tradicines AR galimybių užduotis, todėl tai pirmasis autoregresyvus modelis, pranokęs difuzijos transformatoriaus modelį, kaip parodyta tolesnėje lentelėje. 

Nulinės užduoties apibendrinimo rezultatas

Atliekant įvedimo ir piešimo užduotis, VAR sistemos mokytojas priverčia pagrindinius tiesos žetonus už kaukės ribų ir leidžia modeliui generuoti tik kaukėje esančius žetonus, į modelį neįvedant jokios klasės etiketės informacijos. Rezultatai parodyti toliau pateiktame paveikslėlyje ir, kaip matyti, VAR modelis pasiekia priimtinų rezultatų atliekant tolesnius uždavinius, nederinant parametrų ar nekeičiant tinklo architektūros, o tai parodo VAR sistemos apibendrinimą. 

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie naują vaizdo generavimo sistemą, pavadintą Visual AutoRegressive Modeling (VAR), kuri 1) teoriškai sprendžia kai kurias problemas, būdingas standartiniams vaizdo autoregresiniams (AR) modeliams, ir 2) leidžia kalbos modeliais pagrįsti AR modeliai pirmiausia pranokti. stiprios sklaidos modeliai vaizdo kokybės, įvairovės, duomenų efektyvumo ir išvadų greičio požiūriu. Viena vertus, tradiciniams autoregresiniams modeliams reikalinga apibrėžta duomenų tvarka, o kita vertus, Visual AutoRegressive arba VAR modelis persvarsto, kaip užsakyti vaizdą, ir tai išskiria VAR nuo esamų AR metodų. Padidinę VAR iki 2 milijardų parametrų, VAR sistemos kūrėjai pastebėjo aiškų galios dėsnio ryšį tarp bandymo našumo ir modelio parametrų arba mokymo skaičiavimo, o Pearsono koeficientai artėjo prie –0.998, XNUMX, o tai rodo tvirtą veikimo prognozavimo sistemą. Šie mastelio dėsniai ir galimybė apibendrinti užduotis, kaip LLM bruožai, iš pradžių buvo patikrinti mūsų VAR transformatorių modeliuose. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.