tynkä Visuaalinen autoregressiivinen mallinnus: Skaalautuva kuvan luominen seuraavan mittakaavan ennusteen avulla - Unite.AI
Liity verkostomme!

Tekoäly

Visuaalinen autoregressiivinen mallinnus: Skaalautuva kuvan luominen seuraavan mittakaavan ennustuksen avulla

mm

Julkaistu

 on

Visuaalinen autoregressiivinen mallinnus: Skaalautuva kuvan luominen seuraavan mittakaavan ennustuksen avulla

GPT-mallien tulo yhdessä muiden autoregressiivisten tai AR-suurten kielimallien kanssa avasi uuden aikakauden koneoppimisen ja tekoälyn alalla. GPT ja autoregressiiviset mallit osoittavat usein yleistä älykkyyttä ja monipuolisuutta, joita pidetään merkittävänä askeleena kohti yleistä tekoälyä tai AGI:ta huolimatta joistakin ongelmista, kuten hallusinaatioista. Näiden suurten mallien hämmentävä ongelma on kuitenkin itseohjattu oppimisstrategia, jonka avulla malli voi ennustaa seuraavan merkkijonon järjestyksessä, mikä on yksinkertainen mutta tehokas strategia. Viimeaikaiset työt ovat osoittaneet näiden suurten autoregressiivisten mallien menestyksen korostaen niiden yleistettävyyttä ja skaalautuvuutta. Skaalautuvuus on tyypillinen esimerkki olemassa olevista skaalauslaeista, jonka avulla tutkijat voivat ennustaa suuren mallin suorituskykyä pienempien mallien suorituskyvyn perusteella, mikä johtaa parempaan resurssien allokointiin. Toisaalta yleistettävyys on usein todisteena oppimisstrategioista, kuten nollasta, kertaheitosta ja muutamasta laukauksesta oppiminen, mikä korostaa valvomattomien mutta koulutettujen mallien kykyä mukautua erilaisiin ja ennennäkemättömiin tehtäviin. Yhdessä yleistettävyys ja skaalautuvuus paljastavat autoregressiivisten mallien mahdollisuudet oppia suuresta määrästä merkitsemätöntä dataa. 

Saman pohjalta tässä artikkelissa puhumme Visual AutoRegressivestä tai VAR-kehyksestä, uuden sukupolven mallista, joka määrittelee kuvien autoregressiivisen oppimisen karkeasta hienoon "seuraavan resoluution ennustukseksi" tai "seuraavan asteikon ennustukseksi". . Vaikka lähestymistapa on yksinkertainen, se on tehokas ja sallii autoregressiivisten muuntajien oppia visuaaliset jakaumat paremmin ja parantaa yleistettävyyttä. Lisäksi Visual AutoRegressive -mallit mahdollistavat GPT-tyylisten autoregressiivisten mallien ylittämisen diffuusiosiirrot kuvan luonnissa ensimmäistä kertaa. Kokeet osoittavat myös, että VAR-kehys parantaa autoregressiivisiä perusviivoja merkittävästi ja ylittää Diffusion Transformerin tai DiT-kehyksen useissa ulottuvuuksissa, mukaan lukien tiedon tehokkuus, kuvanlaatu, skaalautuvuus ja päättelynopeus. Lisäksi Visual AutoRegressive -mallien skaalaus osoittaa teholain skaalauslakeja, jotka ovat samankaltaisia ​​kuin suurissa kielimalleissa havaitut, ja näyttää myös nollakuvan yleistyskyvyn loppupään tehtävissä, mukaan lukien muokkaus, in-maalaus ja ulkomaalaus. 

Tämän artikkelin tarkoituksena on kattaa Visual AutoRegressive -kehys perusteellisesti, ja tutkimme mekanismia, metodologiaa, kehyksen arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Puhumme myös siitä, kuinka Visual AutoRegressive -kehys osoittaa LLM:n kaksi tärkeää ominaisuutta: skaalauslain ja nollakuvan yleistyksen. Joten aloitetaan.

Visuaalinen automaattinen regressiivinen mallinnus: Skaalauskuvan luominen

Yleinen malli viimeaikaisten suurten kielimallien joukossa on itseohjatun oppimisstrategian toteuttaminen, yksinkertainen mutta tehokas lähestymistapa, joka ennustaa sekvenssin seuraavan merkin. Lähestymistavan ansiosta autoregressiiviset ja suuret kielimallit ovat nykyään osoittaneet huomattavaa skaalautuvuutta sekä yleistettävyyttä, ominaisuuksia, jotka paljastavat autoregressiivisten mallien potentiaalin oppia suuresta leimaamattoman datajoukosta, mikä tekee yhteenvedon yleisen tekoälyn olemuksesta. Lisäksi tietokonenäköalan tutkijat ovat työskennelleet samanaikaisesti kehittääkseen suuria autoregressiivisiä tai maailmanmalleja, joiden tarkoituksena on sovittaa yhteen tai ylittää niiden vaikuttava skaalautuvuus ja yleistettävyys. Mallit, kuten DALL-E ja VQGAN, ovat jo osoittaneet autoregressiivisten mallien potentiaalin alalla. kuvan luomisesta. Nämä mallit toteuttavat usein visuaalisen tokenisaattorin, joka edustaa tai likimääräisiä jatkuvia kuvia 2D-merkkien ruudukoksi, joka sitten litistetään 1D-sekvenssiksi autoregressiivistä oppimista varten, mikä heijastaa peräkkäistä kielen mallinnusprosessia. 

Tutkijat eivät kuitenkaan ole vielä tutkineet näiden mallien skaalauslakeja, ja mikä turhauttavampaa on, että näiden mallien suorituskyky jää usein huomattavasti jäljessä diffuusiomalleista, kuten seuraava kuva osoittaa. Suorituskykyvaje osoittaa, että suuriin kielimalleihin verrattuna autoregressiivisten mallien ominaisuudet tietokonenäössä ovat alitutkittuja. 

Toisaalta perinteiset autoregressiiviset mallit vaativat määritellyn datajärjestyksen, kun taas toisaalta Visual AutoRegressive tai VAR-malli miettii uudelleen, miten kuva järjestetään, ja tämä erottaa VAR:n olemassa olevista AR-menetelmistä. Tyypillisesti ihmiset luovat tai havaitsevat kuvan hierarkkisesti, vangitsemalla globaalin rakenteen ja sen jälkeen paikalliset yksityiskohdat, monimittaisen, karkeasta hienoon lähestymistapaan, joka ehdottaa kuvan järjestystä luonnollisesti. Lisäksi VAR-kehys, joka on saanut inspiraatiota monimittakaavaisista suunnitelmista, määrittelee kuvien autoregressiivisen oppimisen seuraavan mittakaavan ennustukseksi, toisin kuin tavanomaiset lähestymistavat, jotka määrittelevät oppimisen seuraavan merkkien ennustukseksi. VAR-kehyksen toteuttama lähestymistapa lähtee liikkeelle koodaamalla kuva monimuotoisiksi merkkikartoiksi. Kehys aloittaa sitten autoregressiivisen prosessin 1 × 1 -merkkikartalta ja laajenee resoluutioltaan asteittain. Muuntaja ennustaa joka vaiheessa seuraavan korkeamman resoluution merkkikartan, joka on ehdollinen kaikkiin edellisiin, menetelmään, jota VAR-kehys viittaa VAR-mallinnukseen. 

VAR-kehys yrittää hyödyntää GPT-2:n muuntajaarkkitehtuuria visuaaliseen autoregressiiviseen oppimiseen, ja tulokset näkyvät ImageNet-vertailussa, jossa VAR-malli parantaa merkittävästi AR-perusviivaansa saavuttaen FID-arvon 1.80 ja aloituspisteen 356. 20x parannus päättelynopeudessa. Mielenkiintoisempaa on, että VAR-kehys onnistuu ylittämään DiT- tai Diffusion Transformer -kehyksen suorituskyvyn FID- ja IS-pisteiden, skaalautuvuuden, päättelynopeuden ja tiedon tehokkuuden suhteen. Lisäksi Visual AutoRegressive -mallissa on vahvat skaalauslait, jotka ovat samanlaisia ​​kuin suurissa kielimalleissa. 

Yhteenvetona voidaan todeta, että VAR-kehys pyrkii antamaan seuraavat panokset. 

  1. Se ehdottaa uutta visuaalista generatiivista viitekehystä, joka käyttää monimittaista autoregressiivistä lähestymistapaa seuraavan asteikon ennusteella, toisin kuin perinteinen seuraavan merkin ennuste, mikä johtaa autoregressiivisen algoritmin suunnitteluun tietokonenäkötehtäviin. 
  2. Se yrittää vahvistaa autoregressiivisten mallien skaalauslainsäädäntöä sekä nollakuvan yleistyspotentiaalia, joka jäljittelee LLM:ien houkuttelevia ominaisuuksia. 
  3. Se tarjoaa läpimurron visuaalisten autoregressiivisten mallien suorituskyvyssä, mikä mahdollistaa GPT-tyyliset autoregressiiviset kehykset ylittävän olemassa olevat diffuusio malleja kuvasynteesitehtävissä ensimmäistä kertaa. 

Lisäksi on myös elintärkeää keskustella olemassa olevista teholain skaalauslaeista, jotka kuvaavat matemaattisesti tietojoukkojen koon, malliparametrien, suorituskyvyn parannusten ja koneoppimismallien laskentaresurssien välistä suhdetta. Ensinnäkin nämä teholain skaalauslait helpottavat suuremman mallin suorituskyvyn soveltamista suurentamalla mallin kokoa, laskennallisia kustannuksia ja datakokoa, säästäen turhia kustannuksia ja jakamalla koulutusbudjetin periaatteiden avulla. Toiseksi skaalauslait ovat osoittaneet jatkuvan ja tyydyttävän suorituskyvyn parantumisen. Edistyessään hermokielimallien skaalauslakien periaatteiden kanssa, useat LLM:t ilmentävät periaatetta, jonka mukaan mallien mittakaavan lisääminen pyrkii tuottamaan parempia suorituskykytuloksia. Nollapisteyleistys toisaalta viittaa mallin kykyyn, erityisesti LLM:ään, joka suorittaa tehtäviä, joihin sitä ei ole nimenomaisesti koulutettu. Tietokonenäköalalla kiinnostus rakentaa nolla-shot- ja kontekstipohjaisten mallien oppimiskykyjä. 

Kielimallit perustuvat WordPiece-algoritmeihin tai tavuparien koodausmenetelmään tekstin tokenointiin. Kielimalleihin perustuvat visuaaliset sukupolvimallit ovat myös vahvasti riippuvaisia ​​2D-kuvien koodaamisesta 1D-merkkisekvensseiksi. Varhaiset teokset, kuten VQVAE, osoittivat kyvyn esittää kuvia erillisinä tunnisteina kohtuullisella rekonstruktiolaadulla. VQVAE:n seuraaja, VQGAN-kehys sisälsi havainnointi- ja vastustavia häviöitä kuvan tarkkuuden parantamiseksi, ja se käytti myös vain dekooderin muuntajaa kuvatunnisteiden luomiseen tavallisella rasteriskannausautoregressiivisellä tavalla. Toisaalta diffuusiomalleja on pitkään pidetty visuaalisten synteesitehtävien edelläkävijöinä, jos niiden monimuotoisuus ja ylivoimainen sukupolven laatu ovat olleet. Diffuusiomallien kehittäminen on keskittynyt näytteenottotekniikoiden parantamiseen, arkkitehtonisiin parannuksiin ja nopeampaan näytteenottoon. Latentti diffuusiomallit soveltavat diffuusiota piilevässä tilassa, mikä parantaa harjoittelun tehokkuutta ja päättelyä. Diffusion Transformer -mallit korvaavat perinteisen U-Net-arkkitehtuurin muuntajapohjaisella arkkitehtuurilla, ja sitä on otettu käyttöön viimeaikaisissa kuva- tai videosynteesimalleissa, kuten SORA, ja Vakaa diffuusio

Visual AutoRegressive: Metodologia ja arkkitehtuuri

VAR-kehyksen ytimessä on kaksi erillistä harjoitteluvaihetta. Ensimmäisessä vaiheessa monimittainen kvantisoitu autoenkooderi tai VQVAE koodaa kuvan merkkikartoiksi, ja yhdistetyn rekonstruktiohäviö toteutetaan koulutustarkoituksiin. Yllä olevassa kuvassa upottaminen on sana, jota käytetään määrittelemään diskreettien tokenien muuntaminen jatkuviksi upotusvektoreiksi. Toisessa vaiheessa VAR-mallin muuntajaa koulutetaan joko minimoimalla ristientropiahäviö tai maksimoimalla todennäköisyys seuraavan asteikon ennustusmenetelmällä. Koulutettu VQVAE tuottaa sitten VAR-kehyksen token karttapohjan totuuden. 

Autoregressiivinen mallinnus Next-Token Predictionin kautta

Tietylle erillisten merkkien sekvenssille, jossa kukin merkki on V-koon sanaston kokonaisluku, seuraavan tunnuksen autoregressiivinen malli esittää, että todennäköisyys havaita nykyinen merkki riippuu vain sen etuliitteestä. Yksisuuntaisen merkkiriippuvuuden olettaminen sallii VAR-kehyksen hajottaa sekvenssin mahdollisuudet ehdollisten todennäköisyyksien tuloksi. Autoregressiivisen mallin koulutus sisältää mallin optimoinnin koko tietojoukon välillä, ja tämä optimointiprosessi tunnetaan nimellä seuraavan merkin ennustusja antaa koulutetun mallin luoda uusia sekvenssejä. Lisäksi kuvat ovat jatkuvia 2D-signaaleja periytymisen perusteella, ja autoregressiivisen mallinnuksen soveltaminen kuviin seuraavan tokenin ennusteen optimointiprosessin kautta edellyttää muutamia ehtoja. Ensin kuva on jaettava useiksi erillisiksi tunnisteiksi. Yleensä kvantisoitu autoenkooderi toteutetaan muuttamaan kuvan piirrekartta erillisiksi tunnisteiksi. Toiseksi yksisuuntaista mallintamista varten on määritettävä 1D-merkkien järjestys. 

Diskreettien merkkien kuvamerkit on järjestetty 2D-ruudukkoon, ja toisin kuin luonnollisen kielen lauseissa, joissa on luonnostaan ​​vasemmalta oikealle järjestys, kuvamerkkien järjestys on määritettävä eksplisiittisesti yksisuuntaista autoregressiivistä oppimista varten. Aiemmat autoregressiiviset lähestymistavat tasoittivat erillisten merkkien 2D-ruudukon 1D-sekvenssiksi käyttämällä menetelmiä, kuten rivi-suurrasteriskannaus, z-käyrä tai spiraalijärjestys. Kun erilliset tunnukset oli litistetty, AR-mallit poimivat joukon sekvenssejä tietojoukosta ja kouluttivat sitten autoregressiivisen mallin maksimoimaan todennäköisyyden T ehdollisten todennäköisyyksien tuloksi käyttämällä seuraavan merkin ennustetta. 

Visuaalinen-autoregressiivinen mallinnus seuraavan mittakaavan ennusteen avulla

VAR-kehys uudelleenkäsittelee kuvien autoregressiivisen mallinnuksen siirtymällä seuraavan tokenin ennusteesta seuraavan mittakaavan ennustuslähestymistapaan, prosessissa, jossa autoregressiivinen yksikkö on kokonaisena merkkikartta sen sijaan, että se olisi yksi merkki. Malli kvantisoi ensin karttakohdekartan monimittakaavaisiksi merkkikartoiksi, joista jokaisella on korkeampi resoluutio kuin edellinen, ja huipentuu sovittamalla alkuperäisten karttakohteiden resoluutio. Lisäksi VAR-kehys kehittää uuden monimittaisen kvantisointienkooderin kuvan koodaamiseksi monimittakaisille diskreeteille merkkikartoille, joita tarvitaan VAR-oppimiseen. VAR-kehys käyttää samaa arkkitehtuuria kuin VQGAN, mutta muunnetulla monimittakaavaisella kvantisointikerroksella seuraavassa kuvassa esitetyillä algoritmeilla. 

Visuaalinen automaattinen regressiivinen: Tulokset ja kokeet

VAR-kehys käyttää vanilja-VQVAE-arkkitehtuuria monimittaisen kvantisointimenetelmän kanssa K-lisäkonvoluutiolla ja käyttää jaettua koodikirjaa kaikille asteikoille ja 32:n piilevää himmennystä varten. Pääpaino on VAR-algoritmissa, jonka ansiosta malliarkkitehtuurin suunnittelu on pidetään yksinkertaisena mutta tehokkaana. Kehys ottaa käyttöön standardin vain dekooderin muuntajan arkkitehtuurin, joka on samanlainen kuin GPT-2-malleissa toteutetut muuntajat, ja ainoa muutos on korvata perinteisellä kerrosten normalisoinnilla adaptiivinen normalisointi tai AdaLN. Luokkaehdollista synteesiä varten VAR-kehys toteuttaa luokan upotukset aloitusvalttina ja myös mukautuvan normalisointikerroksen ehdon. 

Huippuluokan kuvanluontitulokset

Yhdistettynä olemassa oleviin generatiivisiin kehyksiin, mukaan lukien GAN-verkot tai generatiiviset vastavuoroiset verkot, BERT-tyyliset maskatut ennustemallit, diffuusiomallit ja GPT-tyyliset autoregressiiviset mallit, Visual AutoRegressive -kehys näyttää lupaavia tuloksia yhteenvetona seuraavassa taulukossa. 

Kuten voidaan havaita, Visual AutoRegressive -kehys ei pysty ainoastaan ​​saamaan parhaat FID- ja IS-pisteet, vaan se osoittaa myös huomattavan kuvanmuodostusnopeuden, joka on verrattavissa uusimpiin malleihin. Lisäksi VAR-kehys säilyttää myös tyydyttävän tarkkuuden ja palautuspisteet, mikä vahvistaa sen semanttista johdonmukaisuutta. Mutta todellinen yllätys on VAR-kehyksen tarjoama huomattava suorituskyky perinteisissä AR-ominaisuuksissa tehden siitä ensimmäisen autoregressiivisen mallin, joka suoritti Diffusion Transformer -mallin, kuten seuraavassa taulukossa näkyy. 

Zero-Shot-tehtävän yleistyksen tulos

In- ja out-maalaustehtävissä VAR-kehyksen opettaja pakottaa pohjatotuustunnisteet maskin ulkopuolelle ja antaa mallin luoda vain maskin sisällä olevat merkit ilman, että malliin ruiskutetaan luokkatunnistetietoja. Tulokset esitetään seuraavassa kuvassa, ja kuten näkyy, VAR-malli saavuttaa hyväksyttäviä tuloksia alavirran tehtävissä ilman parametrien viritystä tai verkkoarkkitehtuuria muuttamatta, mikä osoittaa VAR-kehyksen yleistettävyyden. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet uudesta visuaalisesta generatiivisesta viitekehyksestä nimeltä Visual AutoRegressive Modeling (VAR), joka 1) käsittelee teoreettisesti joitain tavallisiin kuvan autoregressiivisiin (AR) malleihin liittyviä ongelmia ja 2) tekee kielimallipohjaisista AR-malleista ensin ylivoimaisia. vahvat diffuusiomallit kuvanlaadun, monimuotoisuuden, tiedon tehokkuuden ja päättelynopeuden suhteen. Toisaalta perinteiset autoregressiiviset mallit vaativat määritellyn datajärjestyksen, kun taas toisaalta Visual AutoRegressive tai VAR-malli miettii uudelleen, miten kuva järjestetään, ja tämä erottaa VAR:n olemassa olevista AR-menetelmistä. Skaalattuaan VAR:n 2 miljardiin parametriin VAR-kehyksen kehittäjät havaitsivat selkeän teholakisuhteen testisuorituskyvyn ja malliparametrien tai harjoituslaskennan välillä Pearson-kertoimien ollessa lähellä −0.998:aa, mikä osoittaa vankan suorituskyvyn ennustamisen kehyksen. Nämä skaalauslainsäädäntö ja mahdollisuus nollasta tehtävien yleistämiseen, jotka ovat LLM:ien tunnusmerkkejä, on nyt alun perin vahvistettu VAR-muuntajamalleissamme. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.