Liity verkostomme!

Tekoäly

MambaOut: Tarvitsemmeko todella Mambaa Visionille?

mm

Julkaistu

 on

Nykyaikaisissa koneoppimisen ja tekoälyn kehyksissä muuntajat ovat yksi laajimmin käytetyistä komponenteista eri aloilla, mukaan lukien GPT-sarja ja BERT Natural Language Processingissa ja Vision Transformers tietokonenäkötehtävissä. Vaikka muuntajien sisällyttäminen malliarkkitehtuuriin parantaa merkittävästi mallin suorituskykyä, Transformersin huomiomoduuli skaalautuu sekvenssin pituuden kanssa neliöllisesti, mikä johtaa suuriin laskennallisiin haasteisiin. Vuosien varrella eri malleissa on tutkittu erilaisia ​​strategioita laskennallisten haasteiden ratkaisemiseksi, mukaan lukien menetelmät, kuten kernelointi, historiamuistin pakkaus, merkkien sekoitusalueen rajoitus ja matalan tason lähestymistavat. Viime aikoina Recurrent Neural Networks, kuten menetelmät, kuten Mamba ja RWKV, ovat keränneet merkittävää huomiota lupaavien tulostensa ansiosta suurissa kielimalleissa. 

Mamba, malliperhe, on arkkitehtuuri, jossa on toistuva hermoverkko, kuten tila-avaruusmallin merkkisekoitin, joka otettiin äskettäin käyttöön huomiomekanismien neliöllisen monimutkaisuuden käsittelemiseksi, ja sitä sovellettiin myöhemmin näkötehtäviin. Tutkijat ovat jo tutkineet tapoja sisällyttää Mamba ja SSM tai State Space Model visuaaliseen tunnistustehtäviin, ja Vision Mamba, joka yhdistää Mamban kehittämään Vision Transformerin kaltaisia ​​isotrooppisia näkömalleja, on loistava esimerkki samasta. Toisaalta LocalMamba sisältää paikallisia induktiivisia harhoja visuaalisten Mamba-mallien parantamiseksi, ja VMamba-kehys käyttää Mamba-perusmallia ResNetin ja AlexNetin kaltaisten hierarkkisten mallien rakentamiseen. Onko Mamba-kehys kuitenkin todella välttämätön visuaalisen tunnistamisen kontekstitehtävissä? Kysymys herää, koska Mamba-malliperheen näkemistehtävien suorituskyky on toistaiseksi ollut ylivoimainen verrattuna perinteisiin huomio- ja konvoluutiomalleihin. 

MambaOut on teos, joka yrittää syventyä Mamba-kehyksen olemukseen ja vastata, sopiiko Mamba ihanteellisesti tehtäviin, joissa on autoregressiivisiä ja pitkäjaksoisia ominaisuuksia. MambaOut-kehys olettaa, että Mamba ei ole välttämätön näkötehtäviin, koska kuvan luokittelu ei ole linjassa pitkän sekvenssin tai autoregressiivisten ominaisuuksien kanssa. Vaikka segmentointi- ja tunnistustehtävät eivät myöskään ole autoregressiivisiä, niissä on pitkän sekvenssin ominaisuuksia, mikä johtaa MambaOut-kehyksen olettamaan Mamban potentiaalia näihin tehtäviin. MambaOut-kehys rakennetaan pinoamalla Mamba-lohkoja päällekkäin samalla kun poistetaan tila-avaruusmalli, sen ydintoken mixer. Kokeelliset tulokset tukevat MambaOut-kehyksen esittämää hypoteesia, koska se pystyy ylittämään kaikki ImageNet-kuvan luokittelukehyksen visuaaliset Mamba-mallit, mikä osoittaa, että Mamba ei ole välttämätön näkötehtäviin. Toisaalta havaitsemis- ja segmentointitehtävissä MambaOut-kehys ei pysty toistamaan huippuluokan Mamba-mallin tarjoamaa suorituskykyä, mikä osoittaa Mamba-malliperheen mahdollisuudet pitkän sekvenssin visuaalisiin tehtäviin. 

Tämän artikkelin tarkoituksena on kattaa MambaOut-kehys perusteellisesti, ja tutkimme mekanismia, metodologiaa, kehyksen arkkitehtuuria sekä sen vertailua uusimpien kehysten kanssa. Joten aloitetaan. 

MambaOut: Tarvitaanko Mambaa todella visioon?

Koneoppimissovellusten ja -ominaisuuksien kehittymisen myötä Transformers on noussut valtavirran selkärangaksi useille tehtäville, jotka tarjoavat voiman merkittäville malleille, kuten Visuaaliset muuntajat, GPT-mallisarja, BERT ja muutama muu. Kuitenkin muuntajan merkkisekoittimessa on neliöllinen monimutkaisuus sekvenssin pituuden suhteen ja se asettaa merkittäviä haasteita pitemmille sekvensseille. Tämän ongelman ratkaisemiseksi on esitelty lukuisia merkkisekoittimia, joiden monimutkaisuus on lineaarinen tokenin pituuteen, kuten Linformer, Longformer, Performer, Dynamic Convolution ja Big Bird. Kuitenkin viime aikoina Recurrent Neural Networkin kaltaiset mallit ovat nousseet näkyvyyteen, koska ne pystyvät rinnakkain harjoittamaan ja tarjoavat tehokkaan suorituskyvyn pidemmissä sarjoissa. RNN:n kaltaisten mallien tarjoaman huomattavan suorituskyvyn ohjaamana tutkijat yrittävät ottaa käyttöön ja hyödyntää Mamba-malliperhettä visuaalisiin tunnistustehtäviin, koska Mamba-mallien merkkisekoittaja on strukturoitu tila-avaruusmalli Recurrent Neural Networks -periaatteen mukaisesti. . Kokeelliset tulokset osoittavat kuitenkin, että tila-avaruusmalliin perustuvat näön puitteet toimivat ylivoimaisesti reaalimaailman näkötehtävissä verrattuna huomiopohjaisiin ja huippuluokan konvoluutiomalleihin. 

MambaOut on yritys tutkia sen luonnetta Mamba malliperheeseen, ja tiivistää, että Mamba sopii tehtäviin, jotka ovat joko autoregressiivisiä tai pitkäjaksoisia, koska tila-avaruusmallilla on luontainen RNN-mekanismi. Suurin osa näkötehtävistä ei kuitenkaan sisällä näitä molempia ominaisuuksia, ja joidenkin kokeiden perusteella MambaOut ehdottaa seuraavia kahta hypoteesia. Ensinnäkin tilaavaruusmalli ei ole välttämätön kuvan luokittelussa, koska kuvan luokittelutehtävä ei vastaa autoregressiivisiä eikä pitkän sekvenssin ominaisuuksia. Toiseksi tila-avaruusmallit voivat olla hypoteettisesti hyödyllisiä esimerkiksi segmentoinnissa ja semanttisessa segmentoinnissa sekä objektien havaitsemisessa, koska ne noudattavat pitkän sekvenssin ominaisuuksia, vaikka ne eivät ole autoregressiivisiä. Toistuvan hermoverkon kaltaisen tila-avaruusmallin mekanismin analysoimiseksi tehdyt kokeelliset tulokset päättelevät, että Mamba-kehys soveltuu tehtäviin, joilla on autoregressiiviset tai pitkän sekvenssin ominaisuudet, ja että se on tarpeeton kuvien luokittelutehtäviin. Itse MambaOut-kehykseen liittyen se on sarja Mamba-malleja, jotka perustuvat aidatulla konvoluutiohermoverkon lohkoihin ilman tila-avaruusmallia, ja kokeelliset tulokset osoittavat, että MambaOut-kehys pystyy ylittämään Mamba-mallit kuvien luokittelutehtävissä, mutta se ei pysty replikoimaan. suorituskyky kuvantunnistus- ja segmentointitehtävissä. 

Mihin tehtäviin Mamba sopii?

Mamba-kehyksen merkkisekoitin on valikoiva tila-avaruusmalli, joka määrittelee neljä syötteestä riippuvaa parametria. Kehyksen toistuva ominaisuus erottaa RNN:n kaltaiset tilamallit kausaalisesta huomiosta. Piilotettu tila voidaan nähdä kiinteän kokoisena muistina, joka tallentaa historiallista tietoa. Kiinteä koko tarkoittaa, että muisti on häviöllinen, mutta se myös varmistaa, että muistin integroinnin laskennallinen monimutkaisuus nykyiseen tuloon pysyy vakiona. Sitä vastoin kausaaliset huomiotasot tallentavat kaikki avaimet ja arvot aikaisemmista tokeneista ja laajenevat lisäämällä nykyisen tunnuksen avaimen ja arvon jokaisen uuden syötteen yhteydessä, ja tämä muisti on teoreettisesti häviötön. Muistin koko kuitenkin kasvaa sitä mukaa, kun enemmän tunnuksia syötetään, mikä tekee muistin integroimisesta nykyisen tulon kanssa monimutkaisempaa. Kausaalisen huomion ja RNN:n kaltaisten mallien muistimekanismien välinen ero on havainnollistettu seuraavassa kuvassa. 

Koska tila-avaruusmallin muisti on luonnostaan ​​häviöllinen, se jää alle kausaalisen huomion häviöttömän muistin, ja sen seurauksena Mamba mallit ei pysty osoittamaan vahvuuttaan lyhyiden jaksojen käsittelyssä, alueella, jossa kausaalinen huomiomekanismi toimii hyvin helposti. Kuitenkin skenaarioissa, joihin liittyy pitkiä sekvenssejä, kausaalinen huomion lähestymistapa horjuu neliöllisen monimutkaisuuden vuoksi. Tässä skenaariossa Mamba-kehys osoittaa tehokkuutensa sulauttaa muistia nykyiseen tuloon ja pystyy käsittelemään pitkiä sekvenssejä sujuvasti, mikä osoittaa, että Mamba-malliperhe soveltuu hyvin pitkien sekvenssien käsittelyyn. 

On myös syytä huomata, että toisaalta, jos tila-avaruusmallin toistuva luonne mahdollistaa Mamba-mallien tehokkaan pitkien sekvenssien käsittelyn, se tuo tietyn rajoituksen, koska se voi käyttää tietoja vain nykyisestä ja aikaisemmasta aikavaiheesta, ja tämän tyyppinen token-sekoitusta kutsutaan kausaaliksi tilaksi, ja se esitetään seuraavassa kuvassa. Syy-luonteensa vuoksi tämä menetelmä sopii autoregressiiviset generointitehtävät

Täysin näkyvä tila soveltuu sellaisten tehtävien ymmärtämiseen, joissa malli pääsee käsiksi kaikkiin tuloihin kerralla. Lisäksi huomio on oletuksena täysin näkyvässä tilassa, ja se voidaan muuttaa helposti kausaalitilaan lisäämällä huomiokarttoihin kausaalisia maskeja, ja RNN:n kaltaiset mallit toimivat luonnostaan ​​kausaalitilassa toistuvien ominaisuuksiensa vuoksi. Yhteenvetona voidaan todeta, että Mamba-kehys sopii tehtäviin, joihin liittyy joko pitkien sekvenssien käsittelyä tai tehtäviä, jotka vaativat kausaalisen merkkisekoitustilan.

Visuaaliset tunnistustehtävät, kausaalisen merkkien sekoituskoodi ja erittäin suuret sekvenssit

Kuten aiemmin keskusteltiin, täysin näkyvä merkkien sekoitustila mahdollistaa rajoittamattoman sekoitusalueen, kun taas kausaalitila rajoittaa nykyistä merkkiä pääsemään vain tietoihin edellisistä tokeneista. Lisäksi visuaalinen tunnistus on luokiteltu ymmärtäväksi tehtäväksi, jossa malli näkee koko kuvan kerralla, ja tämä eliminoi rajoitusten tarpeen merkkien sekoittamiselle ja lisärajoitusten asettaminen merkkien sekoitukselle voi mahdollisesti heikentää mallin suorituskykyä. Yleensä täysin näkyvä tila sopii tehtävien ymmärtämiseen, kun taas casual-tila sopii paremmin autoregressiivisiin tehtäviin. Lisäksi tätä väitettä tukee edelleen se, että BeRT- ja ViT-malleja käytetään tehtävien ymmärtämiseen enemmän kuin GPT-malleja.

Kokeellinen vahvistus ja tulokset

Seuraava askel on varmistaa MambaOut-kehyksen esittämät hypoteesit kokeellisesti. Kuten seuraavassa kuvassa näkyy, Mamba-lohko perustuu Gated Convolutional Neural Network -lohkoon, ja Mamba- ja Gated CNN -lohkojen meta-arkkitehtuuria voidaan käsitellä MetaFormer-kehyksen merkkisekoittimen ja MLP:n yksinkertaistettuna integraationa. . 

Mamba-lohko laajentaa portitettua konvoluutiohermoverkkoa ylimääräisellä tila-avaruusmallilla, ja SSm:n läsnäolo erottaa aidatun CNN:n ja Mamba-lohkon. Lisäksi käytännön nopeuden parantamiseksi MambaOut-kehys suorittaa vain syvyyskonvoluutiota osittaisilla kanavilla, ja kuten seuraavassa algoritmissa osoitetaan, Gated CNN -lohkon toteutus on yksinkertainen, mutta silti tehokas ja tyylikäs. 

Kuvan luokittelutehtävä

ImageNet toimii vertailukohteena kuvien luokittelutehtävissä, sillä se koostuu yli tuhannesta yleisestä luokasta, yli 1.3 miljoonasta harjoituskuvasta ja yli 50,000 XNUMX validointikuvasta. Kokeessa käytetty datan lisäys koostuu satunnaisesti muutetusta rajauksesta, sekoituksesta, värivärinästä, satunnaisesta poistamisesta, CutMixistä ja Rand Augmentista. Seuraavassa taulukossa on yhteenveto Mamba-malliperheen, MambaOut-mallin ja muiden huomio- ja konvoluutiomallien suorituskyvystä ImageNet-tietojoukossa. Kuten voidaan nähdä, MambaOut-kehys ilman tila-avaruusmallia ylittää visuaaliset Mamba-mallit SSM:llä johdonmukaisesti kaikissa mallikooissa. 

Esimerkiksi MambaOut-Small-malli palauttaa yli 1 %:n parhaan 84-tarkkuuspisteen, mikä on 0.4 % korkeampi kuin sen lähin Mamba-kilpailija. Tämä tulos tukee vahvasti ensimmäistä hypoteesia, jonka mukaan tilaavaruusmallin käyttöönotto kuvien luokittelutehtäviin ei ole tarpeen. 

Objektien tunnistus- ja ilmentymien segmentointitehtävät

COCO toimii vertailukohtana objektien havaitsemiseen ja ilmentymien segmentointitehtäviin. Vaikka MambaOut-kehys pystyy ylittämään joidenkin visuaalisten Mamba-mallien suorituskyvyn, se jää silti alle huippuluokan visuaalisten Mamba-mallien, mukaan lukien LocalVMamba ja VMamba. MambaOutin suorituskyvyn ero uusimpien visuaalisten mallien kanssa korostaa Mamba-malliperheen integroinnin etuja pitkän sarjan visuaalisiin tehtäviin. On kuitenkin syytä huomata, että huippuluokan konvoluutio-huomio-hybridimallien ja visuaalisten Mamba-mallien välillä on edelleen merkittävä suorituskykyero. 

Loppuajatukset

Tässä artikkelissa olemme käsitelleet Mamba-malliperheen käsitteitä ja päätelleet, että se soveltuu tehtäviin, joissa on autoregressiivisiä ja pitkän sekvenssin ominaisuuksia. MambaOut on teos, joka yrittää syventyä Mamba-kehyksen olemukseen ja vastata, sopiiko Mamba ihanteellisesti tehtäviin, joissa on autoregressiivisiä ja pitkäjaksoisia ominaisuuksia. MambaOut-kehys olettaa, että Mamba ei ole välttämätön näkötehtäviin, koska kuvan luokittelu ei ole linjassa pitkän sekvenssin tai autoregressiivisten ominaisuuksien kanssa. Vaikka segmentointi- ja tunnistustehtävät eivät myöskään ole autoregressiivisiä, niissä on pitkän sekvenssin ominaisuuksia, mikä johtaa MambaOut-kehyksen olettamaan Mamban potentiaalia näihin tehtäviin. MambaOut-kehys rakennetaan pinoamalla Mamba-lohkoja päällekkäin samalla kun poistetaan tila-avaruusmalli, sen ydintoken mixer. Kokeelliset tulokset tukevat MambaOut-kehyksen esittämää hypoteesia, koska se pystyy ylittämään kaikki ImageNet-kuvan luokittelukehyksen visuaaliset Mamba-mallit, mikä osoittaa, että Mamba ei ole välttämätön näkötehtäviin. Toisaalta havaitsemis- ja segmentointitehtävissä MambaOut-kehys ei pysty toistamaan huippuluokan Mamba-mallin tarjoamaa suorituskykyä, mikä osoittaa Mamba-malliperheen mahdollisuudet pitkän sekvenssin visuaalisiin tehtäviin. 

 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.