Povežite se s nama

Umjetna inteligencija

MambaOut: Trebamo li stvarno Mambu za vid?

mm

Objavljeno

 on

U modernom strojnom učenju i okvirima umjetne inteligencije, transformatori su jedna od najčešće korištenih komponenti u raznim domenama uključujući GPT seriju i BERT u obradi prirodnog jezika i Vision Transformers u zadacima računalnog vida. Iako uključivanje transformatora u arhitekturu modela daje značajan poticaj performansama modela, modul pozornosti u Transformersima kvadratno se skalira s duljinom niza, što dovodi do velikih računalnih izazova. Tijekom godina različiti modeli istraživali su različite strategije za rješavanje računalnih izazova uključujući metode kao što su kernelizacija, kompresija memorije povijesti, ograničenje raspona miješanja tokena i pristupe niskog ranga. Nedavno su metode poput ponavljajućih neuronskih mreža, uključujući Mambu i RWKV, privukle značajnu pozornost zahvaljujući svojim obećavajućim rezultatima u velikim jezičnim modelima. 

Mamba, obitelj modela ima arhitekturu s rekurentnom neuronskom mrežom kao što je mikser tokena modela prostora stanja koji je nedavno predstavljen kako bi se pozabavila kvadratnom složenošću mehanizama pažnje i naknadno je primijenjen na zadatke vida. Istraživači su već istražili načine za uključivanje Mambe i SSM-a ili State Space Modela u zadatke vizualnog prepoznavanja, a Vision Mamba koja uključuje Mambu za razvoj izotropnih modela vida sličnih Vision Transformeru izvrstan je primjer istog. S druge strane, LocalMamba uključuje lokalne induktivne pristranosti za poboljšanje vizualnih Mamba modela, a okvir VMamba koristi osnovni Mamba model za konstruiranje hijerarhijskih modela sličnih ResNetu i AlexNetu. Međutim, je li okvir Mamba doista neophodan za zadatke konteksta vizualnog prepoznavanja? Pitanje se postavlja jer je izvedba Mamba obitelji modela za zadatke vida do sada bila nepovoljna u usporedbi s tradicionalnim modelima koji se temelje na pažnji i konvolucijskim modelima. 

MambaOut je rad koji pokušava proniknuti u bit okvira Mamba i odgovoriti je li Mamba idealno prilagođena za zadatke s autoregresivnim i dugosekvencijskim karakteristikama. Okvir MambaOut pretpostavlja da Mamba nije nužna za zadatke vida budući da klasifikacija slike nije u skladu s karakteristikama dugog niza ili autoregresije. Iako zadaci segmentacije i detekcije također nisu autoregresivni, oni prikazuju karakteristike dugog niza, što dovodi okvir MambaOut do hipoteze o potencijalu Mambe za te zadatke. Okvir MambaOut konstruiran je slaganjem Mamba blokova jedan na drugi uz uklanjanje modela prostora stanja, njegovog temeljnog mikser tokena. Eksperimentalni rezultati podupiru hipotezu koju je iznio okvir MambaOut budući da je u stanju nadmašiti sve modele vizualne Mambe na okviru za klasifikaciju slika ImageNet, što ukazuje da Mamba nije potrebna za zadatke vida. S druge strane za zadatke detekcije i segmentacije, okvir MambaOut ne može replicirati izvedbu koju nudi najsuvremeniji model Mamba, pokazujući potencijal obitelji modela Mamba za vizualne zadatke dugog niza. 

Ovaj članak ima za cilj detaljno pokriti okvir MambaOut, a mi istražujemo mehanizam, metodologiju, arhitekturu okvira zajedno s njegovom usporedbom s najsuvremenijim okvirima. Pa krenimo. 

MambaOut: Je li Mamba stvarno potrebna za vid?

S napretkom aplikacija i mogućnosti strojnog učenja, Transformers su se pojavili kao glavna okosnica za niz zadataka, pokrećući istaknute modele uključujući Vision Transformers, GPT serija modela, BERT, i još nekoliko njih. Međutim, mješalica tokena transformatora izaziva kvadratnu složenost s obzirom na duljinu sekvence i predstavlja značajne izazove za duže sekvence. Kako bi se riješio ovaj problem, uvedeni su brojni mikseri tokena s linearnom složenošću prema duljini tokena kao što su Linformer, Longformer, Performer, Dynamic Convolution i Big Bird. Međutim, u novije vrijeme modeli slični rekurentnoj neuronskoj mreži dobivaju na značaju zahvaljujući svojoj sposobnosti paralelizirajućeg treninga i pružanju učinkovite izvedbe na dužim sekvencama. Vođeni izvanrednim performansama koje nude modeli slični RNN-u, istraživači pokušavaju uvesti i upotrijebiti Mamba obitelj modela u zadacima vizualnog prepoznavanja budući da je mikser tokena Mamba modela strukturirani model prostora stanja u duhu Rekurentnih neuronskih mreža . Međutim, eksperimentalni rezultati ukazuju na to da okviri za viziju koji se temelje na modelu prostora stanja imaju loš učinak u zadacima vizije u stvarnom svijetu u usporedbi s modelima koji se temelje na pozornosti i najsuvremenijim konvolucijskim modelima. 

MambaOut je pokušaj da se istraži priroda Mamba obitelj modela, i sažima da je Mamba prikladna za zadatke koji su ili autoregresivni ili dugog niza budući da model prostora stanja ima inherentni RNN mehanizam. Međutim, većina zadataka vida ne sadrži obje ove karakteristike, a na temelju nekih eksperimenata, MambaOut predlaže sljedeće dvije hipoteze. Prvo, model prostora stanja nije neophodan za klasifikaciju slike budući da zadatak klasifikacije slike nije u skladu niti s autoregresivnim niti dugosekvencijskim karakteristikama. Drugo, modeli prostora stanja mogu biti hipotetski korisni za primjerice segmentaciju i semantičku segmentaciju zajedno s otkrivanjem objekta, budući da slijede karakteristike dugog niza iako nisu autoregresivni. Eksperimentalni rezultati provedeni za analizu mehanizma modela prostora stanja sličnog rekurentnoj neuronskoj mreži zaključuju da je okvir Mamba prikladan za zadatke s autoregresijskim ili dugosekvencijskim karakteristikama, te da je nepotreban za zadatke klasifikacije slika. Što se samog okvira MambaOut tiče, radi se o nizu Mamba modela temeljenih na blokovima Gated Convolutional Neural Network bez modela prostora stanja, a eksperimentalni rezultati pokazuju da je okvir MambaOut sposoban nadmašiti Mamba modele u zadacima klasifikacije slika, ali ne uspijeva replicirati učinkovitost zadataka otkrivanja i segmentacije slike. 

Za koje je zadatke Mamba prikladna?

Mješalica tokena okvira Mamba selektivni je model prostora stanja koji definira četiri parametra ovisna o unosu. Rekurentno svojstvo okvira razlikuje RNN-like modele prostora stanja od kauzalne pozornosti. Skriveno stanje može se promatrati kao memorija fiksne veličine koja pohranjuje povijesne informacije. Fiksna veličina znači da memorija gubi, ali također osigurava da računalna složenost integriranja memorije s trenutnim ulazom ostaje konstantna. Suprotno tome, slojevi uzročne pažnje pohranjuju sve ključeve i vrijednosti iz prethodnih tokena i proširuju se dodavanjem ključa i vrijednosti trenutnog tokena sa svakim novim unosom, a ta je memorija teoretski bez gubitaka. Međutim, veličina memorije raste kako se unosi više tokena, povećavajući složenost integracije memorije s trenutnim unosom. Razlika između mehanizama pamćenja između kauzalne pažnje i modela sličnih RNN-u ilustrirana je na sljedećoj slici. 

Budući da je pamćenje modela prostora stanja inherentno izgubljeno, ono je manje od pamćenja uzročne pozornosti bez gubitaka, i kao rezultat toga, Mamba modeli ne može pokazati svoju snagu u rukovanju kratkim sekvencama, području u kojem mehanizam uzročne pažnje radi dobro s lakoćom. Međutim, u scenarijima koji uključuju duge sekvence, pristup kauzalne pažnje posustaje zbog kvadratne složenosti. U ovom scenariju, okvir Mamba pokazuje svoju učinkovitost u spajanju memorije s trenutnim ulazom i može glatko rukovati dugim sekvencama, što ukazuje da je obitelj Mamba modela prikladna za obradu dugih sekvenci. 

Također je vrijedno napomenuti da s jedne strane, kada ponavljajuća priroda modela prostora stanja omogućuje Mamba modelima da učinkovito rukuju dugim sekvencama, ona uvodi određeno ograničenje jer može pristupiti informacijama samo iz trenutnog i prethodnih vremenskih koraka, a ova vrsta miješanje tokena naziva se kauzalnim načinom, a ilustrirano je na sljedećoj slici. Zbog svoje kauzalne prirode, ova metoda je prikladna za zadaci autoregresivne generacije

Potpuno vidljivi način rada prikladan je za razumijevanje zadataka u kojima model može pristupiti svim ulazima odjednom. Nadalje, pažnja je prema zadanim postavkama u potpuno vidljivom načinu rada i može se lako pretvoriti u kauzalni način primjenom uzročnih maski na karte pažnje, a modeli slični RNN-u inherentno rade u kauzalnom načinu rada zbog svojih ponavljajućih svojstava. Ukratko, okvir Mamba prikladan je za zadatke koji uključuju obradu dugih sekvenci ili zadatke koji zahtijevaju uzročni način miješanja tokena.

Zadaci vizualnog prepoznavanja, kod miješanja uzročnog tokena i vrlo velike sekvence

Kao što je ranije objašnjeno, potpuno vidljivi način miješanja tokena dopušta neograničeni raspon miješanja, dok uzročni način ograničava trenutni token na pristup samo informacijama iz prethodnih tokena. Nadalje, vizualno prepoznavanje kategorizirano je kao zadatak razumijevanja gdje model može vidjeti cijelu sliku odjednom, a to eliminira potrebu za ograničenjima na miješanje tokena, a nametanje dodatnih ograničenja na miješanje tokena može potencijalno pogoršati izvedbu modela. Općenito, potpuno vidljivi način rada prikladan je za razumijevanje zadataka, dok povremeni način rada bolje odgovara autoregresijskim zadacima. Nadalje, ovu tvrdnju dodatno podupire činjenica da se BeRT i ViT modeli više koriste za razumijevanje zadataka nego GPT modeli.

Eksperimentalna provjera i rezultati

Sljedeći korak je eksperimentalna provjera hipoteza koje je predložio okvir MambaOut. Kao što je prikazano na sljedećoj slici, blok Mamba temelji se na bloku Gated Convolutional Neural Network, a meta-arhitektura blokova Mamba i Gated CNN može se tretirati kao pojednostavljena integracija mikser tokena okvira MetaFormer i MLP . 

Blok Mamba proširuje Gated Convolutional Neural Network s dodatnim modelom prostora stanja, a prisutnost SSm ono je što razlikuje Gated CNN i Mamba blok. Nadalje, kako bi se poboljšala praktična brzina, okvir MambaOut provodi samo dubinsku konvoluciju na parcijalnim kanalima, a kao što je prikazano u sljedećem algoritmu, implementacija Gated CNN bloka je jednostavna, ali učinkovita i elegantna. 

Zadatak klasifikacije slika

ImageNet služi kao mjerilo za zadatke klasifikacije slika budući da se sastoji od preko tisuću uobičajenih klasa, preko 1.3 milijuna slika za obuku i preko 50,000 XNUMX slika za provjeru valjanosti. Povećanje podataka korišteno za eksperiment sastoji se od nasumičnog izrezivanja promijenjene veličine, Mixup-a, podrhtavanja boja, Random Erasing-a, CutMix-a i Rand Augment-a. Sljedeća tablica sažima izvedbu obitelji modela Mamba, modela MambaOut i drugih modela temeljenih na pažnji i konvolucije na skupu podataka ImageNet. Kao što se može vidjeti, okvir MambaOut bez modela prostora stanja nadmašuje vizualne Mamba modele sa SSM-om dosljedno u svim veličinama modela. 

Na primjer, model MambaOut-Small daje top-1 ocjenu točnosti od preko 84%, 0.4% više od svog najbližeg Mamba konkurenta. Ovaj rezultat snažno podupire prvu hipotezu koja tvrdi da uvođenje modela prostora stanja za zadatke klasifikacije slika nije potrebno. 

Zadaci otkrivanja objekata i segmentacije instanci

COCO služi kao mjerilo za zadatke otkrivanja objekata i segmentacije instanci. Iako okvir MambaOut može nadmašiti performanse nekih vizualnih Mamba modela, još uvijek zaostaje za najsuvremenijim vizualnim Mamba modelima, uključujući LocalVMamba i VMamba. Razlika u izvedbi MambaOut-a u odnosu na najsuvremenije vizualne modele naglašava prednosti integriranja Mamba obitelji modela u dugotrajne vizualne zadatke. Međutim, vrijedi napomenuti da još uvijek postoji značajan jaz u izvedbi između najsuvremenijih hibridnih modela konvolucije, pozornosti i vizualnih Mamba modela. 

Final Misli

U ovom smo članku raspravljali o konceptima Mamba obitelji modela i zaključili da je prikladan za zadatke koji uključuju autoregresivne i dugosekvencijske karakteristike. MambaOut je rad koji pokušava proniknuti u bit okvira Mamba i odgovoriti je li Mamba idealno prilagođena za zadatke s autoregresivnim i dugosekvencijskim karakteristikama. Okvir MambaOut pretpostavlja da Mamba nije nužna za zadatke vida budući da klasifikacija slike nije u skladu s karakteristikama dugog niza ili autoregresije. Iako zadaci segmentacije i detekcije također nisu autoregresivni, oni prikazuju karakteristike dugog niza, što dovodi okvir MambaOut do hipoteze o potencijalu Mambe za te zadatke. Okvir MambaOut konstruiran je slaganjem Mamba blokova jedan na drugi uz uklanjanje modela prostora stanja, njegovog temeljnog mikser tokena. Eksperimentalni rezultati podupiru hipotezu koju je iznio okvir MambaOut budući da je u stanju nadmašiti sve modele vizualne Mambe na okviru za klasifikaciju slika ImageNet, što ukazuje da Mamba nije potrebna za zadatke vida. S druge strane za zadatke detekcije i segmentacije, okvir MambaOut ne može replicirati izvedbu koju nudi najsuvremeniji model Mamba, pokazujući potencijal obitelji modela Mamba za vizualne zadatke dugog niza. 

 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.