ciot MambaOut: Avem cu adevărat nevoie de Mamba pentru Vision? - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

MambaOut: Avem cu adevărat nevoie de Mamba pentru Vision?

mm

Publicat

 on

În cadrele moderne de învățare automată și inteligență artificială, transformatoarele sunt una dintre cele mai utilizate componente în diferite domenii, inclusiv seria GPT și BERT în procesarea limbajului natural și transformatoarele de vedere în sarcinile de viziune pe computer. Deși includerea transformatoarelor în arhitectura modelului oferă o creștere semnificativă a performanței modelului, modulul de atenție din Transformers scala cu lungimea secvenței în mod pătratic, ceea ce duce la provocări de calcul mari. De-a lungul anilor, diferite modele au explorat diferite strategii pentru a aborda provocările de calcul, inclusiv metode precum kernelizarea, compresia memoriei istorice, limitarea intervalului de amestecare a jetoanelor și abordări de rang scăzut. Recent, rețelele neuronale recurente precum metodele, inclusiv Mamba și RWKV, au adunat o atenție semnificativă datorită rezultatelor lor promițătoare în modelele de limbaj mari. 

Mamba, o familie de modele are o arhitectură cu o rețea neuronală recurentă, cum ar fi mixerul de simboluri a unui model de spațiu de stare, a fost introdus recent pentru a aborda complexitatea pătratică a mecanismelor de atenție și a fost aplicat ulterior sarcinilor de vedere. Cercetătorii au explorat deja modalități de a încorpora Mamba și SSM sau modelul spațial de stat în sarcinile de recunoaștere vizuală, iar Vision Mamba care încorporează Mamba pentru a dezvolta modele de viziune izotropă asemănătoare Vision Transformer este un exemplu excelent al aceluiași lucru. Pe de altă parte, LocalMamba încorporează părtiniri inductive locale pentru a îmbunătăți modelele Mamba vizuale, iar cadrul VMamba utilizează modelul Mamba de bază pentru a construi modele ierarhice similare cu ResNet și AlexNet. Cu toate acestea, este cadrul Mamba cu adevărat esențial pentru sarcinile de context de recunoaștere vizuală? Întrebarea apare deoarece performanța familiei de modele Mamba pentru sarcini de vedere a fost dezamăgitoare până acum în comparație cu modelele tradiționale bazate pe atenție și convoluționale. 

MambaOut este o lucrare care încearcă să aprofundeze în esența cadrului Mamba și să răspundă dacă Mamba este ideal pentru sarcini cu caracteristici autoregresive și de secvență lungă. Cadrul MambaOut presupune că Mamba nu este necesar pentru sarcinile de vedere, deoarece clasificarea imaginilor nu se aliniază nici cu secvența lungă, nici cu caracteristicile autoregresive. Deși sarcinile de segmentare și detecție nu sunt, de asemenea, autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce conduce cadrul MambaOut să emită ipoteza potențialului Mamba pentru aceste sarcini. Cadrul MambaOut este construit prin stivuirea blocurilor Mamba unul peste altul, în timp ce se elimină modelul de spațiu de stat, mixerul său de bază de jetoane. Rezultatele experimentale susțin ipoteza propusă de cadrul MambaOut, deoarece este capabil să depășească toate modelele vizuale Mamba din cadrul de clasificare a imaginii ImageNet, indicând că Mamba nu este necesar pentru sarcinile vizuale. Pe de altă parte, pentru sarcinile de detectare și segmentare, framework-ul MambaOut nu este în măsură să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcini vizuale de secvență lungă. 

Acest articol își propune să acopere cadrul MambaOut în profunzime și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Asadar, haideti sa începem. 

MambaOut: Este cu adevărat nevoie de Mamba pentru viziune?

Odată cu progresul aplicațiilor și capabilităților de învățare automată, Transformers au apărut ca coloana vertebrală principală pentru o serie de sarcini, alimentând modele proeminente, inclusiv Transformatoare de vedere, seria de modele GPT, BERT și încă câteva. Cu toate acestea, mixerul de simbol al transformatorului are o complexitate pătratică în ceea ce privește lungimea secvenței și prezintă provocări semnificative pentru secvențele mai lungi. Pentru a rezolva această problemă, au fost introduse numeroase mixere de jetoane cu complexitate liniară până la lungimea jetoanelor, cum ar fi Linformer, Longformer, Performer, Dynamic Convolution și Big Bird. Cu toate acestea, în ultima vreme, modelele asemănătoare rețelelor neuronale recurente câștigă proeminență datorită capacității lor de antrenament paralelizabil și oferind performanțe eficiente pe secvențe mai lungi. Ghidați de performanța remarcabilă oferită de modelele asemănătoare RNN, cercetătorii încearcă să introducă și să utilizeze familia de modele Mamba în sarcini de recunoaștere vizuală, deoarece mixerul de simboluri al modelelor Mamba este modelul de spațiu de stat structurat sub spiritul rețelelor neuronale recurente. . Cu toate acestea, rezultatele experimentale indică faptul că cadrele de viziune bazate pe modele spațiale de stat funcționează dezamăgitor în sarcinile de viziune din lumea reală, în comparație cu modelele convoluționale bazate pe atenție și de ultimă generație. 

MambaOut este o încercare de a investiga natura Mamba familie de modele și rezumă că Mamba este potrivit pentru sarcini care sunt fie autoregresive, fie cu secvență lungă, deoarece modelul spațiului de stat are un mecanism RNN inerent. Cu toate acestea, majoritatea sarcinilor de vedere nu prezintă ambele caracteristici, iar pe baza unor experimente, MambaOut propune următoarele două ipoteze. În primul rând, modelul spațiului de stare nu este necesar pentru clasificarea imaginilor, deoarece sarcina de clasificare a imaginii nu se conformează nici caracteristicilor autoregresive, nici de secvență lungă. În al doilea rând, modelele de spațiu de stare pot fi benefice din punct de vedere ipotetic, de exemplu, segmentarea și segmentarea semantică împreună cu detectarea obiectelor, deoarece urmează caracteristicile secvenței lungi, deși nu sunt autoregresive. Rezultatele experimentale efectuate pentru a analiza rețeaua neuronală recurentă ca mecanism al modelului spațiului de stat concluzionează că cadrul Mamba este potrivit pentru sarcini cu caracteristici autoregresive sau de secvență lungă și nu este necesar pentru sarcinile de clasificare a imaginilor. Venind la cadrul MambaOut în sine, este o serie de modele Mamba bazate pe blocuri Gated Convolutional Neural Network fără modelul de spațiu de stat, iar rezultatele experimentale indică faptul că cadrul MambaOut este capabil să depășească modelele Mamba în sarcinile de clasificare a imaginilor, dar nu reușește să se repete. performanța la sarcinile de detectare și segmentare a imaginii. 

Pentru ce sarcini este potrivită Mamba?

Mixerul de token al cadrului Mamba este un model selectiv de spațiu de stare care definește patru parametri dependenți de intrare. Proprietatea recurentă a cadrului distinge modelele de spațiu de stare asemănătoare RNN de atenția cauzală. Starea ascunsă poate fi văzută ca o memorie de dimensiune fixă ​​care stochează informații istorice. Dimensiunea fixă ​​înseamnă că memoria are pierderi, dar asigură, de asemenea, că complexitatea de calcul a integrării memoriei cu intrarea curentă rămâne constantă. Dimpotrivă, straturile de atenție cauzală stochează toate cheile și valorile de la jetoanele anterioare și se extind adăugând cheia și valoarea jetonului curent cu fiecare intrare nouă, iar această memorie este fără pierderi, teoretic. Cu toate acestea, dimensiunea memoriei crește pe măsură ce sunt introduse mai multe jetoane, crescând complexitatea integrării memoriei cu intrarea curentă. Diferența dintre mecanismele de memorie dintre atenția cauzală și modelele asemănătoare RNN sunt ilustrate în figura următoare. 

Deoarece memoria modelului spațiului de stare este în mod inerent cu pierderi, nu face față memoriei fără pierderi a atenției cauzale și, ca urmare, Modele Mamba nu își poate demonstra puterea în manipularea secvențelor scurte, un domeniu în care mecanismul atenției cauzale funcționează bine cu ușurință. Cu toate acestea, în scenariile care implică secvențe lungi, abordarea atenției cauzale se clătește din cauza complexității pătratice. În acest scenariu, cadrul Mamba își arată eficiența în îmbinarea memoriei cu intrarea curentă și este capabil să gestioneze fără probleme secvențele lungi, indicând că familia de modele Mamba este potrivită pentru procesarea secvențelor lungi. 

De asemenea, este de remarcat faptul că, pe de o parte, în cazul în care natura recurentă a modelului spațiului de stat permite modelelor Mamba să gestioneze eficient secvențe lungi, introduce o anumită limitare, deoarece poate accesa informații numai din intervalele de timp actuale și anterioare, iar acest tip de amestecarea jetoanelor este denumită mod cauzal și este ilustrată în figura următoare. Datorită naturii sale cauzale, această metodă este potrivită pentru sarcini de generare autoregresivă

Modul complet vizibil este potrivit pentru înțelegerea sarcinilor în care modelul poate accesa toate intrările simultan. În plus, atenția este în mod implicit vizibil în totalitate și poate fi transformată cu ușurință în modul cauzal prin aplicarea măștilor cauzale pe hărțile de atenție, iar modelele asemănătoare RNN funcționează în mod inerent în modul cauzal datorită proprietăților lor recurente. Pentru a rezuma lucrurile, cadrul Mamba este potrivit pentru sarcini care fie implică procesarea unor secvențe lungi, fie sarcini care necesită un mod de amestecare cauzală a simbolurilor.

Sarcini de recunoaștere vizuală, cod de amestecare a jetoanelor cauzale și secvențe foarte mari

După cum sa discutat mai devreme, modul de amestecare a jetoanelor complet vizibil permite o gamă nerestricționată de amestecare, în timp ce modul cauzal limitează simbolul curent pentru a accesa doar informațiile de la jetoanele precedente. În plus, recunoașterea vizuală este clasificată ca o sarcină de înțelegere în care modelul poate vedea întreaga imagine simultan, iar acest lucru elimină nevoia de restricții privind amestecarea token-ului, iar impunerea de constrângeri suplimentare asupra amestecării token-ului poate degrada performanța modelului. În general, modul complet vizibil este potrivit pentru înțelegerea sarcinilor, în timp ce modul casual se potrivește mai bine sarcinilor autoregresive. În plus, această afirmație este susținută și de faptul că modelele BeRT și ViT sunt folosite pentru înțelegerea sarcinilor mai mult decât modelele GPT.

Verificarea experimentală și rezultatele

Următorul pas este verificarea experimentală a ipotezelor propuse de cadrul MambaOut. După cum se demonstrează în imaginea următoare, blocul Mamba se bazează pe blocul Gated Convolutional Neural Network, iar meta-arhitectura blocurilor Mamba și Gated CNN poate fi tratată ca o integrare simplificată a mixerului de token al cadrului MetaFormer și un MLP. . 

Blocul Mamba extinde rețeaua neuronală convoluțională Gated cu un model spațial de stat suplimentar, iar prezența unui SSm este ceea ce distinge Gated CNN și blocul Mamba. Mai mult, pentru a îmbunătăți viteza practică, cadrul MambaOut efectuează doar convoluție în profunzime pe canale parțiale și, așa cum se demonstrează în următorul algoritm, implementarea blocului Gated CNN este simplă, dar eficientă și elegantă. 

Sarcină de clasificare a imaginilor

ImageNet servește drept punct de referință pentru sarcinile de clasificare a imaginilor, deoarece constă din peste o mie de clase comune, peste 1.3 milioane de imagini de antrenament și peste 50,000 de imagini de validare. Mărirea datelor utilizată pentru experiment constă în decupare aleatorie redimensionată, amestecare, fluctuație de culoare, ștergere aleatorie, CutMix și creștere aleatorie. Următorul tabel rezumă performanța familiei de modele Mamba, a modelului MambaOut și a altor modele bazate pe atenție și convoluție din setul de date ImageNet. După cum se poate vedea, cadrul MambaOut fără modelul de spațiu de stat depășește modelele vizuale Mamba cu SSM în mod constant pentru toate dimensiunile de model. 

De exemplu, modelul MambaOut-Small returnează un scor de precizie în top-1 de peste 84%, cu 0.4% mai mare decât cel mai apropiat concurent Mamba. Acest rezultat susține cu tărie prima ipoteză care susține că introducerea unui model de spațiu de stare pentru sarcinile de clasificare a imaginilor nu este necesară. 

Sarcini de detectare a obiectelor și segmentare a instanțelor

COCO servește ca punct de referință pentru detectarea obiectelor și sarcinile de segmentare a instanțelor. Deși cadrul MambaOut este capabil să depășească performanța unor modele Mamba vizuale, încă nu face față modelelor Mamba vizuale de ultimă generație, inclusiv LocalVMamba și VMamba. Diferența de performanță a MambaOut față de modelele vizuale de ultimă generație subliniază beneficiile integrării familiei de modele Mamba în sarcini vizuale cu secvență lungă. Cu toate acestea, merită remarcat faptul că încă există un decalaj semnificativ de performanță între modelele de ultimă generație convoluție-atenție-hibride și modelele vizuale Mamba. 

Gânduri finale

În acest articol, am discutat despre conceptele familiei de modele Mamba și am ajuns la concluzia că este potrivită pentru sarcini care implică caracteristici autoregresive și de secvență lungă. MambaOut este o lucrare care încearcă să aprofundeze în esența cadrului Mamba și să răspundă dacă Mamba este ideal pentru sarcini cu caracteristici autoregresive și de secvență lungă. Cadrul MambaOut presupune că Mamba nu este necesar pentru sarcinile de vedere, deoarece clasificarea imaginilor nu se aliniază nici cu secvența lungă, nici cu caracteristicile autoregresive. Deși sarcinile de segmentare și detecție nu sunt, de asemenea, autoregresive, ele prezintă caracteristici de secvență lungă, ceea ce conduce cadrul MambaOut să emită ipoteza potențialului Mamba pentru aceste sarcini. Cadrul MambaOut este construit prin stivuirea blocurilor Mamba unul peste altul, în timp ce se elimină modelul de spațiu de stat, mixerul său de bază de jetoane. Rezultatele experimentale susțin ipoteza propusă de cadrul MambaOut, deoarece este capabil să depășească toate modelele vizuale Mamba din cadrul de clasificare a imaginii ImageNet, indicând că Mamba nu este necesar pentru sarcinile vizuale. Pe de altă parte, pentru sarcinile de detectare și segmentare, framework-ul MambaOut nu este în măsură să reproducă performanța oferită de modelul Mamba de ultimă generație, demonstrând potențialul familiei de modele Mamba pentru sarcini vizuale de secvență lungă. 

 

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.