škrbina BlackMamba: Mješavina stručnjaka za modele stanja i prostora - Unite.AI
Povežite se s nama

Umjetna inteligencija

BlackMamba: mješavina stručnjaka za modele stanja i prostora

mm

Objavljeno

 on

BlackMamba: mješavina stručnjaka za modele stanja i prostora

Razvoj velikih jezičnih modela (LLM) izgrađenih od transformatorskih modela samo za dekoder odigrao je ključnu ulogu u transformaciji domene obrade prirodnog jezika (NLP), kao i unaprjeđenju različitih aplikacija dubokog učenja uključujući učenje učvršćivanja, analiza vremenskih serija, obrada slike i još mnogo toga. Međutim, usprkos njihovoj skalabilnosti i dobrim performansama, LLM-ovi izgrađeni od modela transformatora koji koriste samo dekoder i dalje se suočavaju sa značajnim nedostacima. Iako ekspresivan, mehanizam pažnje u LLM-ovima izvedenim iz transformatora zahtijeva velike računalne resurse tijekom zaključivanja i obuke, zahtijevajući znatnu memoriju za duljinu niza i kvadratne FLOP-ove. Ovaj visoki računalni zahtjev ograničava duljinu konteksta modela transformatora, čineći zadatke autoregresivne generiranja proporcionalno skupima s razmjerom i sprječava učenje iz kontinuiranih tokova podataka i sposobnost za uistinu neograničenu obradu slijeda.

U novije vrijeme, Modeli prostora stanja (SSM) pokazali su izvanredne sposobnosti i performanse, natječući se s modelima transformatorske arhitekture u mjerilima modeliranja velikih razmjera, dok su postigli složenost memorije kao funkciju duljine niza i linearnog vremena. Štoviše, Mamba, nedavno objavljen Državni svemirski model, pokazao je izvanredne performanse u nizu zadataka jezičnog modeliranja i obrade dugih nizova. Istovremeno, modeli Mixture of Expert (MoE) također su pokazali impresivnu izvedbu uz značajno smanjenje latencije i računalnih troškova zaključivanja, iako nauštrb većeg memorijskog otiska. Nadovezujući se na modele Mamba i MoE, ovaj će članak raspravljati o BlackMambi, novoj arhitekturi koja kombinira svemirski model države Mamba s modelima MoE kako bi se iskoristile prednosti koje nude oba okvira. Eksperimenti na BlackMambi pokazali su njegovu sposobnost da nadmaši postojeći okvir Mamba i osnovne linije transformatora u obuci FLOP-ova i zaključivanju. Iznimna izvedba okvira BlackMamba pokazuje da može učinkovito kombinirati sposobnosti okvira Mamba i MoE, nudeći brzo i isplativo zaključivanje iz MoE s generiranjem linearne složenosti iz Mambe.

Ovaj članak ima za cilj detaljno pokriti okvir BlackMamba. Istražujemo mehanizam, metodologiju i arhitekturu okvira, zajedno s njegovom usporedbom s najsuvremenijim okvirima za generiranje slika i videa. Započnimo.

BlackMamba : Uvod u MoE za državne svemirske modele

Progresija velikih jezičnih modela (LLM), posebno onih koji se temelje na transformatorskim arhitekturama samo za dekodere, značajno je utjecala na Obrada prirodnog jezika (NLP) polje i prošireno na različite aplikacije dubinskog učenja, uključujući učenje s pojačanjem, analizu vremenskih nizova, obradu slika i dalje. Bez obzira na to, unatoč njihovoj skalabilnosti i robusnoj izvedbi, ovi LLM-ovi koji se temelje samo na transformatoru na dekoderu susreću se s značajnim izazovima. Mehanizam pažnje, ključna značajka transformatora LLMss, zahtijeva opsežne računalne resurse i za zaključivanje i za obuku. To uključuje potrebu za memorijom koja raste s duljinom niza i računalnim operacijama (FLOP) koje se kvadratno povećavaju. Takve intenzivne računalne potrebe ograničavaju duljinu konteksta modela, povećavaju troškove zadataka autoregresivne generiranja kako se model skalira i ometaju sposobnost modela da učinkovito uče iz kontinuiranih tokova podataka ili sekvenci procesa neograničene duljine. 

U proteklih nekoliko godina uloženi su značajni napori u pokušaju da se prevladaju ta ograničenja, a pozornost je usmjerena na osmišljavanje arhitektonskih alternativa kanonskim modelima transformatora guste pozornosti sa SSM-ovima i MoE modelima kao arhitekturama koje najviše obećavaju. Ključna prednost koju daje favoriziranje modela državnog prostora u odnosu na modele transformatorske arhitekture je linearna računalna složenost s obzirom na duljinu ulazne sekvence koju nude SSM-ovi za razliku od kvadratne složenosti koju nude transformatori. Teoretski, linearna računalna složenost s obzirom na duljinu ulazne sekvence omogućuje Modelima prostora stanja da obrade veće sekvence od modela transformatorske arhitekture za dani proračun FLOPS ili operacija s pomičnim zarezom po sekundi i da prikažu konstantu autoregresivne generacije u računanju bez KV predmemorije. Nedavno razvijeni modeli prostora stanja, uključujući Mambu, RetNet i nekoliko drugih, pokazali su učinkovito zaključivanje dugog slijeda i obuku, uz konkurentnu izvedbu zadataka modeliranja jezika za transformatore sa sličnim svojstvima skaliranja. S druge strane, arhitektura Mixture of Expert modela postaje sve popularnija kao alternativa gustim transformatorima budući da olakšava značajno smanjenje zaključivanja i treniranja FLOP-ova koji su ključni za postizanje kvalitete usporedive s gustim modelom. MoE (mješavina stručnjaka) modeli rade aktiviranjem samo rijetkog odabira ukupnih parametara tijekom jednog prolaza naprijed. Oni koriste funkciju usmjeravanja kako bi odredili koji se 'stručnjaci' pozivaju na akciju na temelju danog konteksta. Ovaj pristup stvara razdvajanje između računske cijene zaključivanja i ukupnog broja parametara, dopuštajući poboljšanu izvedbu unutar fiksnog proračuna zaključivanja, iako s povećanim brojem parametara i većim zahtjevom za memoriju.

Ovaj napredak u arhitekturi nudi značajne prednosti u odnosu na tradicionalne transformatore i predstavlja uzbudljiv smjer za daljnji razvoj. Pretpostavljamo da bi integracija ovih poboljšanja u kombinirani model Mamba-MoE mogla značajno ubrzati mogućnosti jezičnog modeliranja i učinkovitost izvan standardnih modela transformatora. Očekivane prednosti Mamba-MoE arhitekture u usporedbi s tradicionalnim modelom gustog transformatora uključuju:

Mamba: Postiže linearnu računsku složenost u odnosu na duljinu ulazne sekvence i za fazu obuke i za fazu zaključivanja. Omogućuje pojavu autoregresivne generacije u stalnom vremenskom okviru i uz stalnu upotrebu memorije.

Ministarstvo obrazovanja: Nudi brzinu zaključivanja i učinkovitost računanja uvježbavanja usporedivu s manjim, gustim osnovnim modelom uz zadržavanje razine kvalitete modela koja se može mjeriti s modelom s jednakim brojem parametara kao gušća verzija.

Uz to, bitno je reći da su modeli transformatorske arhitekture još uvijek najnoviji i da su pokazali dosljednu i izvanredno snažnu izvedbu na zadacima jezičnog modeliranja i zadacima obrade sekvenci. U svojoj jezgri, transformatorska arhitektura koristi samopažnju koja izvodi kvadratnu usporedbu svih prema svima sličnosti točkastog produkta između ugrađivanja različitih tokena u nizu i izvodi linearnu mapu izlaznog vektora. Model transformatora sastoji se od blokova samopažnje naslaganih između MLP ili višeslojnih perceptronskih blokova koji se nadalje sastoje od dvoslojnog MLP-a s danom funkcijom aktivacije. 

BlackMamba : Arhitektura i metodologija

Modeli prostora stanja

Modeli prostora stanja pripadaju skupini sekvencijskih modela s linearnom složenošću s obzirom na duljinu ulazne sekvence. Arhitektura modela državnog prostora više je usklađena s rekurentnim neuronskim mrežama i konvolucijskim neuronskim mrežama, a ne arhitekturom koja se temelji na pažnji, a inspirirana je kontinuiranim dinamičkim sustavom koji preslikava jednodimenzionalnu funkciju kroz implicitni latentni prostor. Linearni dinamički sustav čini paralelna izračunavanja učinkovitima pomoću asocijativnog ili konvolucijskog skeniranja. U praktičnim scenarijima, ponavljajuća priroda modela državnog prostora bila je razlog zašto ga još treba usvojiti na visoko paralelnom AI hardveru kao što su GPU. Međutim, pojava SSM-ova poput RWKV i Mamba koristili su paralelne jezgre za skeniranje za učinkovito mapiranje rekurentnih operacija na GPU-ove, olakšavajući tako obuku novih arhitektura s učinkovitošću usporedivom s onom koju postižu transformatorski modeli. 

Inherentna kvadratna složenost u odnosu na duljinu sekvence unutar transformatora dobro je poznato ograničenje koje ometa razmišljanje i razumijevanje u vrlo dugim kontekstima. Nedavne inovacije uvele su ideju produljenja duljine konteksta, omogućujući transformatorima da se uvježbaju na izvedivoj skali prije nego što se primjenjuju na mnogo duže kontekste tijekom zaključivanja. Unatoč ovim napretcima, proces zaključivanja i dalje zahtijeva znatnu količinu računalnih resursa i memorije, posebno za održavanje ključ-vrijednosti (KV) predmemorije, što ga čini naporom koji zahtijeva mnogo resursa. Nedavni istraživački napori usmjereni su na poboljšanje izražajnih sposobnosti modela prostora stanja uključivanjem mehanizama usmjeravanja ovisnih o unosu, sličnih matricama upita, ključa, vrijednosti (QKV) koje se nalaze u mehanizmima pažnje. 

Ovi napori imaju za cilj očuvati inherentno linearnu progresiju rekurzije prostora stanja, omogućujući učinkovito izvođenje kroz konvoluciju ili selektivni proces skeniranja. Ovaj pristup značajno smanjuje razliku u izvedbi s transformatorima u praktičnim primjenama. Među tim poboljšanjima, Mamba se ističe kao model prostora stanja koji odražava ciljeve prethodnih istraživanja, pokazujući impresivne razine performansi usporedive s transformatorima na skalama do 2.8 milijardi parametara. To postiže primjenom ulazno-ovisnog usmjeravanja na ulaze rekurzije modela prostora stanja (SSM), istovremeno osiguravajući učinkovito računanje upotrebom prilagođenih jezgri selektivnog skeniranja.

Mješavina stručnih modela

Mješavina Expert (MoE) modela postiže odvajanje između cijene zaključivanja i ukupnog broja parametara selektivnim aktiviranjem parametara tijekom prolaska naprijed. Umjesto korištenja svih parametara, ovi modeli usmjeravaju tokene određenim stručnjacima za višeslojni perceptron (MLP). U idealnom slučaju, svaki stručnjak je prilagođen za obradu određene vrste ulaza, s mehanizmom usmjeravanja, u biti kompaktnom neuronskom mrežom, koji određuje najprikladnijeg stručnjaka za svaki token. Ovaj pristup ima za cilj očuvati sveobuhvatnu izražajnu snagu modela s ekvivalentnim brojem parametara u gušćoj konfiguraciji, ali sa znatno smanjenim računalnim zahtjevima. Tipično, usmjerivač je preslikavanje linearnih slojeva od tokena do ekspertnih indeksa pri čemu je svaki ekspert jednostavno standardni transformatorski višeslojni perceptron. Međutim, programeri tek trebaju otkriti optimalnu metodu obuke za usmjerivač budući da se problem dodjele stručnjaka ne može razlikovati, a modeli Mixture of Expert često se bore s balansiranjem opterećenja i stabilnošću obuke između različitih stručnjaka za učinkovitost hardvera. 

Arhitektura

U svojoj srži, BlackMamba koristi standardni transformatorski model koji se sastoji od isprepletenih MLP blokova i blokova pozornosti koji se dodaju u nizu duž rezidualnog toka. Sada, većina modela Mixture of Expert jednostavno zamjenjuje višeslojne perceptronske blokove usmjerenim stručnim slojem. S druge strane, okvir BlackMamba ne samo da zamjenjuje višeslojni blok perceptrona u transformatoru s usmjerenim stručnim slojem, već također zamjenjuje sloj pozornosti sa slojem Mamba State Space Model. Arhitektura okvira BlackMamba prikazana je na sljedećoj slici. 

Obuka i skup podataka

Model BlackMamba obučen je na više od 300 milijardi tokena na prilagođenom skupu podataka i koristi funkciju aktivacije SwiGLU za stručne višeslojne perceptrone. Okvir trenira s 8 stručnjaka, broj za koji su programeri otkrili da predstavlja pravu ravnotežu i kompromis između memorijskog otiska i cijene zaključivanja modela. Prilagođeni skup podataka koji se koristi za obuku okvira BlackMamba sastoji se od mješavine već postojećih skupova podataka otvorenog koda uključujući Starcoder, SlimPajama, Pile i još mnogo toga. Sljedeća tablica pokazuje težine svakog skupa podataka korištenog za obuku okvira BlackMamba. Sveukupno, postoji 1.8 trilijuna tokena u skupu podataka. 

BlackMamba : Rezultati

Kako bi se osigurala poštena usporedba između Mambe i BlackMambe, programeri su uvježbali oba modela s istim parametrima uvježbavanja na istim podacima uvježbavanja. Okvir BlackMamba može nadmašiti i Mamba i transformatorske modele za identičnu veličinu modela prosljeđivanja u trenutku zaključivanja, kao i obuku operacija s pomičnim zarezom u sekundi. Sljedeća slika prikazuje vrijeme potrebno za generiranje niza dane duljine autoregresivno iz početnog odziva s jednim tokenom kao funkciju duljine niza. 

Nadalje, prednosti kašnjenja modela Mixture of Expert i Mamba kombinirane su u okviru BlackMamba što rezultira znatno bržim vremenom zaključivanja u usporedbi s modelima transformatora, čistim Mamba modelima i MoE modelima. Nadalje, prednost zaključivanja okvira BlackMamba izravno je proporcionalna duljinama sekvenci, što BlackMambu čini iznimno učinkovitom u generiranju dugih sekvenci. Idući dalje, sljedeća slika ilustrira broj tokena dodijeljenih BlackMamba modelima s 340 milijuna odnosno 640 milijuna parametara. Kao što se može vidjeti, većina slojeva pokazuje visoku razinu ekspertne ravnoteže kao rezultat poboljšanog Sinkhorn algoritma implementiranog od strane modela BlackMamba. 

Sljedeća tablica pokriva ocjene okvira BlackMamba u usporedbi s nizom prethodno obučenih jezičnih modela otvorenog koda. Kao što se može primijetiti, okvir BlackMamba može se natjecati i nadmašiti većinu okvira na svim osnovnim linijama. Nadalje, vrijedi napomenuti da modeli koji nadmašuju BlackMamba imaju znatno veći broj parametara, a razlika u performansama je minimalna, što ukazuje na sposobnost BlackMamba frameworka s manje parametara. 

Final Misli

U ovom smo članku govorili o BlackMambi, novoj arhitekturi koja kombinira Mamba State Space Model s mješavinom Expert modela kako bi se iskoristile prednosti koje nude oba ova okvira. Eksperimenti na BlackMambi pokazali su da nadmašuje postojeći okvir Mamba i osnovne linije transformatora u obuci FLOP-ova i zaključivanju. Iznimna izvedba okvira BlackMamba pokazuje da je on sposoban naslijediti i kombinirati sposobnosti okvira Mamba i MoE izuzetno dobro budući da kombinira jeftino i brzo zaključivanje iz MoE s generacijom linearne složenosti iz Mambe. Razgovarali smo o tome kako je arhitektura okvira BlackMamba sposobna nadmašiti jake obučene modele velikih jezika, postojeći okvir Mamba i modele Mixture of Expert u smislu obuke FLOP-ova i troškova zaključivanja. Nadalje, okvir BlackMamba također nasljeđuje generaciju FLOP-ova i smanjenu obuku iz modela Mixture of Expert i okvira Mamba istovremeno. 

 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.