stubbur Mamba: Redefiniing Sequence Modeling og Outforming Transformers Architecture - Unite.AI
Tengja við okkur

Artificial Intelligence

Mamba: Redefiniing Sequence Modeling og Outforming Transformers Architecture

mm

Útgefið

 on

Mamba AI líkan

Í þessari grein á Mamba, munum við kanna hvernig þetta nýstárlega ástand-rými líkan (SSM) gjörbyltir röð líkanagerð. Þróað af Albert Gu og Tri Dao, Mamba er þekkt fyrir skilvirkni sína í vinnslu flókinna raða á sviðum eins og málvinnslu, erfðafræði og hljóðgreiningu. Línuleg tímaröð líkan með sértækum ástandsrýmum tryggir óvenjulega frammistöðu þvert á þessar fjölbreyttu aðferðir.

Við munum kafa ofan í getu Mamba til að sigrast á tölvuáskorunum sem hefðbundnir Transformers standa frammi fyrir, sérstaklega með löngum röð. Sértæk nálgun þess í ástandsrýmislíkönum gerir ráð fyrir hraðari ályktunum og línulegri mælikvarða með lengd röð, sem bætir afköst verulega.

Sérstaða Mamba felst í hraðri vinnslugetu, sértæku SSM lagi og vélbúnaðarvænni hönnun innblásin af FlashAttention. Þessir eiginleikar gera Mamba kleift að standa sig betur en margar fyrirliggjandi gerðir, þar á meðal þær sem byggjast á spenniaðferðinni, sem gerir það að athyglisverðri framþróun í vélanámi.

Transformers vs Mamba 

Transformers, eins og GPT-4, hafa sett viðmið í náttúrulegri málvinnslu. Hins vegar minnkar skilvirkni þeirra með lengri röðum. Hér er þar sem Mamba stökk á undan, með getu sinni til að vinna langar raðir á skilvirkari hátt og einstaka arkitektúr sem einfaldar allt ferlið.

Transformers eru færir í að meðhöndla gagnaraðir, svo sem texta fyrir tungumálalíkön. Ólíkt fyrri gerðum sem unnu gögn í röð, vinna Transformers heilar raðir samtímis, sem gerir þeim kleift að fanga flókin tengsl innan gagna.

Þeir nota athygliskerfi, sem gerir líkaninu kleift að einbeita sér að mismunandi hlutum röðarinnar þegar spáð er.

Þessi athygli er reiknuð út með því að nota þrjú sett af lóðum: fyrirspurnum, lyklum og gildum, fengin úr inntaksgögnum. Hvert stak í röð er borið saman við hvert annað frumefni, sem gefur til kynna vægi sem gefur til kynna mikilvægi, eða „athygli“, sem hver þáttur ætti að fá þegar spáð er fyrir um næsta stak í röðinni.

Transformers viðhalda tveimur aðalblokkum: kóðara, sem vinnur inntaksgögnin, og afkóðara, sem býr til úttakið. Kóðarinn samanstendur af mörgum lögum, sem hvert um sig inniheldur tvö undirlög: sjálfseftirlitskerfi með mörgum hausum og einfalt, staðbundið, fullkomið framsendingarnet. Normalization og leifar tengingar eru notaðar á hverju undirlagi til að hjálpa við þjálfun djúpra neta.

Afkóðarinn hefur einnig lög með tveimur undirlögum sem líkjast umritaranum en bætir við þriðja undirlagi sem framkvæmir athygli með mörgum hausum yfir úttak kóðarans. Röð eðli afkóðarans tryggir að spár fyrir stöðu geta aðeins tekið tillit til fyrri stöðu, sem varðveitir sjálfvirka afturköllunareiginleikann.

Öfugt við Transformers tekur Mamba líkanið aðra nálgun. Á meðan Transformers takast á við spurninguna um langar raðir með því að nota flóknari athygliskerfi, notar Mamba sértækt ástandsrými, sem veitir meiri tölvu

Hér er yfirlit á háu stigi um hvernig spennir virkar:

  1. Inntaksvinnsla: Transformers kóða fyrst inntaksgögn í snið sem líkanið getur skilið, oft með því að nota innfellingar sem innihalda einnig stöðu hvers þáttar í röðinni.
  2. Attention Mechanism: Í kjarna sínum reiknar athygliskerfið út stig sem táknar hversu mikinn fókus á að leggja á aðra hluta inntaksröðarinnar þegar þú skilur núverandi þátt.
  3. Encoder-Decoder arkitektúr: Spennilíkanið er samsett úr kóðara til að vinna úr inntakinu og afkóðara til að búa til úttakið. Hver samanstendur af mörgum lögum sem betrumbæta skilning líkansins á inntakinu.
  4. Multi-Head Athygli: Innan bæði kóðara og afkóðara gerir multi-head athygli líkaninu kleift að sinna samtímis mismunandi hlutum röðarinnar frá mismunandi framsetningarrýmum, sem bætir getu þess til að læra af fjölbreyttu samhengi.
  5. Stöðubundið straum-forward net: Eftir athygli vinnur einfalt tauganet úttak hverrar stöðu fyrir sig og eins. Þetta er sameinað inntakinu í gegnum afgangstengingu og fylgt eftir með lagstillingu.
  6. Framleiðsla: Afkóðarinn spáir síðan fyrir um úttaksröð, undir áhrifum af samhengi kóðarans og því sem hann hefur framleitt hingað til.

Hæfni spennisins til að meðhöndla raðir samhliða og öflugur athyglisbúnaður hans gerir hann öflugan fyrir verkefni eins og þýðingar og textagerð.

Aftur á móti virkar Mamba líkanið öðruvísi með því að nota sértækt ástandsrými til að vinna úr röðum. Þessi nálgun tekur á óhagkvæmni reiknivéla í Transformers þegar tekist er á við langar raðir. Hönnun Mamba gerir hraðari ályktun og mælikvarða línulega með lengd raða, setur nýja hugmyndafræði fyrir raðlíkön sem gæti verið skilvirkari, sérstaklega þar sem raðir verða sífellt lengri.

Mamba

Það sem gerir Mamba sannarlega einstakt er brotthvarf hennar frá hefðbundnum athygli og MLP blokkum. Þessi einföldun leiðir til léttara, hraðvirkara líkans sem mælist línulega miðað við lengd röðarinnar – afrek sem er óviðjafnanlegt af forverum sínum.

Helstu eiginleikar Mamba eru:

  1. Sértækar SSM: Þetta gerir Mamba kleift að sía óviðkomandi upplýsingar og einbeita sér að viðeigandi gögnum, sem eykur meðhöndlun þess á röðum. Þessi sértækni skiptir sköpum fyrir skilvirka rökhugsun sem byggir á efni.
  2. Vélbúnaðar-meðvitaður reiknirit: Mamba notar samhliða reiknirit sem er fínstillt fyrir nútíma vélbúnað, sérstaklega GPU. Þessi hönnun gerir hraðari útreikninga kleift og dregur úr minniskröfum samanborið við hefðbundnar gerðir.
  3. Einfölduð arkitektúr: Með því að samþætta sértæka SSM og útrýma athygli og MLP blokkum, býður Mamba einfaldari, einsleitari uppbyggingu. Þetta leiðir til betri sveigjanleika og frammistöðu.

Mamba hefur sýnt framúrskarandi frammistöðu á ýmsum sviðum, þar á meðal tungumáli, hljóð- og erfðafræði, og hefur skarað fram úr bæði í forþjálfun og lénssértækum verkefnum. Til dæmis, í tungumálalíkönum, passar Mamba eða fer yfir frammistöðu stærri Transformer módel.

Kóði Mamba og fyrirfram þjálfuð módel eru tiltæk til notkunar í samfélaginu á GitHub.

Stöðluð afritunarverkefni eru einföld fyrir línuleg líkön. Valandi afritunar- og innleiðsluhausar krefjast kraftmikils, innihaldsvitaðs minnis fyrir LLM.

Stöðluð afritunarverkefni eru einföld fyrir línuleg líkön. Valandi afritunar- og innleiðsluhausar krefjast kraftmikils, innihaldsvitaðs minnis fyrir LLM.

Structured State Space (S4) líkön hafa nýlega komið fram sem efnilegur flokkur raðlíkana, sem felur í sér eiginleika frá RNN, CNN og klassískum ástands geimlíkönum. S4 líkön sækja innblástur frá samfelldum kerfum, sérstaklega tegund kerfis sem kortleggur einvíddar aðgerðir eða raðir í gegnum óbeint dulið ástand. Í samhengi við djúpt nám tákna þau mikilvæga nýjung, veita nýja aðferðafræði til að hanna raðlíkön sem eru skilvirk og mjög aðlögunarhæf.

Dynamics S4 módel

SSM (S4) Þetta er grunnlíkanið fyrir skipulagða rýmisríkið. Það tekur röð x og framleiðir framleiðslu y með því að nota lærðar færibreytur A, B, C, og seinkun færibreytu Δ. Umbreytingin felur í sér að greina færibreyturnar (breyta samfelldum aðgerðum í stakar) og beita SSM aðgerðinni, sem er tímaóbreytileg - sem þýðir að hún breytist ekki yfir mismunandi tímaþrep.

Mikilvægi ráðstöfunar

Dreifing er lykilferli sem umbreytir samfelldum breytum í stakar með föstum formúlum, sem gerir S4 módelunum kleift að viðhalda tengingu við samfellda tímakerfi. Þetta gefur módelunum viðbótareiginleika, svo sem óbreytileika í upplausn, og tryggir rétta eðlilega stillingu, eykur stöðugleika og frammistöðu líkansins. Dreifing dregur einnig hliðstæður við hliðarkerfin sem finnast í RNN, sem eru mikilvæg til að stjórna upplýsingaflæði í gegnum netið.

Línulegt tímaóvari (LTI)

Kjarni eiginleiki S4 módelanna er línuleg tímafrávik þeirra. Þessi eiginleiki gefur til kynna að gangverki líkansins haldist stöðugt með tímanum, með breytur fastar fyrir öll tímaþrep. LTI er hornsteinn endurtekningar og snúninga, sem býður upp á einfaldaða en öfluga ramma til að byggja upp raðlíkön.

Að sigrast á grundvallartakmörkunum

S4 ramminn hefur jafnan verið takmarkaður af LTI eðli sínu, sem veldur áskorunum við gerð gagna sem krefjast aðlögunarvirkni. Í nýlegri rannsóknarritgerð er kynnt nálgun sem sigrar þessar takmarkanir með því að innleiða tímabreytilegar breytur og fjarlægja þannig þvingun LTI. Þetta gerir S4 módelunum kleift að takast á við fjölbreyttari röð raða og verkefna, sem eykur nothæfi þeirra verulega.

Hugtakið „ríkisrýmislíkan“ nær í stórum dráttum yfir hvers kyns endurtekið ferli sem felur í sér duldt ástand og hefur verið notað til að lýsa ýmsum hugtökum þvert á margar greinar. Í samhengi við djúpt nám vísa S4 líkön, eða skipulögð SSM, til ákveðins flokks líkana sem hafa verið fínstillt fyrir skilvirka útreikninga á meðan getu til að búa til flóknar raðir líkana.

Hægt er að samþætta S4 líkön inn í taugakerfisarkitektúr frá enda til enda, sem virka sem sjálfstæðar raðbreytingar. Hægt er að líta á þau sem hliðstæð fallalög í CNN, sem veita burðarás fyrir raðlíkön í ýmsum taugakerfisarkitektúrum.

SSM vs SSM + Val

SSM vs SSM + Val

Hvatning fyrir valvirkni í raðlíkönum

Skipulögð SSM

Skipulögð SSM

Ritgerðin heldur því fram að grundvallarþáttur raðlíkanagerðar sé samþjöppun samhengis í viðráðanlegt ástand. Líkön sem geta valið einbeitt sér að eða síað inntak veita skilvirkari leið til að viðhalda þessu þjappaða ástandi, sem leiðir til skilvirkari og öflugri röð líkön. Þessi valmöguleiki er nauðsynlegur fyrir líkön til að aðlagast aðlögunarhæfni hvernig upplýsingar streyma meðfram raðvíddinni, nauðsynleg hæfni til að takast á við flókin verkefni í tungumálalíkönum og víðar.

Sértækar SSMs auka hefðbundnar SSMs með því að leyfa færibreytum þeirra að vera inntaksháðar, sem kynnir aðlögunarhæfni sem áður var ekki hægt að ná með tímaóbreytilegum líkönum. Þetta leiðir til tímabreytilegra SSM sem geta ekki lengur notað snúninga fyrir skilvirka útreikninga heldur treyst á línulega endurtekningarkerfi, sem er veruleg frávik frá hefðbundnum líkönum.

SSM + Val (S6) Þetta afbrigði inniheldur valkerfi, sem bætir inntaksháð breytunum B og C, og seinkun færibreytu Δ. Þetta gerir líkaninu kleift að einbeita sér að ákveðnum hlutum inntaksröðarinnar x. Færibreyturnar eru aðgreindar að teknu tilliti til valsins og SSM aðgerðinni er beitt á tímabreytilegan hátt með skannaaðgerð, sem vinnur þætti í röð og stillir fókusinn á kraftmikinn hátt með tímanum.

Frammistöðu hápunktur Mamba

Mamba er best í sínum flokki í hverri einustu niðurstöðu mats

Mamba er best í sínum flokki í hverri einustu niðurstöðu mats

Hvað varðar frammistöðu, Mamba skarar fram úr bæði í ályktunarhraða og nákvæmni. Hönnun þess gerir kleift að nýta lengri samhengi betur, sem er sýnt fram á bæði í DNA og hljóðlíkönum, sem er betri en fyrri líkön í flóknum verkefnum sem krefjast langdrægra ósjálfstæðis. Fjölhæfni þess er einnig lögð áhersla á í núllskotsmati yfir mörg verkefni, sem setur nýjan staðal fyrir slík líkön hvað varðar skilvirkni og sveigjanleika.

Að byrja með Mamba

Fyrir þá sem hafa áhuga á að nýta Mamba, innihalda tæknilegar kröfur Linux OS, NVIDIA GPU, PyTorch 1.12+ og CUDA 11.6+. Uppsetning felur í sér einfaldar pip skipanir til að setja upp nauðsynlega pakka frá Mamba geymsla. Ef samhæfnisvandamál koma upp með PyTorch útgáfum getur það hjálpað að nota –no-build-einangrunarfánann með pip. Þessi líkön, þjálfuð á víðtækum gagnasöfnum eins og Pile og SlimPajama gagnapakkanum, eru hönnuð til að mæta ýmsum reikniþörfum og frammistöðuviðmiðum.

Mamba býður upp á mismunandi viðmótsstig, allt frá sértæku SSM laginu til Mamba blokkarinnar og heill tungumálamódelbyggingu. Mamba blokkin, sem er aðaleining arkitektúrsins, notar orsakasamhengi Conv1d lag og er auðvelt að samþætta það inn í taugakerfishönnun. Meðfylgjandi notkunardæmi í Python sýnir framsetningu á Mamba líkani og vinnslu gagna í gegnum það og undirstrikar einfaldleika og sveigjanleika kerfisins.

Forþjálfaðar Mamba gerðir eru fáanlegar á Faðmandi andlit, með stærðum á bilinu 130M til 2.8B færibreytur, þjálfaðir á umfangsmiklu Pile gagnasafninu og SlimPajama gagnasafninu. Þessar gerðir eru hannaðar til að uppfylla margvíslegar kröfur um útreikninga og afköst, í samræmi við víddarstaðla GPT-3. Notendur geta búist við mikilli afköst og nákvæmni frá þessum gerðum, sem gerir Mamba að samkeppnishæfu vali fyrir ýmis forrit, þar á meðal en ekki takmarkað við tungumálalíkön.

Áhrif Mamba

Mamba táknar stökk fram á við í raðlíkönum og býður upp á öflugan valkost við Transformer arkitektúr til að vinna úr upplýsingaþéttum gögnum. Hönnun þess er í takt við kröfur nútíma vélbúnaðar, hámarkar bæði minnisnotkun og samhliða vinnslugetu. Opinn uppspretta aðgengis kóðagrunns Mamba og forþjálfaðra líkana hans gerir hann að aðgengilegu og öflugu tæki fyrir rannsakendur og þróunaraðila á sviði gervigreindar og djúpnáms.

Ég hef eytt síðustu fimm árum í að sökkva mér niður í heillandi heim vélanáms og djúpnáms. Ástríða mín og sérfræðiþekking hefur leitt mig til að leggja mitt af mörkum til yfir 50 fjölbreyttra hugbúnaðarverkefna, með sérstakri áherslu á gervigreind/ML. Áframhaldandi forvitni mín hefur einnig dregið mig að náttúrulegri málvinnslu, svið sem ég er fús til að kanna frekar.