stomp BlackMamba: Mengsel van kundiges vir staat-ruimtemodelle - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

BlackMamba: Mengsel van kundiges vir staat-ruimtemodelle

mm

Gepubliseer

 on

BlackMamba: Mengsel van kundiges vir staat-ruimtemodelle

Die ontwikkeling van groottaalmodelle (LLM's) wat uit dekodeerder-alleen-transformatormodelle gebou is, het 'n deurslaggewende rol gespeel in die transformasie van die Natuurlike Taalverwerking (NLP)-domein, sowel as die bevordering van diverse diepleertoepassings, insluitend versterkingsleer, tydreeksanalise, beeldverwerking, en nog baie meer. Ten spyte van hul skaalbaarheid en sterk werkverrigting staar LLM's wat uit dekodeerder-net-transformatormodelle gebou is, steeds beduidende tekortkominge in die gesig. Alhoewel ekspressief, vereis die aandagmeganisme in transformator-afgeleide LLM's hoë berekeningshulpbronne tydens beide afleiding en opleiding, wat aansienlike geheue vir die volgordelengte en kwadratiese FLOPs noodsaak. Hierdie hoë berekeningsvereiste beperk die kontekslengte van transformatormodelle, wat outoregressiewe generasietake proporsioneel duur maak met skaal, en belemmer leer uit deurlopende datastrome en die vermoë vir werklik onbeperkte volgordeverwerking.

In onlangse tye, Staatsruimtemodelle (SSM's) het merkwaardige vermoëns en werkverrigting gedemonstreer, en kompeteer met transformator-argitektuurmodelle in grootskaalse modelleringsmaatstawwe, terwyl geheuekompleksiteit as 'n funksie van reekslengte en lineêre tyd bereik word. Boonop het Mamba, 'n staatsruimtemodel wat onlangs vrygestel is, uitstekende prestasie getoon in 'n reeks taalmodellering en langreeksverwerkingstake. Terselfdertyd het Mixture of Expert (MoE) modelle ook indrukwekkende werkverrigting getoon terwyl hulle die latensie en berekeningskoste van afleiding aansienlik verminder het, alhoewel ten koste van 'n groter geheue-voetspoor. Gebou op Mamba- en MoE-modelle, sal hierdie artikel BlackMamba bespreek, 'n nuwe argitektuur wat die Mamba State Space Model met MoE-modelle kombineer om die voordele wat beide raamwerke bied, te benut. Eksperimente op BlackMamba het sy vermoë getoon om beter as die bestaande Mamba-raamwerk en transformatorbasislyne te presteer in beide opleidings-FLOPs en afleidings. Die uitsonderlike prestasie van die BlackMamba-raamwerk wys dat dit die vermoëns van die Mamba- en MoE-raamwerke effektief kan kombineer, en bied vinnige en koste-effektiewe afleiding van MoE met lineêre kompleksiteitgenerering vanaf Mamba.

Hierdie artikel poog om die BlackMamba-raamwerk in diepte te dek. Ons ondersoek die meganisme, metodologie en argitektuur van die raamwerk, tesame met die vergelyking daarvan met die nuutste beeld- en videogenereringraamwerke. Laat ons begin.

BlackMamba: 'n Inleiding tot MoE vir Staatsruimtemodelle

Die vordering van groottaalmodelle (LLM's), veral dié wat op net-dekodeerder-transformator-argitekture gebaseer is, het veral die Natuurlike Taalverwerking (NLP) veld en uitgebrei na verskeie diepleertoepassings, insluitend versterkingsleer, tydreeksanalise, beeldverwerking en meer. Nietemin, ten spyte van hul skaalbaarheid en robuuste werkverrigting, ondervind hierdie dekodeerder-net transformator-gebaseerde LLM's noemenswaardige uitdagings. Die aandag meganisme, 'n belangrike kenmerk van transformator-gebaseerde LLM'ss, vereis uitgebreide rekenaarhulpbronne vir beide afleiding en opleiding. Dit behels 'n behoefte aan geheue wat groei met die rylengte en berekeningsbewerkings (FLOPs) wat kwadraties toeneem. Sulke intensiewe berekeningsbehoeftes beperk die modelle se kontekslengte, verhoog die koste van outoregressiewe generasietake soos die model skaal, en belemmer die modelle se vermoë om doeltreffend uit aaneenlopende datastrome of prosesreekse van onbeperkte lengte te leer. 

Beduidende pogings is in die afgelope paar jaar aangewend in 'n poging om hierdie beperkings te oorkom, en aandag is verskuif na die ontwerp van argitektoniese alternatiewe vir die kanonieke digte aandag-transformatormodelle met SSM's en MoE-modelle as die mees belowende kandidaat-argitekture. Die sleutelvoordeel wat behaal word deur staatsruimtemodelle bo transformatorargitektuurmodelle te bevoordeel, is die lineêre berekeningskompleksiteit met betrekking tot insetvolgordelengte wat deur SSM'e aangebied word, in teenstelling met die kwadratiese kompleksiteit wat deur transformators aangebied word. Teoreties stel lineêre berekeningskompleksiteit met betrekking tot insetvolgordelengte staatsruimtemodelle in staat om groter rye as transformatorargitektuurmodelle vir 'n gegewe FLOPS of swewendepuntbewerkings per sekonde begroting te verwerk, en om outoregressiewe generering konstant te maak in berekening sonder 'n KV-kas. Onlangs ontwikkelde Staatsruimtemodelle, insluitend Mamba, RetNet en 'n paar ander, het doeltreffende langvolgorde-afleiding en opleiding getoon, tesame met mededingende taalmodelleringstaakprestasie aan transformators met soortgelyke skaaleienskappe. Aan die ander kant is die argitektuur van 'n mengsel van deskundige modelle besig om gewild te word as 'n alternatief vir digte transformators, aangesien dit 'n aansienlike vermindering in afleiding en opleiding van FLOP's fasiliteer wat noodsaaklik is vir die bereiking van vergelykbare kwaliteit met 'n digte model. MoE (Mixture of Experts)-modelle werk deur slegs 'n yl seleksie van die totale parameters tydens 'n enkele vorentoe aangee te aktiveer. Hulle gebruik 'n roeteerfunksie om te bepaal watter 'kundiges' in aksie geroep word op grond van die gegewe konteks. Hierdie benadering skep 'n skeiding tussen die berekeningskoste van afleiding en die totale aantal parameters, wat voorsiening maak vir verbeterde prestasie binne 'n vaste afleidingsbegroting, alhoewel met 'n groter aantal parameters en 'n groter geheuevereiste.

Hierdie vooruitgang in argitektuur bied noemenswaardige voordele bo tradisionele transformators en verteenwoordig 'n opwindende rigting vir verdere ontwikkeling. Ons beweer dat die integrasie van hierdie verbeterings in 'n gekombineerde Mamba-MoE-model taalmodelleringsvermoëns en doeltreffendheid aansienlik kan versnel as dié van standaard transformatormodelle. Die verwagte voordele van 'n Mamba-MoE-argitektuur in vergelyking met 'n tradisionele digte transformatormodel sluit in:

Mamba: Bereik lineêre berekeningskompleksiteit relatief tot die insetvolgordelengte vir beide opleidings- en afleidingsfases. Dit stel outoregressiewe generering in staat om in 'n konstante tydraamwerk en met konstante geheuegebruik plaas te vind.

MoE: Bied die afleidingspoed en opleidingsberekeningsdoeltreffendheid vergelykbaar met 'n kleiner, digte basislynmodel, terwyl 'n vlak van modelgehalte gehandhaaf word wat die van 'n model met 'n ekwivalente aantal parameters as die digter weergawe meeding.

Met dit gesê, is dit noodsaaklik om te sê dat transformator-argitektuurmodelle steeds moderne is, en konsekwente en merkwaardige sterk prestasie op taalmodelleringstake en volgordeverwerkingstake getoon het. In sy kern gebruik die transformatorargitektuur selfaandag wat 'n kwadratiese alles-tot-almal-vergelyking van die puntprodukooreenkomste tussen die inbeddings van verskillende tekens in 'n ry uitvoer, en 'n lineêre kaart na 'n uitsetvektor uitvoer. Die transformatormodel bestaan ​​uit self-aandagblokke wat tussen MLP- of Multi-Layer Perceptron-blokke gestapel is wat verder bestaan ​​uit 'n twee-laag MLP met 'n gegewe aktiveringsfunksie. 

BlackMamba: Argitektuur en Metodologie

Staatsruimtemodelle

Toestandsruimtemodelle behoort aan die groep rymodelle met lineêre kompleksiteit met betrekking tot die lengte van die invoerreeks. Die argitektuur van staatsruimtemodelle sluit meer aan by herhalende neurale netwerke en konvolusionele neurale netwerke eerder as aandaggebaseerde argitektuur, en is geïnspireer deur 'n deurlopende dinamiese sisteem wat 'n 1-dimensionele funksie karteer deur 'n implisiete latente ruimte. 'n Lineêre dinamiese stelsel maak parallelle berekeninge doeltreffend deur óf 'n assosiatiewe óf 'n konvolusie skandering. In praktiese scenario's was die herhalende aard van State Space Models die rede waarom dit steeds op hoogs-parallelle AI-hardeware soos GPU's aangeneem moet word. Die ontstaan ​​van SSM'e soos RWKV en Mamba het parallelle skanderingspitte gebruik om herhalende bedrywighede doeltreffend na GPU's te karteer, en sodoende die opleiding van nuwe argitekture te vergemaklik met doeltreffendheid vergelykbaar met dié wat deur transformatormodelle behaal word. 

Die inherente kwadratiese kompleksiteit in verhouding tot volgordelengte binne transformators is 'n bekende beperking wat redenasie en begrip oor baie lang kontekste belemmer. Onlangse innovasies het die idee bekendgestel om die kontekslengte uit te brei, wat dit moontlik maak om transformators op 'n haalbare skaal opgelei te word voordat dit tydens afleiding op baie langer kontekste toegepas word. Ten spyte van hierdie vordering, vereis die afleidingsproses steeds 'n aansienlike hoeveelheid rekenaarhulpbronne en geheue, veral vir die instandhouding van die Sleutel-Waarde (KV)-kas, wat dit 'n hulpbron-intensiewe poging maak. Onlangse navorsingspogings het gefokus op die verbetering van die ekspressiewe vermoëns van staat-ruimte-modelle deur insetafhanklike hekmeganismes in te sluit, soortgelyk aan die Query, Key, Value (QKV) matrikse wat in aandagmeganismes gevind word. 

Hierdie pogings het ten doel om die inherente lineêre progressie van staat-ruimte-rekursie te bewaar, wat doeltreffende uitvoering moontlik maak deur óf konvolusie óf 'n selektiewe skanderingsproses. Hierdie benadering verklein die prestasie-ongelykheid met transformators in praktiese toepassings aansienlik. Onder hierdie vooruitgang staan ​​Mamba uit as 'n staat-ruimte-model wat die doelwitte van vorige navorsing weerspieël, en toon indrukwekkende prestasievlakke wat vergelykbaar is met transformators op skale tot 2.8 miljard parameters. Dit bereik dit deur insetafhanklike hekke toe te pas op die insette van die staat-ruimtemodel (SSM) rekursie, terwyl dit doeltreffende berekening verseker deur die gebruik van pasgemaakte selektiewe skanderingpitte.

Mengsel van kundige modelle

Mengsel van Expert (MoE) modelle bereik 'n skeiding tussen die afleidingskoste en die totale parametertelling deur parameters selektief te aktiveer tydens die voorwaartse pas. In plaas daarvan om alle parameters te gebruik, rig hierdie modelle tekens aan spesifieke Multilayer Perceptron (MLP) kundiges. Ideaal gesproke is elke deskundige aangepas om 'n spesifieke tipe insette te verwerk, met 'n roeteringsmeganisme, in wese 'n kompakte neurale netwerk, wat die mees geskikte deskundige vir elke teken bepaal. Hierdie benadering het ten doel om die omvattende uitdrukkingskrag van 'n model met 'n ekwivalente aantal parameters in 'n digter konfigurasie te bewaar, maar met aansienlik verminderde rekenkundige eise. Tipies is die router 'n kartering van die lineêre lae van tokens tot deskundige indekse, met elke deskundige bloot 'n standaard transformator Multilayer Perceptron. Ontwikkelaars moet egter nog die optimale opleidingsmetode vir die roeteerder uitvind, aangesien die kundige-opdragprobleem nie onderskeibaar is nie, en Mixture of Expert-modelle sukkel dikwels met lasbalansering en opleidingstabiliteit tussen verskillende kundiges vir hardeware-doeltreffendheid. 

argitektuur

In sy kern gebruik BlackMamba 'n standaard-transformatormodel wat bestaan ​​uit verweefde MLP-blokke en aandagblokke wat in volgorde langs 'n oorblywende stroom bygevoeg word. Nou vervang 'n meerderheid Mixture of Expert-modelle eenvoudig die meerlaagse perceptronblokke met 'n roete deskundige laag. Aan die ander kant vervang die BlackMamba-raamwerk nie net die meerlaagse perceptronblok in die transformator met 'n geleide kundige laag nie, maar vervang ook die aandaglaag met 'n Mamba State Space Model-laag. Die argitektuur van die BlackMamba-raamwerk word in die volgende figuur gedemonstreer. 

Opleiding en datastel

Die BlackMamba-model is opgelei op meer as 300 miljard tokens op 'n pasgemaakte datastel, en gebruik die SwiGLU-aktiveringsfunksie vir die kundige meerlaagperseptrone. Die raamwerk word opgelei met 8 kundiges, 'n getal wat ontwikkelaars gevind het as die regte balans en afruil tussen die geheue-voetspoor en afleidingskoste van die model. Die pasgemaakte datastel wat gebruik word om die BlackMamba-raamwerk op te lei, bestaan ​​uit 'n mengsel van reeds bestaande oopbrondatastelle insluitend Starcoder, SlimPajama, Pile, en meer. Die volgende tabel demonstreer die gewigte van elk van die datastel wat gebruik word vir die opleiding van die BlackMamba-raamwerk. In die geheel is daar 1.8 triljoen tokens in die datastel. 

BlackMamba : Resultate

Om 'n regverdige vergelyking tussen Mamba en BlackMamba te verseker, het ontwikkelaars albei die modelle met dieselfde opleidingsparameters op dieselfde opleidingsdata opgelei. Die BlackMamba-raamwerk is in staat om beter as Mamba- en transformatormodelle te presteer vir identiese voorwaartse deurlaatmodelgroottes op die afleidingstyd, sowel as om drywende punt-bewerkings per sekonde op te lei. Die volgende figuur demonstreer die tyd wat dit neem om 'n ry van 'n gegewe lengte outoregressief te genereer vanaf 'n aanvanklike een-teken-prompt as 'n funksie van die rylengte. 

Verder word die vertragingsvoordele van beide die Mengsel van Expert- en Mamba-modelle in die BlackMamba-raamwerk gekombineer, wat aansienlik vinniger afleidingstye tot gevolg het in vergelyking met transformatormodelle, suiwer Mamba-modelle en MoE-modelle. Verder is die afleidingsvoordeel van die BlackMamba-raamwerk direk eweredig aan die volgordelengtes, wat BlackMamba uiters effektief maak by lang volgordegenerering. Die volgende figuur illustreer die aantal tokens wat aan die BlackMamba-modelle toegeken is met onderskeidelik 340 miljoen en 640 miljoen parameters. Soos gesien kan word, toon 'n meerderheid van die lae 'n hoë vlak van kundige balans as gevolg van die verbeterde Sinkhorn-algoritme wat deur die BlackMamba-modelle geïmplementeer is. 

Die volgende tabel dek die evalueringstellings van die BlackMamba-raamwerk in vergelyking met 'n reeks oopbron-voorafopgeleide taalmodelle. Soos dit waargeneem kan word, is die BlackMamba-raamwerk in staat om mee te ding en beter te presteer met 'n meerderheid van die raamwerke oor alle basislyne. Verder is dit opmerklik dat die modelle wat beter as BlackMamba presteer, aansienlik hoër aantal parameters het, en die gaping in prestasie is minimaal, wat die vermoë van die BlackMamba-raamwerk met minder parameters aandui. 

Harde Gedagtes

In hierdie artikel het ons gepraat oor BlackMamba, 'n nuwe argitektuur wat die Mamba State Space Model kombineer met 'n mengsel van deskundige modelle om die voordele te pluk wat deur beide hierdie raamwerke gebied word. Eksperimente op BlackMamba het getoon dat dit beter presteer as die bestaande Mamba-raamwerk en transformatorbasislyne in beide opleiding-FLOP's en afleidings. Die uitsonderlike prestasie van die BlackMamba-raamwerk demonstreer dat dit in staat is om die vermoëns van die Mamba- en MoE-raamwerke besonder goed te erf en te kombineer, aangesien dit die goedkoop en vinnige afleiding van MoE kombineer met lineêre-kompleksiteit-generering vanaf Mamba. Ons het gepraat oor hoe die argitektuur van die BlackMamba-raamwerk in staat is om beter opgeleide Groottaalmodelle, bestaande Mamba-raamwerk en Mengsel van Kundige-modelle te presteer in terme van opleiding-FLOPs en afleidingskoste. Verder erf die BlackMamba-raamwerk ook die generasie-FLOP's en verminderde opleiding van beide Mixture of Expert-modelle en Mamba-raamwerk gelyktydig. 

 

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.