Umetna inteligenca

Vzpon mešanice strokovnjakov za učinkovite modele velikih jezikov

Posodobljeno on Marec 21, 2024

V svetu obdelave naravnega jezika (NLP) je bilo prizadevanje za izgradnjo večjih in zmogljivejših jezikovnih modelov gonilna sila številnih nedavnih napredkov. Ko pa se ti modeli povečujejo, postajajo računalniške zahteve za usposabljanje in sklepanje vedno bolj zahtevne, kar presega meje razpoložljivih virov strojne opreme.

Vnesite mešanico strokovnjakov (MoE), tehniko, ki obljublja, da bo zmanjšala to računalniško breme, hkrati pa omogočila usposabljanje večjih in močnejših jezikovnih modelov. V tem tehničnem blogu se bomo poglobili v svet MoE, raziskali njegov izvor, notranje delovanje in njegove aplikacije v jezikovnih modelih, ki temeljijo na transformatorjih.

Izvori mešanice strokovnjakov

Koncept mešanice strokovnjakov (MoE) sega v zgodnja devetdeseta leta prejšnjega stoletja, ko so raziskovalci raziskovali idejo pogojnega računanja, kjer se deli nevronske mreže selektivno aktivirajo na podlagi vhodnih podatkov. Eno od pionirskih del na tem področju je bilo "Prilagodljiva mešanica lokalnih strokovnjakov” članek Jacobsa et al. leta 1991, ki je predlagal nadzorovani učni okvir za skupino nevronskih mrež, od katerih je vsaka specializirana za drugo regijo vhodnega prostora.

Osnovna ideja MoE je imeti več "strokovnih" omrežij, od katerih je vsako odgovorno za obdelavo podnabora vhodnih podatkov. Preklopni mehanizem, običajno nevronska mreža sama, določa, kateri strokovnjak(-i) mora(-jo) obdelati dani vhod. Ta pristop omogoča modelu, da učinkoviteje razporedi svoje računalniške vire z aktiviranjem samo ustreznih strokovnjakov za vsak vhod, namesto da uporabi celotno zmogljivost modela za vsak vnos.

Z leti so različni raziskovalci raziskovali in razširili zamisel o pogojnem računanju, kar je vodilo do razvoja, kot so hierarhični MoEs, približki nizkega ranga za pogojno računanje in tehnike za ocenjevanje gradientov prek stohastičnih nevronov in aktivacijskih funkcij s trdim pragom.

Mešanica strokovnjakov za transformatorje

Mešanica strokovnjakov

Medtem ko je ideja o MO obstaja že desetletja, njegova uporaba za jezikovne modele, ki temeljijo na transformatorjih, je relativno nova. Transformatorji, ki so postali de facto standard za najsodobnejše jezikovne modele, so sestavljeni iz več plasti, od katerih vsaka vsebuje mehanizem samopozornosti in povratno nevronsko mrežo (FFN).

Ključna novost pri uporabi MoE na transformatorjih je zamenjava gostih plasti FFN z redkimi plastmi MoE, od katerih je vsaka sestavljena iz več strokovnih FFN in mehanizma za zapiranje. Preklopni mehanizem določa, kateri strokovnjak(-i) naj obdela vsak vhodni žeton, kar omogoča modelu, da selektivno aktivira samo podmnožico strokovnjakov za dano vhodno zaporedje.

Eno od zgodnjih del, ki je pokazalo potencial MoE v transformatorjih, je bil članek »Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer« avtorja Shazeer et al. leta 2017. To delo je uvedlo koncept sloja MoE z redkimi prehodi, ki je uporabljal mehanizem vrat, ki je postopku izbire strokovnjakov dodal redkost in hrup ter zagotovil, da je bila za vsak vnos aktivirana samo podskupina strokovnjakov.

Od takrat je več drugih del dodatno napredovalo pri uporabi MoE na transformatorjih, pri čemer so obravnavali izzive, kot so nestabilnost usposabljanja, uravnoteženje obremenitve in učinkovito sklepanje. Pomembni primeri vključujejo Preklopite transformator (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) in GLaM (Du et al., 2022).

Prednosti mešanice strokovnjakov za jezikovne modele

Glavna prednost uporabe MoE v jezikovnih modelih je zmožnost povečanja velikosti modela ob ohranjanju razmeroma stalnih računskih stroškov med sklepanjem. S selektivnim aktiviranjem samo podskupine strokovnjakov za vsak vhodni žeton lahko modeli MoE dosežejo izrazno moč veliko večjih gostih modelov, medtem ko zahtevajo bistveno manj računanja.

Na primer, razmislite o jezikovnem modelu z gosto plastjo FFN s 7 milijardami parametrov. Če to plast nadomestimo s plastjo MoE, ki jo sestavlja osem strokovnjakov, vsak s 7 milijardami parametrov, se skupno število parametrov poveča na 56 milijard. Vendar pa so med sklepanjem, če aktiviramo samo dva strokovnjaka na žeton, računski strošek enakovreden modelu z gostoto 14 milijard parametrov, saj izračuna dva množenja matrike parametrov s 7 milijardami.

Ta računalniška učinkovitost med sklepanjem je še posebej dragocena v scenarijih uvajanja, kjer so viri omejeni, kot so mobilne naprave ali robna računalniška okolja. Poleg tega lahko zmanjšane računalniške zahteve med usposabljanjem privedejo do znatnih prihrankov energije in nižjega ogljičnega odtisa, kar je usklajeno z vse večjim poudarkom na trajnostnih praksah umetne inteligence.

Izzivi in premisleki

Medtem ko modeli MoE ponujajo prepričljive prednosti, njihovo sprejetje in uvedba prinašata tudi več izzivov in premislekov:

Nestabilnost treninga: Znano je, da so modeli MoE bolj nagnjeni k nestabilnostim pri treningu v primerjavi z njihovimi gostimi modeli. To vprašanje izhaja iz redke in pogojne narave strokovnih aktivacij, kar lahko vodi do izzivov pri širjenju gradientov in konvergenci. Za ublažitev teh nestabilnosti so bile predlagane tehnike, kot je z-izguba usmerjevalnika (Zoph et al., 2022), vendar so potrebne nadaljnje raziskave.
Natančna nastavitev in preopremljanje: modeli MoE se med finim prilagajanjem ponavadi lažje preobremenijo, zlasti kadar ima nadaljnja naloga razmeroma majhen nabor podatkov. To vedenje je pripisano povečani zmogljivosti in redkosti modelov MoE, kar lahko privede do prevelike specializacije podatkov o usposabljanju. Za ublažitev te težave so potrebne skrbne strategije za urejanje in natančno prilagajanje.
Zahteve glede pomnilnika: Čeprav lahko modeli MoE zmanjšajo računske stroške med sklepanjem, imajo pogosto višje zahteve po pomnilniku v primerjavi z gostimi modeli podobne velikosti. To je zato, ker je treba vse strokovne uteži naložiti v pomnilnik, čeprav je za vsak vnos aktiviran le podnabor. Omejitve pomnilnika lahko omejijo razširljivost modelov MoE na napravah z omejenimi viri.
Balansiranje obremenitve: Za doseganje optimalne računalniške učinkovitosti je ključnega pomena uravnotežiti obremenitev med strokovnjaki, s čimer zagotovite, da noben strokovnjak ni preobremenjen, drugi pa ostanejo premalo izkoriščeni. To uravnoteženje obremenitve se običajno doseže s pomožnimi izgubami med usposabljanjem in skrbnim prilagajanjem faktorja zmogljivosti, ki določa največje število žetonov, ki se lahko dodelijo vsakemu strokovnjaku.
Komunikacijski stroški: V scenarijih porazdeljenega usposabljanja in sklepanja lahko modeli MoE uvedejo dodatne komunikacijske stroške zaradi potrebe po izmenjavi informacij o aktivaciji in gradientu med strokovnjaki, ki prebivajo na različnih napravah ali pospeševalnikih. Učinkovite komunikacijske strategije in zasnova modela, ki upošteva strojno opremo, so bistvenega pomena za zmanjšanje teh stroškov.

Kljub tem izzivom so potencialne koristi modelov MoE pri omogočanju večjih in zmogljivejših jezikovnih modelov spodbudile znatna raziskovalna prizadevanja za obravnavo in ublažitev teh vprašanj.

Primer: Mixtral 8x7B in GLaM

Za ponazoritev praktične uporabe MoE v jezikovnih modelih si oglejmo dva pomembna primera: Mixtral 8x7B in GLaM.

Mixtral 8x7B je različica MoE Jezikovni model Mistral, ki ga je razvil Anthropic. Sestavljeno je iz osmih strokovnjakov, vsak s 7 milijardami parametrov, kar pomeni skupno 56 milijard parametrov. Vendar sta med sklepanjem aktivirana samo dva strokovnjaka na žeton, kar učinkovito zmanjša računske stroške na stroške modela s 14 milijardami parametrov.

Mixtral 8x7B je pokazal impresivno zmogljivost, saj je presegel model Llama s 70 milijardami parametrov, hkrati pa ponuja veliko hitrejše čase sklepanja. Izdana je bila tudi različica Mixtral 8x7B, prilagojena navodilom, imenovana Mixtral-8x7B-Instruct-v0.1, ki še izboljša zmožnosti sledenja navodilom v naravnem jeziku.

Drug omembe vreden primer je GLaM (Google Language Model), obsežen model MoE, ki ga je razvil Google. GLaM uporablja transformatorsko arhitekturo samo za dekoder in je bil usposobljen na ogromnem naboru podatkov žetonov, ki obsega 1.6 trilijona. Model dosega impresivno zmogljivost pri ocenjevanju z nekaj posnetki in enkratnimi posnetki, pri čemer se ujema s kakovostjo GPT-3, medtem ko porabi samo eno tretjino energije, potrebne za usposabljanje GPT-3.

Uspeh GLaM-a je mogoče pripisati njegovi učinkoviti arhitekturi MoE, ki je omogočila usposabljanje modela z velikim številom parametrov ob ohranjanju razumnih računalniških zahtev. Model je tudi pokazal potencial modelov MoE, da so bolj energetsko učinkoviti in okoljsko trajnostni v primerjavi z njihovimi gosto podobnimi modeli.

Arhitektura Grok-1

GROK MEŠANICA EXPERT

Grok-1 je transformatorski model MoE z edinstveno arhitekturo, zasnovano za povečanje učinkovitosti in zmogljivosti. Poglobimo se v ključne specifikacije:

parametri: Grok-314 je z osupljivimi 1 milijardami parametrov največji odprti LLM doslej. Vendar pa je zaradi arhitekture MoE v danem trenutku aktivnih samo 25 % uteži (približno 86 milijard parametrov), kar izboljšuje zmogljivosti obdelave.
Arhitektura: Grok-1 uporablja arhitekturo Mixture-of-8-Experts, pri čemer vsak žeton med sklepanjem obdelata dva strokovnjaka.
Plasti: Model je sestavljen iz 64 transformatorskih plasti, od katerih vsaka vključuje pozornost z več glavami in goste bloke.
Tokenizacija: Grok-1 uporablja tokenizer SentencePiece z velikostjo besedišča 131,072 žetonov.
Vdelave in pozicijsko kodiranje: Model ima 6,144-dimenzionalne vdelave in uporablja rotacijske pozicijske vdelave, kar omogoča bolj dinamično interpretacijo podatkov v primerjavi s tradicionalnimi fiksnimi pozicijskimi kodiranji.
pozornost: Grok-1 uporablja 48 opozorilnih glav za poizvedbe in 8 opozorilnih glav za ključe in vrednosti, vsaka z velikostjo 128.
Dolžina konteksta: Model lahko obdela zaporedja do 8,192 žetonov v dolžino, pri čemer uporablja natančnost bfloat16 za učinkovito računanje.

Podrobnosti o uspešnosti in izvedbi

Grok-1 je pokazal impresivno zmogljivost, saj je presegel LLaMa 2 70B in Mixtral 8x7B z rezultatom MMLU 73 %, kar prikazuje njegovo učinkovitost in natančnost v različnih testih.

Vendar je pomembno omeniti, da Grok-1 zaradi svoje velikosti zahteva znatna sredstva GPU. Trenutna izvedba v odprtokodni izdaji se osredotoča na preverjanje pravilnosti modela in uporablja neučinkovito izvedbo plasti MoE, da se izogne potrebi po jedrih po meri.

Kljub temu model podpira aktivacijsko deljenje in 8-bitno kvantizacijo, ki lahko optimizira zmogljivost in zmanjša zahteve po pomnilniku.

V izjemni potezi, xAI je izdal Grok-1 pod licenco Apache 2.0, zaradi česar so njegove uteži in arhitektura dostopni svetovni skupnosti za uporabo in prispevke.

Odprtokodna izdaja vključuje repozitorij primerov kod JAX, ki prikazuje, kako naložiti in zagnati model Grok-1. Uporabniki lahko prenesejo uteži kontrolnih točk s torrent odjemalcem ali neposredno prek središča HuggingFace Hub, kar olajša enostaven dostop do tega revolucionarnega modela.

Prihodnost mešanice strokovnjakov za jezikovne modele

Ker povpraševanje po večjih in zmogljivejših jezikovnih modelih še naprej narašča, se pričakuje, da bo sprejemanje tehnik MoE dobilo nadaljnji zagon. Tekoča raziskovalna prizadevanja so osredotočena na obravnavo preostalih izzivov, kot je izboljšanje stabilnosti treninga, ublažitev prekomernega opremljanja med finim prilagajanjem ter optimizacija pomnilniških in komunikacijskih zahtev.

Ena obetavna smer je raziskovanje hierarhičnih arhitektur MoE, kjer je vsak strokovnjak sam sestavljen iz več podstrokovnjakov. Ta pristop bi potencialno lahko omogočil še večjo razširljivost in računalniško učinkovitost, hkrati pa ohranil izrazno moč velikih modelov.

Poleg tega je razvoj sistemov strojne in programske opreme, optimiziranih za modele MoE, aktivno področje raziskav. Specializirani pospeševalniki in porazdeljeni okviri za usposabljanje, zasnovani za učinkovito obvladovanje redkih in pogojnih računskih vzorcev modelov MoE, bi lahko dodatno izboljšali njihovo zmogljivost in razširljivost.

Poleg tega bi lahko integracija tehnik MoE z drugimi napredki v jezikovnem modeliranju, kot so mehanizmi redke pozornosti, učinkovite strategije tokenizacije in večmodalne predstavitve, vodila do še zmogljivejših in vsestranskih jezikovnih modelov, ki bi se lahko spopadali s širokim naborom nalog.

zaključek

Tehnika mešanice strokovnjakov se je izkazala kot močno orodje pri iskanju večjih in zmogljivejših jezikovnih modelov. S selektivnim aktiviranjem strokovnjakov na podlagi vhodnih podatkov modeli MoE ponujajo obetavno rešitev za računalniške izzive, povezane s povečevanjem gostih modelov. Čeprav še vedno obstajajo izzivi, ki jih je treba premagati, kot so nestabilnost pri usposabljanju, prekomerno opremljanje in zahteve po pomnilniku, so možne prednosti modelov MoE v smislu računalniške učinkovitosti, razširljivosti in okoljske trajnosti vznemirljivo področje raziskav in razvoja.

Ker področje obdelave naravnega jezika še naprej premika meje možnega, bo sprejetje tehnik MoE verjetno igralo ključno vlogo pri omogočanju naslednje generacije jezikovnih modelov. S kombinacijo MoE z drugimi napredki v arhitekturi modela, tehnikah usposabljanja in optimizaciji strojne opreme se lahko veselimo še zmogljivejših in vsestranskih jezikovnih modelov, ki lahko resnično razumejo ljudi in komunicirajo z ljudmi na naraven in brezhiben način.

Sorodne teme:grok HuggingFace Llama LLM Mistral Mešanica strokovnjakov transformatorji

Up Next

AI GPT za zbirko podatkov PostgreSQL: ali lahko delujejo?

Ne zamudite

Kaj morate vedeti o novem superčipu in arhitekturi Blackwell AI družbe NVIDIA

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.