Tekoäly
Mixture-of-Expertsin nousu tehokkaiden suurten kielen mallien kehittämiseen

By
Aayush Mittal Mittal
Luonnollisen kielen prosessoinnin (NLP) maailmassa suurempien ja kykykkäämpien kielen mallien kehittäminen on ollut voimavaara useiden viimeaikaisen edistysaskelten takana. Kuitenkin näiden mallien kasvaessa kooltaan, laskennalliset vaatimukset koulutukselle ja inferenceksi tulevat yhä vaativammiksi, työntäen saatavilla olevien laitteistoresurssien rajoja vastaan.
Tässä tulee Mixture-of-Experts (MoE), tekniikka, joka lupailee helpottaa tätä laskennallista taakkaa sallien suurempien ja tehokkaampien kielen mallien koulutuksen. Alla tarkastelemme MoE:ta, sen alkuperää, sisäisiä toimintaperiaatteita ja soveltamista transformer-pohjaisiin kielen malleihin.
Mixture-of-Expertsin alkuperä
Mixture-of-Experts (MoE) -käsitteen voidaan jäljittää 1990-luvun alkuun, jolloin tutkijat tutkivat ehdollisen laskennan ideaa, jossa osia neuroverkosta aktivoitiin valikoivasti syötedatan perusteella. Yksi uraauurtavista töistä tässä alalla oli “Adaptive Mixture of Local Experts” -artikkeli Jacobs et al. vuonna 1991, jossa esiteltiin valvottu oppimisraami neuroverkkojen joukolle, joista jokainen erikoistui eri alueeseen syöteavaruudessa.
MoE:n keskeinen idea on olla useita “asiantuntija”-verkkoja, joista jokainen on vastuussa prosessoimasta syötedatan alijoukkoa. Portti-mekanismi, tyypillisesti itse neuroverkko, määrittää, mitkä asiantuntijat tulisi prosessoida annettu syöte. Tämä lähestymistapa sallii mallin jakaa laskennalliset resurssinsa tehokkaammin aktivoimalla vain relevantit asiantuntijat kullekin syötteelle, sen sijaan, että käyttäisi koko mallin kapasiteettia jokaiselle syötteelle.
Vuosiin, useat tutkijat ovat tutkineet ja laajentaneet ehdollisen laskennan ideaa, johtaen kehityksiin kuten hierarkkisiin MoE:hen, matalan arvon approksimointeihin ehdollisessa laskennassa ja tekniikoihin, joilla voidaan arvioida gradientteja stokastisten neuroneiden ja kova-rajahämmäystoimintojen kautta.
Mixture-of-Experts transformerissa
Vaikka MoE:n idea on ollut olemassa vuosikymmeniä, sen soveltaminen transformer-pohjaisiin kielen malleihin on suhteellisen uusi. Transformerit, jotka ovat tulleet de facto -standardiksi valmiiden kielen mallien joukossa, koostuvat useista kerroksista, joista jokainen sisältää itse-huomio-mekanismin ja syötteen eteenpäin kulkevan neuroverkon (FFN).
Avaininnovaatio MoE:n soveltamisessa transformer-eihin on korvata tiheät FFN-kerrokset harvoilla MoE-kerroksilla, joista jokainen koostuu useista asiantuntija-FFN:istä ja portti-mekanismista. Portti-mekanismi määrittää, mitkä asiantuntijat tulisi prosessoida kullekin syöte-tokenille, salliessa mallin valikoivasti aktivoivan vain osajoukon asiantuntijoita kullekin syöte-sarjalle.
Yksi varhaisista töistä, joka osoitti MoE:n potentiaalin transformer-eissä, oli “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer” -artikkeli Shazeer et al. vuonna 2017. Tämä työ esitteli sparsely-gated MoE -kerroksen käsitteen, joka käytti portti-mekanismia, joka lisäsi sparsiteettia ja melua asiantuntijan valintaan, varmistaen, että vain osajoukko asiantuntijoita aktivoitui kullekin syötteelle.
Siitä lähtien useat muut työt ovat edelleen kehittäneet MoE:n soveltamista transformer-eihin, ratkaisemalla haasteita kuten koulutus epävakaus, kuormituksen tasapaino ja tehokas inference. Merkittäviä esimerkkejä ovat Switch Transformer (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) ja GLaM (Du et al., 2022).
Mixture-of-Expertsin hyödyt kielen malleille
MoE:n käytön ensisijainen etu kielen malleissa on kyky skaalata mallin kokoa ylläpitäen suhteellisen vakiota laskennallista kustannusta inference-ajaksi. Valikoivasti aktivoimalla vain osajoukon asiantuntijoita kullekin syöte-tokenille, MoE-mallit voivat saavuttaa suurempien tiheiden mallien ilmaisukyvyn ilman merkittävää laskennallisen kustannuksen kasvua.
Esimerkiksi, tarkastellaan kielen mallia, jossa on tiheä FFN-kerros 7 miljardia parametriä. Jos korvaamme tämän kerroksen MoE-kerroksella, joka koostuu kahdeksasta asiantuntijasta, joista jokainen on 7 miljardia parametriä, yhteinen määrä parametreja kasvaa 56 miljardiin. Kuitenkin, inference-ajaksi, jos aktivoimme vain kaksi asiantuntijaa tokenille, laskennallinen kustannus on vastaava kuin 14 miljardin parametrin tiheä malli, koska se laskee kaksi 7 miljardin parametrin matriisikertolaskua.
Tämä laskennallinen tehokkuus inference-ajaksi on erityisen arvokasta käyttötapauksissa, joissa resurssit ovat rajallisia, kuten mobiililaitteissa tai reunan laskentaympäristöissä. Lisäksi, laskennallisten vaatimusten vähentyminen koulutuksen aikana voi johtaa merkittäviin energiansäästöihin ja alempana hiilijalanjäljen, joka on linjassa kasvavan painopisteen kestävien AI-käytäntöjen kanssa.
Haasteet ja huomioon otettavat seikat
Vaikka MoE-mallit tarjoavat houkuttelevia etuja, niiden omaksuminen ja käyttöönotto tulee myös useiden haasteiden ja huomioon otettavien seikkojen kanssa:
- Koulutus epävakaus: MoE-mallit ovat tunnettuja siitä, että ne ovat alttiimpia koulutus epävakauteen verrattuna tiheisiin vastineisiinsa. Tämä ongelma johtuu sparsiteetin ja ehdollisen asiantuntijoiden aktivaation luonteesta, mikä voi johtaa haasteisiin gradientin propagaatiossa ja konvergenssissa. Tekniikoita, kuten reitittäjän z-häviö (Zoph et al., 2022), on ehdotettu lievittämään näitä epävakauksia, mutta edelleen tarvitaan tutkimusta.
- Hienosäätö ja ylioppiminen: MoE-mallit taipuvat ylioppimiseen helpommin hienosäätössä, erityisesti kun alimmainen tehtävänä on suhteellisen pieni tietojoukko. Tämä käyttäytyminen johtuu MoE-mallien lisääntyneestä kapasiteetista ja sparsiteetista, mikä voi johtaa yli-erikoistumiseen koulutusdataan. Huolellinen sääntely ja hienosäätöstrategiat ovat tarpeen lievittääkseen tämän ongelman.
- Muistivaatimukset: Vaikka MoE-mallit voivat vähentää laskennallisia kustannuksia inference-ajaksi, ne usein vaativat suurempia muistivaatimuksia verrattuna tiheisiin malleihin saman kokoisina. Tämä johtuu siitä, että kaikkien asiantuntijoiden painot on ladattava muistiin, vaikka vain osajoukko niistä aktivoituu kullekin syötteelle. Muistirajoitukset voivat rajoittaa MoE-mallien skaalautuvuutta resurssirajoitettuisilla laitteilla.
- Kuormituksen tasapaino: Saavuttaakseen optimaalisen laskennallisen tehokkuuden, on tärkeää tasapainottaa kuormitusta asiantuntijoiden välillä, varmistaen, ettei yksikään asiantuntija ole ylikuormitettu, kun taas toiset ovat alikäytettyjä. Tämä kuormituksen tasapaino saavutetaan yleensä apulisiä häviöitä koulutuksen aikana ja huolellista kapasiteettikerrointa, joka määrittää enimmäismäärän tokenien, jotka voidaan määrittää kullekin asiantuntijalle.
- Viestintäkuorma: Jakautuneessa koulutuksessa ja inference-tapauksissa MoE-mallit voivat aiheuttaa lisää viestintäkuormaa asiantuntijoiden ja gradienttien välisen tiedonvaihdon tarpeen vuoksi eri laitteilla tai kiihdyttimillä. Tehokkaat viestintästrategiat ja laitteistotietoinen mallin suunnittelu ovat olennaisia lievittääkseen tämän kuorman.
Näistä haasteista huolimatta MoE-mallien potentiaaliset hyödyt suurempien ja kykykkäämpien kielen mallien mahdollistamisessa ovat kiihdyttäneet merkittävän tutkimuksen ponnistelut näiden ongelmien ratkaisemiseksi ja lievittämiseksi.
Esimerkki: Mixtral 8x7B ja GLaM
Illustroimaan MoE:n käytännön soveltamista kielen malleissa, tarkastellaan kahta merkittävää esimerkkiä: Mixtral 8x7B ja GLaM.
Mixtral 8x7B on MoE-variantti Mistral-kielen mallista, jonka on kehittänyt Anthropic. Se koostuu kahdeksasta asiantuntijasta, joista jokainen on 7 miljardia parametriä, johtaen yhteensä 56 miljardiin parametriin. Kuitenkin, inference-ajaksi, vain kaksi asiantuntijaa aktivoituu tokenille, vähentäen laskennallista kustannusta 14 miljardin parametrin tiheän mallin tasolle, koska se laskee kaksi 7 miljardin parametrin matriisikertolaskua.
Mixtral 8x7B on osoittanut vaikuttavia suorituskykyjä, ylittäen 70 miljardin parametrin Llama-mallin ja tarjoten paljon nopeamman inference-ajan. Ohjeistuksen mukainen versio Mixtral 8x7B:stä, kutsutaan Mixtral-8x7B-Instruct-v0.1, on myös julkaistu, parantaen edelleen sen kykyjä seuraamaan luonnollisen kielen ohjeita.
Toinen merkittävä esimerkki on GLaM (Google Language Model), suuri MoE-malli, jonka on kehittänyt Google. GLaM käyttää decoder-vain transformer-arkkitehtuuria ja on koulutettu massiivisella 1,6 biljoonan tokenin tietojoukolla. Malli saavuttaa vaikuttavia suorituskykyjä vähä- ja yhden shot -arvioissa, vastaten GPT-3:n laatua käyttäen vain kolmanneksen energiaa, joka vaaditaan GPT-3:n koulutukseen.
GLaM:n menestys voidaan atribuoida sen tehokkaaseen MoE-arkkitehtuuriin, joka mahdollisti mallin koulutuksen valtavan määrän parametreja ylläpitäen kohtuulliset laskennalliset vaatimukset. Malli osoitti myös MoE-mallien potentiaalin olla energiatehokkaampia ja ympäristöystävällisempiä verrattuna tiheisiin vastineisiinsa.
Grok-1-arkkitehtuuri
Grok-1 on transformer-pohjainen MoE-malli, jolla on ainutlaatuinen arkkitehtuuri, joka on suunniteltu maksimoimaan tehokkuus ja suorituskyky. Tarkastellaan avainspeksit:
- Parametrit: 314 miljardia parametriä, Grok-1 on suurin avoin LLM tähän mennessä. Kiitos MoE-arkkitehtuuriin, vain 25% painoista (noin 86 miljardia parametriä) on aktiivisia kerran, parantaen prosessointikapasiteettia.
- Arkkitehtuuri: Grok-1 käyttää 8-asiantuntijan MoE-arkkitehtuuria, jossa jokainen tokeni prosessoidaan kahdella asiantuntijalla inference-ajaksi.
- Kerrokset: Malli koostuu 64 transformer-kerroksesta, joista jokainen sisältää multihead-huomio- ja tiheän neuroverkon.
- Tokenisointi: Grok-1 käyttää SentencePiece-tokenisointia, jonka sanastokoko on 131 072 tokenia.
- Upottaminen ja positionaalinen koodaus: Mallissa on 6 144 -ulottuvuuden upottaminen ja se käyttää rotaatiopositionaalista koodausta, mahdollistaen dynaamisemman datan tulkinnan verrattuna perinteisiin kiinteisiin positionaalisiin koodauksiin.
- Huomio: Grok-1 käyttää 48 huomio-päätä kyselyille ja 8 huomio-päätä avaimille ja arvoille, joista jokainen on 128-kokoista.
- Kontekstipituus: Malli voi prosessoida jonoja enintään 8 192 tokenin pituudella, käyttäen bfloat16-tarkkuutta tehokkaan laskennan vuoksi.
Suorituskyky ja toteutus yksityiskohdat
Grok-1 on osoittanut vaikuttavia suorituskykyjä, ylittäen LLaMa 2 70B:n ja Mixtral 8x7B:n MMLU-pistemäärällä 73%, osoittaen sen tehokkuuden ja tarkin suorituskyvyn eri testeissä.
On kuitenkin huomattava, että Grok-1 vaatii merkittäviä GPU-resursseja sen valtavan koosta johtuen. Nykyinen toteutus avoimessa lähdekoodissa keskittyy mallin oikeellisuuden vahvistamiseen ja käyttää tehokkaan MoE-kerroksen toteutusta välttääkseen mukautettujen ytimien tarpeen.
Kuitenkin, malli tukee aktivaatioiden shardingia ja 8-bittistä kvantifiointia, mikä voi optimoida suorituskykyä ja vähentää muistivaatimuksia.
Huomionarvoisessa liikkeessä, xAI on julkaissut Grok-1:n Apache 2.0 -lisenssillä, tehden sen painot ja arkkitehtuuri saataville globaalille yhteisölle käyttöä ja osallistumista varten.
Avoimen lähdekoodin julkaisu sisältää JAX-esimerkki koodin, joka osoittaa, miten ladata ja ajaa Grok-1-malli. Käyttäjät voivat ladata mallin painot torrent-asiakkaan avulla tai suoraan HuggingFace Hubin kautta, helpottaen pääsyä tähän uraauurtavaan malliin.
Mixture-of-Expertsin tulevaisuus kielen malleissa
Koska suurempien ja kykykkäämpien kielen mallien vaatimus jatkuu kasvamassa, MoE-tekniikoiden omaksuminen on odotettavissa saavuttavan edelleen lisää momentumia. Jatkuva tutkimus on keskittynyt ratkaisemaan jäljellä oleviin haasteisiin, kuten parantamaan koulutusvakautta, vähentämään ylioppimista hienosäätössä ja optimoimaan muisti- ja viestintävaatimuksia.
Yksi lupaava suunta on hierarkkisten MoE-arkkitehtuurien tutkiminen, joissa jokainen asiantuntija koostuu useista aliasiantuntijoista. Tämä lähestymistapa voi mahdollistaa suuremman skaalautuvuuden ja laskennallisen tehokkuuden ylläpitäen suurempien mallien ilmaisukykyä.
Lisäksi, laitteistojen ja ohjelmistojen kehittäminen, jotka on optimoitu MoE-mallien tehokkaaseen käsittelyyn, on aktiivinen tutkimuksen alue. Erikoistuneet kiihdyttimet ja jakautuneet koulutuskehykset, jotka on suunniteltu käsittelyyn MoE-mallien sparsiteettista ja ehdollista laskentaa, voivat edelleen parantaa niiden suorituskykyä ja skaalautuvuutta.
Lisäksi, MoE-tekniikoiden integrointi muihin edistysaskeliin kielen mallinnuksessa, kuten sparsiteettisten huomio-mekanismien, tehokkaiden tokenisointi-strategioiden ja monimodaalisten edustusten kehittämiseen, voi johtaa vielä tehokkaampiin ja monipuolisempiin kielen malleihin, jotka pystyvät ratkaisemaan laajan valikoiman tehtäviä.
Johtopäätös
Mixture-of-Experts -tekniikka on nousemassa voimakkaaksi työkaluksi suurempien ja kykykkäämpien kielen mallien kehittämisessä. Valikoivasti aktivoimalla asiantuntijoita syötedatan perusteella, MoE-mallit tarjoavat lupaavan ratkaisun laskennallisiin haasteisiin, jotka liittyvät tiheiden mallien skaalautumiseen. Vaikka haasteita on yhä ratkaistava, kuten koulutus epävakaus, ylioppiminen ja muistivaatimukset, MoE-mallien potentiaaliset hyödyt laskennallisen tehokkuuden, skaalautuvuuden ja ympäristöystävällisyyden suhteen tekevät niistä mielenkiintoisen tutkimuksen ja kehityksen alueen.
Koska luonnollisen kielen prosessoinnin ala jatkaa rajojen työntämistä siitä, mitä on mahdollista, MoE-tekniikoiden omaksuminen on todennäköisesti näyttelevä keskeistä roolia seuraavan sukupolven kielen mallien mahdollistamisessa. Yhdistämällä MoE:n muihin edistysaskeliin mallin arkkitehtuuriin, koulutusmenetelmiin ja laitteistoon, voimme odottaa vielä tehokkaampia ja monipuolisempia kielen malleja, jotka voivat todella ymmärtää ja viestiä ihmisten kanssa luonnollisella ja vaivattomalla tavalla.
Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.
You may like
-


Miksi useimmat modernit sovellukset tulevat olemaan hyödyttömiä tekoälyajan alla
-


Mistral AI Turvaa 830 Miljoonan Dollarin Velan Rakentamaan Pariisin Datakeskuksen
-


Gemini 3.1 Pro saavuttaa ennätykselliset päättelyedut
-


Ihmiskoodi vuodelta 2020 murskasi vibrokoodeja käyttävät agentit agenteilla suoritetuissa testeissä
-
Google Esittää Gemini 3 Pro:n, Joka Murskaa Suorituskykyennätykset
-


MoE-vallankumous: Miten edistynyt reititys ja erikoistuminen muuttavat LLM:t

