Connect with us

Mistral AI:n uusin Mixture of Experts (MoE) 8x7B -malli

Tekoäly

Mistral AI:n uusin Mixture of Experts (MoE) 8x7B -malli

mm
Mixture of Experts mistral ai

Mistral AI

joka on Pariisissa sijaitseva avoimen lähdekoodin mallin startup, haastaa normit julkaisemalla viimeisimmän suuren kielen mallinsa (LLM), MoE 8x7B, yksinkertaisen torrent-linkin kautta. Tämä poikkeaa Google:n perinteisestä lähestymistavasta Gemini-julkaisun kanssa, herättäen keskustelua ja innostusta AI-yhteisössä.

Mistral AI:n julkaisustrategia on aina ollut epätavallinen. Usein ohittamalla tavalliset saattavat, kuten tutkimuspaperit, blogit tai lehdistötiedotteet, heidän strategiansa on ollut ainutlaatuisen tehokas AI-yhteisön huomion kiinnittämisessä.

Viime aikoina yritys saavutti merkittävän $2 miljardin arvon seurauksena rahoituskierrokselta, jota johti Andreessen Horowitz. Tämä rahoituskierros oli historiallinen, asettamalla ennätyksen 118 miljoonan dollarin siemenrahastona, Euroopan historian suurimman. Rahoituskierroksen menestyksen lisäksi Mistral AI on ollut aktiivisesti mukana keskusteluissa EU:n AI-lain ympärillä, puolustamalla vähennettä sääntelyä avoimen lähdekoodin AI:ssa.

Miksi MoE 8x7B herättää huomiota

Kuvattu “GPT-4:n pienennetty versio”, Mixtral 8x7B käyttää Mixture of Experts (MoE) -kehystä, jossa on kahdeksan asiantuntijaa. Jokaisella asiantuntijalla on 111B parametrejä, yhdistettynä 55B jaettuihin huomioon kiinnittämisparametreihin, mikä antaa yhteensä 166B parametrejä mallille. Tämä suunnitteluratkaisu on merkittävä, koska se mahdollistaa vain kahden asiantuntijan osallistumisen jokaisen tokenin inferenceen, korostamalla siirtymistä kohti tehokkaampaa ja kohdennetumpaa AI-prosessointia.

Yksi Mixtralin keskeisistä piirteistä on sen kyky hallita laajaa asiayhteyttä 32 000 tokenia, tarjoamalla runsaasti tilaa monimutkaisten tehtävien käsittelyyn. Mallin monikieliset ominaisuudet sisältävät vahvan tuen englannin, ranskan, italian, saksan ja espanjan kielille, palvelemalla globaalia kehittäjäyhteisöä.

Mixtralin esikoulutus käyttää dataa avoimelta webiltä, samanaikaisella koulutuslähestymistavalla sekä asiantuntijoille että reitittimille. Tämä menetelmä varmistaa, että malli on ei vain laaja parametriavaruudessaan, vaan myös hienosäädetty avoimen datan nuansseihin, jolle se on altistunut.

Mixtral 8x7B saavuttaa vaikuttavan tuloksen

Mixtral 8x7B saavuttaa vaikuttavan tuloksen

Mixtral 8x7B ylittää LLaMA 2 70B:n ja kilpailee GPT-3.5:n kanssa, erityisesti merkittävästi MBPP-tehtävässä 60,7 prosentin onnistumisprosentilla, joka on huomattavasti korkeampi kuin sen vertailevat mallit. Jopa vaativassa MT-Bench -tehtävässä, joka on suunniteltu ohjeiden seuraamiseen, Mixtral 8x7B saavuttaa vaikuttavan tuloksen, lähes vastaavan GPT-3.5:n tuloksen.

Mixture of Experts (MoE) -kehystän ymmärtäminen

Mixture of Experts (MoE) -malli, joka on saavuttanut viimeaikaisen huomion sen sisällyttämisen ansiosta valtavirtaisten kielen mallien pariin, kuten Mistral AI:n MoE 8x7B, on itse asiassa juurtunut peruskonsepteihin, jotka ulottuvat useita vuosia taaksepäin. Tarkastellaan tämän idean alkuperää kautta merkittäviä tutkimuspaperia.

MoE-konsepti

Mixture of Experts (MoE) edustaa paradigmamuutosta neuroverkkoarkkitehtuureissa. Toisin kuin perinteiset mallit, jotka käyttävät yhtenäistä, homogeenista verkkoa kaikenlaisen datan prosessointiin, MoE ottaa käyttöön erikoistuneemman ja modulaarisen lähestymistavan. Se koostuu useista “asiantuntija”-verkoista, joista kunkin on suunniteltu käsittelemään tietynlaista dataa tai tehtäviä, ja “gating”-verkkoa, joka dynaamisesti ohjaa syötedataa sopivimpaan asiantuntijaan.

Mixture of Experts (MoE) -kerros upotettuna toistuvan kielen malliin

Mixture of Experts (MoE) -kerros upotettuna toistuvan kielen malliin (Lähde)

 

Yllä oleva kuva esittää yleiskatsauksen MoE-kerroksesta, joka on upotettu kielen malliin. Sen ydin koostuu useista eteenpäin suuntautuvista aliverkoista, jotka kutsutaan “asiantuntijoiksi”, joista kunkin on potentiaalia erikoistua eri datan osien prosessointiin. Gating-verkko, joka on korostettu diagrammissa, määrittää, mikä asiantuntijoiden yhdistelmä otetaan käyttöön annetun syötteen käsittelyyn. Tämä ehdollinen aktivaatio sallii verkon merkittävästi lisätä kapasiteettia ilman vastaavaa laskentavaatimusten kasvua.

MoE-kerroksen toiminto

Käytännössä gating-verkko arvioi syötteen (merkitty G(x) diagrammissa) ja valitsee harvan asiantuntijoiden joukon sen käsittelyyn. Tämä valinta on säätelty gating-verkon tulosteen mukaan, vaikuttaen efektiviisesti kunkin asiantuntijan “äänestys” tai osallistuminen lopputulokseen. Esimerkiksi, kuten diagrammissa näkyy, vain kaksi asiantuntijaa voidaan valita kunkin tietyn syöte-tokenin laskemiseen, tehdessä prosessin tehokkaaksi keskittämällä laskentaresursseja, missä ne ovat eniten tarpeen.

 

Transformer-encoder MoE-kerroksilla (Lähde)

Toinen yllä oleva kuva esittää perinteisen Transformer-encoderin ja sen, joka on täydennetty MoE-kerroksilla. Transformer-arkkitehtuuri, joka on laajalti tunnettu tehokkuudestaan kielen liittyvissä tehtävissä, koostuu perinteisesti itsehuomio- ja eteenpäin suuntautuvista kerroksista, pinottuna peräkkäin. MoE-kerrosten lisääminen korvaa joitakin näistä eteenpäin suuntautuvista kerroksista, mahdollistaen mallin skaalautumisen tehokkaammin kapasiteetin suhteen.

Täydennetyssä mallissa MoE-kerrokset on jaettu useiden laitteiden kesken, esittäen mallin rinnakkaisuuslähestymistapaa. Tämä on kriittistä, kun skaalataan erittäin suuriin malleihin, koska se mahdollistaa laskentakuormituksen ja muistin vaatimusten jakamisen useiden laitteiden, kuten GPU:iden tai TPU:iden, välillä. Tämä jakaminen on olennaisen tärkeää suurten, useiden miljardien parametrejä sisältävien mallien kouluttamiseen ja käyttöönottoon tehokkaasti.

Haja-MoE-lähestymistapa ohjeiden säätelyllä LLM:llä

Tutkimuspaperi “Haja-Mixture-of-Experts (MoE) skaalautuvalle kielen mallinnukselle” käsittelee innovatiivista lähestymistapaa parantaa suuria kielen malleja (LLM) integroimalla Mixture of Experts -arkkitehtuuriin ohjeiden säätelytekniikoita.

Se korostaa yleistä haasteita, jossa MoE-mallit suorittavat heikommin verrattuna tiheisiin malleihin, joilla on sama laskennallinen kapasiteetti, kun ne on hienosäädetty tiettyihin tehtäviin, johtuen eroista yleisen esikoulutuksen ja tehtäväkohtaisen hienosäätelyn välillä.

Ohjeiden säätely on koulutusmenetelmä, jossa malleja viimeistellään seuraamaan luonnollisen kielen ohjeita paremmin, tehostaen niiden tehtäväsuorituskykyä. Tutkimuspaperi ehdottaa, että MoE-mallit osoittavat merkittävän parannuksen, kun ne yhdistetään ohjeiden säätelyyn, enemmän kuin niiden tiheät vastineet. Tämä tekniikka kohdistaa mallin esikoulutetut edustukset seuraamaan ohjeita tehokkaammin, johtaa merkittäviin suorituskyvyn parannuksiin.

Tutkijat suorittivat tutkimuksia kolmessa kokeellisessa asetelmassa, paljastaen, että MoE-mallit aluksi suorittavat heikommin suorassa tehtäväkohtaisessa hienosäätelyssä. Kuitenkin, kun ohjeiden säätelyä sovelletaan, MoE-mallit menestyvät, erityisesti kun ne täydennetään tehtäväkohtaisella hienosäätelyllä. Tämä viittaa siihen, että ohjeiden säätely on olennainen askel MoE-mallien menestykseksi tiheiden mallien yläpuolella alatehtävissä.

Ohjeiden säätelyn vaikutus MOE:hen

Ohjeiden säätelyn vaikutus MOE:hen

Se esittelee myös FLAN-MOE32B-mallin, joka osoittaa näiden konseptien onnistuneen soveltamisen. Merkittävästi, se ylittää FLAN-PALM62B:n, tiheän mallin, benchmark-tehtävissä, käyttäen vain kolmanneksen laskennallista resursseja. Tämä osoittaa haja-MoE-mallien ja ohjeiden säätelyn yhdistämisen potentiaalin asettaa uudet standardit LLM:n tehokkuudelle ja suorituskyvylle.

Mixture of Experts -mallin toteuttaminen todellisissa tilanteissa

MoE-mallien monikäyttöisyys tekee niistä ihanteellisia laajalle soveltamisalueelle:

  • Luonnollinen kielen prosessointi (NLP): MoE-mallit voivat käsitellä ihmisen kielen nuansseja ja monimutkaisuutta tehokkaammin, tehdessä niistä ihanteellisia edistyneille NLP-tehtäville.
  • Kuvan ja videon prosessointi: Tehtävissä, jotka vaativat korkearesoluutioista prosessointia, MoE voi hallita eri kuvien tai videokuvien osia, parantaen sekä laatua että prosessointinopeutta.
  • Mukautettavat AI-ratkaisut: Liiketoiminnat ja tutkijat voivat räätälöidä MoE-malleja tiettyihin tehtäviin, johtaen kohdennetumpiin ja tehokkaampiin AI-ratkaisuihin.

Haasteet ja huomioon otettavat seikat

  • Monimutkaisuus koulutuksessa ja säätelyssä: MoE-mallien hajasijoitettu luonne voi monimutkaistaa koulutusprosessin, vaatien tarkkaa tasapainotusta ja säätelyä asiantuntijoita ja gating-verkkoa koskien.
  • Resurssien hallinta: Laskennallisten resurssien tehokas hallinta useiden asiantuntijoiden kesken on olennainen MoE-mallien edut maksimoimiseksi.

MoE-kerrosten sisällyttäminen neuroverkkoihin, erityisesti kielen mallien alueella, tarjoaa tien skaalautumiseen malleihin, jotka olivat aiemmin laskennallisten rajoitusten vuoksi mahdottomia. MoE-kerrosten mahdollistama ehdollinen laskenta sallii laskennallisten resurssien tehokkaamman jakamisen, mahdollistaen suurempien ja kykympäiden mallien kouluttamisen. Kun vaadimme enemmän ja enemmän järjestelmiltämme, arkkitehtuureja, kuten MoE-varustettu Transformer, tulevat todennäköisesti olemaan standardi monimutkaisten, suurten tehtävien käsittelyyn eri aloilla.

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.