AI 101

Mixture-of-Expertsin nous: Kuinka harvat AI-mallit muokkaavat koneoppimisen tulevaisuutta

mm

Mixture-of-Experts (MoE) -mallit vallankumouksellistavat tapaa, jolla skaalataan tekoälyä. Käyttämällä vain osaa mallin komponenteista kerran, MoE:t tarjoavat uuden lähestymistavan mallin koosta ja laskennallisen tehokkuuden hallintaan. Toisin kuin perinteiset tiheät mallit, jotka käyttävät kaikkia parametreja jokaiselle syötteelle, MoE:t saavuttavat valtavat parametrilukumäärät pitäen samalla inference- ja koulutuskuilut hallinnassa. Tämä läpimurto on kiihdyttänyt aallon tutkimusta ja kehitystä, ja sekä teknologiajätit että startup-yritykset ovat investoineet voimakkaasti MoE-pohjaisiin arkkitehtuureihin.

Miten Mixture-of-Experts -mallit toimivat

MoE-malleissa on useita erikoistuneita aliverkkoja, joita kutsutaan “asiantuntijoiksi”, ja niiden toimintaa ohjaa porttitekniikka, joka päättää, mitkä asiantuntijat käsittelevät kunkin syötteen. Esimerkiksi lause, joka syötetään kielen malliin, voi käsitellä vain kaksi kahdeksasta asiantuntijasta, mikä vähentää laskennallista kuormitusta merkittävästi.

Tämä käsite tuli valtavirtaan Google’s Switch Transformer and GLaM -malleissa, joissa asiantuntijat korvasivat perinteiset eteenpäin syötettävät kerrokset Transformer-malleissa. Switch Transformer esimerkiksi ohjaa tokenit yhteen asiantuntijaan kerrosta kohden, kun taas GLaM käyttää top-2 reititystä parantamaan suorituskykyä. Nämä suunnittelut osoittivat, että MoE:t voivat vastata tai ylittää tiheiden mallien suorituskyvyn, kuten GPT-3, käyttäen merkittävästi vähemmän energiaa ja laskentaresursseja.

Avaininnovaatio on ehdollinen laskenta. Sen sijaan, että koko malli käynnistetään, MoE:t käynnistävät vain osan, mikä tarkoittaa, että malli, jolla on satoja miljardeja tai jopa biljoonia parametreja, voi toimia yhtä tehokkaasti kuin malli, joka on useita kertaluokkia pienempi. Tämä mahdollistaa tutkijoille skaalata kapasiteettia ilman suorassa suhteessa olevaa laskennan kasvua, saavutus, jota ei voida saavuttaa perinteisillä skaalauksella.

MoE:n käytännön sovellukset

MoE-mallit ovat jo jättäneet jälkensä useilla aloilla. Google’n GLaM ja Switch Transformer osoittivat huipputuloksia kielen mallinnuksessa alempien koulutus- ja inference-kustannuksilla. Microsoftin Z-Code MoE on toiminnassa sen Translator-työkalussa, joka käsittelee yli 100 kieltä tarkemmin ja tehokkaammin kuin aiemmat mallit. Nämä eivät ole vain tutkimushankkeita – ne voimaavat live-palveluita.

Näköhallinnassa Google’n V-MoE-arkkitehtuuri on parantanut luokittelutarkkuutta benchmarkkeissä kuten ImageNet, ja LIMoE-malli on osoittanut vahvan suorituskyvyn monimodaalisissa tehtävissä, jotka käyttävät sekä kuvia että tekstiä. Asiantuntijoiden erikoistumismahdollisuus – joillakin käsitellään tekstiä, toisilla kuvia – lisää uuden tason kykyä tekoälyjärjestelmiin.

Suosittelujärjestelmät ja monitehtävälaitteet ovat myös hyötyneet MoE:ista. Esimerkiksi YouTube’n suosittelumoottori on käyttänyt MoE-kaltainen arkkitehtuuri käsitelläkseen tavoitteita kuten katseluaikaa ja napsautusosuutta tehokkaammin. Asiantuntijoiden määräystä eri tehtäviin tai käyttäjän käyttäytymiseen MoE:t auttavat rakentamaan vahvemman henkilökohtaistamismoottorin.

Hyödyt ja haasteet

MoE:n pääasiallinen etu on tehokkuus. Ne mahdollistavat massiivisten mallien kouluttamisen ja käyttöönoton huomattavasti vähemmällä laskennalla. Esimerkiksi Mistral AI:n Mixtral 8×7B -malli on 47B parametreja, mutta käynnistää vain 12,9B tokenia kohden, antaen sille 13B mallin kustannustehokkuuden kilpaillessaan GPT-3.5:n laadussa.

MoE:t myös edistävät erikoistumista. Koska eri asiantuntijat voivat oppia eri kuvioita, koko malli tulee paremmaksi käsittelemään monimuotoisia syötteitä. Tämä on erityisen hyödyllistä monikielisissä, monialaisissa tai monimodaalisissa tehtävissä, joissa yksi kokoinen tiheä malli voi olla heikko.

MoE:illa on kuitenkin myös insinööritieteellisiä haasteita. Niiden kouluttaminen vaatii tarkkaa tasapainotusta, jotta kaikki asiantuntijat käytetään tehokkaasti. Muistioverhead on toinen huolenaihe – vaikka vain osa parametreja on aktiivisia kunkin inference-kerran aikana, kaikki on ladattava muistiin. Laskennan jakaminen tehokkaasti GPU:iden tai TPU:iden välillä on haastavaa ja on johtanut erikoistuneiden kehysten kehittymiseen, kuten Microsoftin DeepSpeed ja Google’n GShard.

Vaikka nämä esteet ovat olemassa, suorituskyky- ja kustannus-edut ovat niin merkittäviä, että MoE:ita pidetään nyt tärkeänä osana suurten tekoälyjärjestelmien suunnittelua. Mitä enemmän työkaluja ja infrastruktuuria kypsyvät, nämä haasteet ovat vähitellen ylittävässä tilassa.

Miten MoE vertautuu muihin skaalauksen menetelmiin

Perinteinen tiheä skaalaus lisää mallin kokoa ja laskentaa suoraan. MoE:t rikkoavat tämän suoraviivaisuuden lisäämällä yhteisiä parametreja ilman laskennan kasvua kunkin syötteen aikana. Tämä mahdollistaa malleja, joissa on biljoonia parametreja, kouluttaa samalla laitteistolla, joka oli aiemmin rajoitettu kymmeniin miljardeihin.

Vertailussa malleihin, joissa on useita yksittäisiä eteenpäin syötettäviä kerroksia, MoE:t ovat paljon tehokkaampia. Sen sijaan, että useita kokonaisia malleja ajetaan rinnakkain, MoE:t ajavat vain yhden – mutta useiden asiantuntijareittien hyödyllä.

MoE:t myös täydentävät strategioita, kuten koulutusdatan skaalausta (esim. Chinchilla-menetelmä). Vaikka Chinchilla korostaa pienempien mallien käyttöä enemmän dataa vastaan, MoE:t laajentavat mallin kapasiteettia pitäen laskennan vakaana, mikä tekee niistä ihanteellisia tapauksissa, joissa laskenta on pullonkaula.

Lopulta, vaikka tekniikat, kuten pruning ja kvantisaatio, kutistavat malleja koulutuksen jälkeen, MoE:t lisäävät mallin kapasiteettia koulutuksen aikana. Ne eivät korvaa pakkausta, vaan ovat ortogonaalinen työkalu tehokkaalle kasvulle.

Yritykset, jotka johtavat MoE-vallankumousta

Teknologiajätit

Google löi perustaa nykyiselle MoE-tutkimukselle. Heidän Switch Transformer ja GLaM -mallinsa skaalautuivat 1,6T ja 1,2T parametreihin. GLaM vastasi GPT-3:n suorituskykyä käyttäen vain kolmanneksen energiaa. Google on myös soveltanut MoE:ita visioon (V-MoE) ja monimodaalisiin tehtäviin (LIMoE), mikä on linjassa heidän laajemman Pathways-vision kanssa yleisistä tekoälymallista.

Microsoft on integroinut MoE:n tuotantoon sen Z-Code-mallin kautta Microsoft Translatoriin. Se on myös kehittänyt DeepSpeed-MoE:n, joka mahdollistaa nopean koulutuksen ja matalan viiveen inference-trillion parametrin malleille. Heidän panoksensa käsittävät reititysalgoritmeja ja Tutel-kirjastoa MoE-laskennan tehokkuuden vuoksi.

Meta on tutkinut MoE:ita suurissa kielen malleissa ja suosittelujärjestelmissä. Heidän 1,1T MoE-malli osoitti, että se voi vastata tiheän mallin laadun käyttäen 4-kertaisesti vähemmän laskentaa. Vaikka LLaMA-mallit ovat tiheitä, Meta’n MoE-tutkimus jatkuu koko yhteisön hyödyksi.

Amazon tukee MoE:ita Amazon Sagemaker -alustalla ja sisäisissä ponnistelussa. He mahdollistivat Mistralin Mixtral-mallin koulutuksen ja huhutaan käyttävän MoE:ita palveluissa kuten Alexa AI. AWS-dokumentaatio edistää aktiivisesti MoE:ita suurten mallien koulutukseen.

Huawei ja BAAI Kiinassa ovat myös kehittäneet ennätyksellisiä MoE-malleja, kuten PanGu-Σ (1.085T parametreja). Tämä korostaa MoE:n potentiaalia kielellisissä ja monimodaalisissa tehtävissä ja korostaa sen globaalia vetovoimaa.

Startup-yritykset ja haastajat

Mistral AI on MoE-innovaation lippulaiva avoimessa lähdekoodissa. Heidän Mixtral 8×7B ja 8×22B -mallit ovat osoittaneet, että MoE:t voivat ylittää tiheiden mallien suorituskyvyn, kuten LLaMA-2 70B, ja toimia murto-osalla kustannuksista. Yli 600 miljoonan euron rahoituksella Mistral panostaa vahvasti harvaan arkkitehtuuriin.

xAI, joka on perustettu Elon Muskin toimesta, tutkii MoE:ita Grok-mallissaan. Vaikka yksityiskohdat ovat rajoitettuja, MoE:t tarjoavat tapaa startup-yrityksille kilpailla suurempien pelaajien kanssa ilman massiivisia laskentaresursseja.

Databricks on hankkinut MosaicML:n ja julkaissut DBRX, avoimen MoE-mallin, joka on suunniteltu tehokkuutta varten. He tarjoavat myös infrastruktuuria ja reseptejä MoE-koulutukseen, mikä alentaa käyttöönoton kynnystä.

Muita toimijoita, kuten Hugging Face, on integroinut MoE-tuen kirjastoihinsa, mikä helpottaa kehittäjien rakentaa näiden mallien päälle. Vaikka he eivät itse kehitä MoE:ita, alustat, jotka mahdollistavat niiden, ovat olennaisia ekosysteemille.

Johtopäätös

Mixture-of-Experts -mallit eivät ole vain muoti-ilmiö – ne edustavat perustavaa muutosta siinä, miten tekoälyjärjestelmiä rakennetaan ja skaalataan. Käynnistämällä valikoivasti vain osaa verkkoa, MoE:t tarjoavat massiivisten mallien voiman ilman niiden kiellettyjä kustannuksia. Mitä ohjelmistoinfrastruktuuri kehittyy ja reititysalgoritmit paranevat, MoE:t ovat valmiina tulemaan oletusarkkitehtuuriksi monialaisille, monikielisille ja monimodaalisille tekoälysovelluksille.

Olitpa sitten tutkija, insinööri tai sijoittaja, MoE:t tarjoavat vihjeen tulevaisuudesta, jossa tekoäly on voimakkaampaa, tehokkaampaa ja sopeutuvampaa kuin koskaan aiemmin.

Antoine on visionäärinen johtaja ja Unite.AI:n perustajakumppani, jota ohjaa horjumaton intohimo muokata ja edistää tulevaisuuden tekoälyä ja robottiikkaa. Sarjayrittäjänä hän uskoo, että tekoäly tulee olemaan yhtä mullistava yhteiskunnalle kuin sähkö, ja hänestä usein kuuluu ylistyksiä mullistavien teknologioiden ja AGI:n mahdollisuuksista.
Hänen ollessaan futuristi, hän on omistautunut tutkimiseen, miten nämä innovaatiot muokkaavat maailmaamme. Lisäksi hän on Securities.io:n perustaja, joka on alusta, joka keskittyy sijoittamiseen uraauurtaviin teknologioihin, jotka määrittelevät uudelleen tulevaisuuden ja muokkaavat koko sektoreita.