Kunstmatige intelligentie
Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

dat een Parijse open-source model startup is, heeft normen uitgedaagd door hun laatste grote taalmodel (LLM), MoE 8x7B, vrij te geven via een eenvoudige torrentlink. Dit staat in contrast met de traditionele aanpak van Google met hun Gemini-release, waardoor gesprekken en opwinding binnen de AI-gemeenschap ontstaan.
Mistral AI’s aanpak van releases is altijd onconventioneel geweest. Vaak laten ze de gebruikelijke begeleidende artikelen, blogs of persberichten achterwege, maar hun strategie is uniek effectief gebleken in het trekken van de aandacht van de AI-gemeenschap.
Onlangs bereikte het bedrijf een opmerkelijke $2 miljard waardering na een financieringsronde onder leiding van Andreessen Horowitz. Deze financieringsronde was historisch, met een record van $118 miljoen aan seedfinanciering, de grootste in de Europese geschiedenis. Naast de financieringssuccessen is Mistral AI actief betrokken bij discussies over de EU AI-wet, waarin zij pleiten voor minder regulering in open-source AI.
Waarom MoE 8x7B aandacht trekt
MoE 8x7B, beschreven als een “geschaalde GPT-4”, maakt gebruik van een Mixture of Experts (MoE)-framework met acht experts. Elke expert heeft 111B parameters, gekoppeld aan 55B gedeelde aandachtparameters, om een totaal van 166B parameters per model te geven. Deze ontwerpkeuze is significant, omdat het alleen twee experts toelaat om betrokken te zijn bij de inferentie van elk token, waardoor een verschuiving naar meer efficiënte en gefocuste AI-verwerking mogelijk wordt.
Een van de belangrijkste hoogtepunten van Mixtral is zijn vermogen om een uitgebreide context van 32.000 tokens te beheren, waardoor complexe taken kunnen worden uitgevoerd. De multilinguale mogelijkheden van het model omvatten robuuste ondersteuning voor Engels, Frans, Italiaans, Duits en Spaans, waardoor een wereldwijd ontwikkelaarsgemeenschap wordt bediend.
De pre-training van Mixtral bestaat uit gegevens afkomstig van het open web, met een gelijktijdige trainingsaanpak voor zowel experts als routers. Deze methode zorgt ervoor dat het model niet alleen een groot parametersruimte heeft, maar ook fijn afgestemd is op de nuances van de uitgebreide gegevens waar het aan is blootgesteld.

Mixtral 8x7B behaalt een indrukwekkende score
Mixtral 8x7B overtreft LLaMA 2 70B en evenaart GPT-3.5, vooral opvallend in de MBPP-taak met een succespercentage van 60,7%, aanzienlijk hoger dan zijn tegenhangers. Zelfs in de strenge MT-Bench, die is afgestemd op instructievolgende modellen, behaalt Mixtral 8x7B een indrukwekkende score, die nagenoeg gelijk is aan GPT-3.5
Het begrijpen van het Mixture of Experts (MoE)-framework
Het Mixture of Experts (MoE)-model, dat recent aandacht heeft getrokken vanwege de incorporatie in state-of-the-art taalmodellen zoals Mistral AI’s MoE 8x7B, is eigenlijk geworteld in fundamentele concepten die teruggaan tot enkele jaren geleden. Laten we de oorsprong van dit idee bekijken via seminale onderzoeksartikelen.
Het concept van MoE
Mixture of Experts (MoE) vertegenwoordigt een paradigma-shift in neurale netwerkarchitectuur. In tegenstelling tot traditionele modellen die een enkel, homogeen netwerk gebruiken om alle soorten gegevens te verwerken, past MoE een meer gespecialiseerde en modulaire aanpak toe. Het bestaat uit meerdere ‘expert’-netwerken, elk ontworpen om specifieke soorten gegevens of taken te verwerken, onder toezicht van een ‘gating network’ dat dynamisch invoergegevens naar de meest geschikte expert leidt.

Een Mixture of Experts (MoE)-laag ingebed in een recurrent taalmodel (Bron)
De bovenstaande afbeelding toont een hoog niveau overzicht van een MoE-laag ingebed in een taalmodel. In essentie bestaat de MoE-laag uit meerdere feed-forward sub-netwerken, aangeduid als ‘experts’, elk met het potentieel om te specialiseren in het verwerken van verschillende aspecten van de gegevens. Een gating network, gemarkeerd in de diagram, bepaalt welke combinatie van deze experts wordt ingeschakeld voor een bepaalde invoer. Deze conditionele activatie stelt het netwerk in staat om zijn capaciteit aanzienlijk te vergroten zonder een overeenkomstige toename in computationele vraag.
Functionaliteit van de MoE-laag
In de praktijk evalueert het gating network de invoer (aangeduid als G(x) in de diagram) en selecteert een sparse set van experts om deze te verwerken. Deze selectie wordt gereguleerd door de uitvoer van het gating network, waardoor effectief de ‘stem’ of bijdrage van elke expert aan de finale uitvoer wordt bepaald. Bijvoorbeeld, zoals getoond in de diagram, kunnen slechts twee experts worden geselecteerd voor het berekenen van de uitvoer voor elk specifiek invoertoken, waardoor het proces efficiënt wordt door computationele middelen te concentreren waar ze het meest nodig zijn.

Transformer Encoder met MoE-lagen (Bron)
De tweede afbeelding boven toont een traditionele Transformer-encoder met een die is aangevuld met een MoE-laag. De Transformer-architectuur, breed bekend om zijn effectiviteit in taalgerelateerde taken, bestaat traditioneel uit self-attention en feed-forward lagen gestapeld in sequentie. De introductie van MoE-lagen vervangt sommige van deze feed-forward lagen, waardoor het model effectiever kan schalen met betrekking tot capaciteit.
In het aangevulde model worden de MoE-lagen geshard over meerdere apparaten, waardoor een model-parallelle aanpak wordt getoond. Dit is cruciaal bij het schalen naar zeer grote modellen, omdat het de distributie van de computationele last en geheugeneisen over een cluster van apparaten, zoals GPU’s of TPU’s, toelaat. Deze sharding is essentieel voor het trainen en implementeren van modellen met honderden miljarden parameters op grote compute-clusters.
De Sparse MoE-aanpak met instructieafstemming op LLM
Het artikel getiteld “Sparse Mixture-of-Experts (MoE) voor schaalbare taalmodellering” bespreekt een innovatieve aanpak om Large Language Models (LLM’s) te verbeteren door de Mixture of Experts-architectuur te integreren met instructieafstemmingstechnieken.
Het benadrukt een veelvoorkomende uitdaging waarbij MoE-modellen onderpresteren in vergelijking met dichte modellen van gelijke computationele capaciteit wanneer ze worden fijngestemd voor specifieke taken vanwege discrepanties tussen algemene pre-training en taakspecifieke fijne afstemming.
Instructieafstemming is een trainingsmethodologie waarbij modellen worden verfijnd om beter natuurlijke taalinstructies te volgen, waardoor hun taakprestaties effectief worden verbeterd. Het artikel suggereert dat MoE-modellen een opmerkelijke verbetering vertonen wanneer ze worden gecombineerd met instructieafstemming, meer dan hun dichte tegenhangers. Deze techniek brengt de pre-getrainde representaties van het model in overeenstemming met instructies, waardoor significante prestatieverbeteringen ontstaan.
De onderzoekers voerden studies uit in drie experimentele opstellingen, waaruit bleek dat MoE-modellen aanvankelijk onderpresteren bij directe taakspecifieke fijne afstemming. Echter, wanneer instructieafstemming wordt toegepast, presteren MoE-modellen uitstekend, vooral wanneer ze verder worden aangevuld met taakspecifieke fijne afstemming. Dit suggereert dat instructieafstemming een cruciale stap is voor MoE-modellen om dichte modellen te overtreffen in downstream taken.
Het introduceert ook FLAN-MOE32B, een model dat de succesvolle toepassing van deze concepten demonstreert. Opvallend presteert het beter dan FLAN-PALM62B, een dicht model, op benchmarktaken terwijl het slechts een derde van de computationele middelen gebruikt. Dit toont het potentieel van sparse MoE-modellen in combinatie met instructieafstemming om nieuwe standaarden te zetten voor LLM-efficiëntie en prestaties.
Implementatie van Mixture of Experts in real-world scenario’s
De veelzijdigheid van MoE-modellen maakt ze ideaal voor een reeks toepassingen:
- Natuurlijke Taalverwerking (NLP): MoE-modellen kunnen de nuances en complexiteiten van menselijke taal effectiever verwerken, waardoor ze ideaal zijn voor geavanceerde NLP-taken.
- Beeld- en videobewerking: In taken die hoge resolutiebewerking vereisen, kan MoE verschillende aspecten van beelden of videoframes beheren, waardoor zowel kwaliteit als verwerkingssnelheid worden verbeterd.
- Aanpasbare AI-oplossingen: Bedrijven en onderzoekers kunnen MoE-modellen aanpassen aan specifieke taken, waardoor meer gerichte en effectieve AI-oplossingen ontstaan.
Uitdagingen en overwegingen
Terwijl MoE-modellen talrijke voordelen bieden, stellen ze ook unieke uitdagingen:
- Complexiteit in training en afstemming: De gedistribueerde aard van MoE-modellen kan het trainingsproces compliceren, waardoor zorgvuldige balans en afstemming van de experts en het gating network noodzakelijk zijn.
- Middelenbeheer: Efficiënt beheer van computationele middelen over meerdere experts is cruciaal om het maximale voordeel uit MoE-modellen te halen.
In het incorporeren van MoE-lagen in neurale netwerken, vooral in het domein van taalmodellen, biedt een pad naar het schalen van modellen naar groottes die eerder onmogelijk waren vanwege computationele beperkingen. De conditionele berekening die mogelijk wordt gemaakt door MoE-lagen, stelt een meer efficiënte distributie van computationele middelen mogelijk, waardoor het trainen van grotere, krachtigere modellen haalbaar wordt. Naarmate we meer van onze AI-systemen eisen, zullen architecturen zoals de MoE-uitgeruste Transformer waarschijnlijk de standaard worden voor het verwerken van complexe, grootschalige taken in diverse domeinen.













