Kunstmatige intelligentie

Mistral AI: Nieuwe benchmarks stellen in de open-source ruimte, voorbij Llama2

Published October 3, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Grote taalmodellen (LLMs) hebben onlangs het centrum van de aandacht ingenomen, dankzij opvallende prestaties van modellen zoals ChatGPT. Toen Meta hun Llama-modellen introduceerde, ontstond er een hernieuwde interesse in open-source LLMs. Het doel? Het creëren van betaalbare, open-source LLMs die even goed zijn als topmodellen zoals GPT-4, maar zonder de hoge prijs of complexiteit. Deze combinatie van betaalbaarheid en efficiëntie heeft niet alleen nieuwe wegen geopend voor onderzoekers en ontwikkelaars, maar ook het toneel gezet voor een nieuwe era van technologische vooruitgang in natuurlijke taalverwerking. Onlangs hebben generatieve AI-startups een rol van betekenis gespeeld in de financiering. Together heeft 20 miljoen dollar opgehaald, met als doel open-source AI te ontwikkelen. Anthropic heeft een indrukwekkende 450 miljoen dollar opgehaald, en Cohere, in samenwerking met Google Cloud, heeft 270 miljoen dollar opgehaald in juni van dit jaar.

Introductie van Mistral 7B: Grootte & Beschikbaarheid

Mistral AI, gevestigd in Parijs en mede-opgericht door alumni van Google’s DeepMind en Meta, heeft hun eerste grote taalmodel aangekondigd: Mistral 7B. Dit model kan gemakkelijk worden gedownload door iedereen van GitHub en zelfs via een 13,4-gigabyte torrent. Deze startup wist recordbrekende seedfinanciering te verkrijgen, zelfs voordat ze een product hadden gelanceerd. Mistral AI’s eerste model met 7 miljard parameters overschrijdt de prestaties van Llama 2 13B in alle tests en verslaat Llama 1 34B in veel metrics. In vergelijking met andere modellen zoals Llama 2, biedt Mistral 7B vergelijkbare of betere mogelijkheden, maar met minder computationele overhead. Terwijl fundamentale modellen zoals GPT-4 meer kunnen bereiken, komen ze met een hogere prijs en zijn ze niet zo gebruikersvriendelijk omdat ze voornamelijk toegankelijk zijn via API’s. Wanneer het gaat om codetaak, geeft Mistral 7B CodeLlama 7B een run voor zijn geld. Bovendien is het compact genoeg om op standaardmachines te draaien met 13,4 GB. Bovendien heeft Mistral 7B Instruct, specifiek afgestemd op instructiedatasets op Hugging Face, uitstekende prestaties getoond. Het overtreft andere 7B-modellen op MT-Bench en staat schouder aan schouder met 13B-chatmodellen.

Hugging Face Mistral 7B Example

Prestatiebenchmarking

In een gedetailleerde prestatieanalyse werd Mistral 7B gemeten tegen de Llama 2-familie modellen. De resultaten waren duidelijk: Mistral 7B overschrijdt de Llama 2 13B aanzienlijk in alle benchmarks. In feite komt het overeen met de prestaties van Llama 34B, vooral uitblinkend in code- en redeneerbewijsbenchmarks. De benchmarks werden georganiseerd in verschillende categorieën, zoals Commonsense Reasoning, World Knowledge, Reading Comprehension, Math en Code, onder andere. Een bijzonder opvallende observatie was Mistral 7B’s kost-prestatie-metric, genaamd “equivalent model sizes”. In gebieden zoals redenering en begrip toonde Mistral 7B prestaties die vergelijkbaar zijn met een Llama 2-model dat drie keer zo groot is, wat wijst op potentiële besparingen in geheugen en een toename in doorvoer. Echter, in kennisbenchmarks kwam Mistral 7B overeen met Llama 2 13B, wat waarschijnlijk te wijten is aan de beperkingen van de parameters die de kenniscompressie beïnvloeden.

Wat maakt het Mistral 7B-model eigenlijk beter dan de meeste andere taalmodellen?

Vereenvoudiging van aandachtsmechanismen Terwijl de subtiliteiten van aandachtsmechanismen technisch zijn, is hun fundamentale idee relatief eenvoudig. Stel je voor dat je een boek leest en belangrijke zinnen markeert; dit is analoog aan hoe aandachtsmechanismen “markeert” of belang hecht aan specifieke gegevenspunten in een sequentie. In de context van taalmodellen maken deze mechanismen het mogelijk voor het model om te focussen op de meest relevante delen van de invoergegevens, waardoor de uitvoer coherent en contextueel accuraat is. In standaardtransformatoren worden aandachtscores berekend met de formule:

Transformers Attention Formula

De formule voor deze scores omvat een cruciale stap – de matrixvermenigvuldiging van Q en K. De uitdaging hier is dat als de sequentielengte toeneemt, beide matrices dienovereenkomstig uitbreiden, wat leidt tot een computationeel intensief proces. Deze schaalbaarheidszorg is een van de belangrijkste redenen waarom standaardtransformatoren langzaam kunnen zijn, vooral bij het omgaan met lange sequenties. transformer Aandachtsmechanismen helpen modellen om specifieke delen van de invoergegevens te focussen. Typisch gebruiken deze mechanismen ‘heads’ om deze aandacht te beheren. Hoe meer ‘heads’ je hebt, hoe specifieker de aandacht, maar het wordt ook complexer en langzamer. Ga dieper in op transformatoren en aandachtsmechanismen hier. Multi-query aandacht (MQA) versnelt dingen door één set ‘key-value’ heads te gebruiken, maar offers soms kwaliteit. Nu vraag je je misschien af, waarom niet combineren van de snelheid van MQA met de kwaliteit van multi-head aandacht? Dat is waar Grouped-query aandacht (GQA) binnenkomt.

Grouped-query Aandacht (GQA)

Grouped-query attention

GQA is een tussenoplossing. In plaats van het gebruik van slechts één of meerdere ‘key-value’ heads, groepeert het ze. Op deze manier bereikt GQA een prestatie die dicht bij de gedetailleerde multi-head aandacht ligt, maar met de snelheid van MQA. Voor modellen zoals Mistral betekent dit efficiënte prestaties zonder te veel in te boeten op kwaliteit.

Sliding Window Aandacht (SWA)

De sliding window is een andere methode die wordt gebruikt bij het verwerken van aandachtssequenties. Deze methode gebruikt een vaste aandachtswindow rond elk token in de sequentie. Met meerdere lagen die deze windowed aandacht stapelen, krijgen de bovenste lagen uiteindelijk een bredere perspectief, waardoor ze informatie uit de hele invoer kunnen omvatten. Deze methode is analoog aan de receptieve velden die worden gezien in Convolutional Neural Networks (CNN’s). Aan de andere kant berekent de “dilated sliding window attention” van het Longformer-model, dat conceptueel vergelijkbaar is met de sliding window-methode, slechts een paar diagonalen van de $Q K T$ matrix. Deze verandering resulteert in een lineaire toename van het geheugengebruik in plaats van een kwadratische, waardoor het een efficiëntere methode is voor langere sequenties.

Transparantie van Mistral AI versus veiligheidszorgen in decentralisatie

In hun aankondiging benadrukte Mistral AI ook transparantie met de verklaring: “Geen trucs, geen propriëtaire gegevens.” Maar hun enige beschikbare model op dit moment, ‘Mistral-7B-v0.1’, is een pregetraind basismodel, dus het kan een reactie geven op elke query zonder moderatie, wat potentiële veiligheidszorgen oproept. Terwijl modellen zoals GPT en Llama mechanismen hebben om te bepalen wanneer ze moeten reageren, kan de volledig gedecentraliseerde aard van Mistral worden uitgebuit door slechte actoren. Echter, de decentralisatie van Large Language Models heeft zijn verdiensten. Terwijl sommigen het kunnen misbruiken, kunnen mensen de kracht ervan gebruiken voor het algemeen welzijn en om intelligentie toegankelijk te maken voor iedereen.

Implementatieflexibiliteit

Een van de highlights is dat Mistral 7B beschikbaar is onder de Apache 2.0-licentie. Dit betekent dat er geen echte barrières zijn voor het gebruik ervan – of je het nu gebruikt voor persoonlijke doeleinden, een groot bedrijf of zelfs een overheidsentiteit. Je hebt alleen het juiste systeem nodig om het te draaien, of je moet investeren in cloudresources. Terwijl er andere licenties zijn, zoals de eenvoudigere MIT-licentie en de coöperatieve CC BY-SA-4.0, die krediet en vergelijkbare licenties voor afgeleiden vereist, biedt Apache 2.0 een solide basis voor grote ondernemingen.

Slotgedachten

De opkomst van open-source Large Language Models zoals Mistral 7B markeert een belangrijke verschuiving in de AI-industrie, waardoor hoge kwaliteit taalmodellen toegankelijk worden voor een bredere doelgroep. Mistral AI’s innovatieve benaderingen, zoals Grouped-query aandacht en Sliding Window Aandacht, beloven efficiënte prestaties zonder in te boeten op kwaliteit. Terwijl de gedecentraliseerde aard van Mistral bepaalde uitdagingen met zich meebrengt, onderstreept de flexibiliteit en open-source licentie het potentieel voor het democratiseren van AI. Naarmate het landschap evolueert, zal de focus onvermijdelijk liggen op het vinden van een balans tussen de kracht van deze modellen en ethische overwegingen en veiligheidsmechanismen. Wat komt er hierna voor Mistral? Het 7B-model was slechts het begin. Het team heeft als doel om nog grotere modellen te lanceren. Als deze nieuwe modellen de prestaties van de 7B evenaren, kan Mistral snel opklimmen als een topspeler in de industrie, allemaal binnen hun eerste jaar.

Related Topics:chatgpt generative ai Large Language Models Mistral AI open source

Aayush Mittal

Ik heb de afgelopen vijf jaar mezelf ondergedompeld in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 uiteenlopende software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.