Kunstmatige intelligentie

Gemma: Google brengt geavanceerde AI-mogelijkheden via open source

Gepubliceerd op 29 februari 2024

Bijgewerkt op 22 mei 2026

Door

Aayush Mittal Mittal

Het veld van kunstmatige intelligentie (AI) heeft in recente jaren enorme vooruitgang geboekt, grotendeels gedreven door vooruitgang in diepe leer en natuurlijke taalverwerking (NLP). Aan de voorzijde van deze vooruitgang zijn grote taalmodellen (LLM’s) – AI-systemen getraind op enorme hoeveelheden tekstgegevens die mensachtige tekst kunnen genereren en deelnemen aan conversatie-taken.

LLM’s zoals Google’s PaLM, Anthropic’s Claude en DeepMind’s Gopher hebben opmerkelijke capaciteiten getoond, van codering tot alledaagse redenering. Echter, de meeste van deze modellen zijn niet openbaar vrijgegeven, waardoor de toegang tot onderzoek, ontwikkeling en gunstige toepassingen beperkt is.

Dit veranderde met de recente open sourcing van Gemma – een familie van LLM’s van Google’s DeepMind op basis van hun krachtige propriëtaire Gemini-modellen. In dit blogbericht gaan we dieper in op Gemma, waarbij we de architectuur, trainingsproces, prestaties en verantwoorde vrijgave analyseren.

Overzicht van Gemma

In februari 2023 open-sourced DeepMind twee maten van Gemma-modellen – een 2 miljard parameter-versie geoptimaliseerd voor on-device-implementatie en een grotere 7 miljard parameter-versie ontworpen voor GPU/TPU-gebruik.

Gemma maakt gebruik van een soortgelijke transformer-gebaseerde architectuur en trainingsmethodologie als DeepMind’s leidende Gemini-modellen. Het werd getraind op tot 6 biljoen tokens van tekstgegevens van webdocumenten, wiskunde en code.

DeepMind heeft zowel de ruwe voorgetrainde checkpoints van Gemma als de versies die zijn fijngesteld met behulp van superviserend leren en menselijke feedback voor verbeterde capaciteiten in gebieden zoals dialoog, instructievolging en codering vrijgegeven.

Aan de slag met Gemma

De openbare vrijgave van Gemma maakt de geavanceerde AI-mogelijkheden toegankelijk voor ontwikkelaars, onderzoekers en enthousiastelingen. Hier is een snelle handleiding om aan de slag te gaan:

Platformonafhankelijke implementatie

Een belangrijke kracht van Gemma is zijn flexibiliteit – u kunt het uitvoeren op CPU’s, GPU’s of TPU’s. Voor CPU kunt u TensorFlow Lite of HuggingFace Transformers gebruiken. Voor versnelde prestaties op GPU/TPU kunt u TensorFlow gebruiken. Cloudservices zoals Google Cloud’s Vertex AI bieden ook naadloze schaling.

Toegang tot voorgetrainde modellen

Gemma is beschikbaar in verschillende voorgetrainde varianten, afhankelijk van uw behoeften. De 2B- en 7B-modellen bieden sterke generatieve capaciteiten uit de doos. Voor aangepaste fijne afstelling zijn de 2B-FT- en 7B-FT-modellen ideale startpunten.

Opbouw van opwindende toepassingen

U kunt een breed scala aan toepassingen bouwen met Gemma, zoals verhaalgeneratie, taalvertaling, vraagbeantwoording en creatieve inhoudsproductie. De sleutel is het benutten van Gemma’s sterke punten door middel van fijne afstelling op uw eigen datasets.

Architectuur

Gemma maakt gebruik van een decoder-only transformer-architectuur, gebouwd op vooruitgang zoals multi-query aandacht en roterende positionele inbeddingen:

Transformers: Geïntroduceerd in 2017, is de transformer-architectuur, die uitsluitend op aandachtsmechanismen is gebaseerd, alomtegenwoordig geworden in NLP. Gemma erfde de transformer’s vermogen om lange-afstandsafhankelijkheden in tekst te modelleren.
Decoder-only: Gemma gebruikt alleen een transformer-decoder-stack, in tegenstelling tot encoder-decoder-modellen zoals BART of T5. Dit biedt sterke generatieve capaciteiten voor taken zoals tekstgeneratie.
Multi-query aandacht: Gemma maakt gebruik van multi-query aandacht in zijn grotere model, waardoor elke aandachtskop meerdere queries in parallelle verwerking kan verwerken voor snellere inferentie.
Roterende positionele inbeddingen: Gemma vertegenwoordigt positionele informatie met behulp van roterende inbeddingen in plaats van absolute positie-encoderingen. Deze techniek vermindert de modelgrootte terwijl de positie-informatie behouden blijft.

Het gebruik van technieken zoals multi-query aandacht en roterende positionele inbeddingen stelt Gemma-modellen in staat om een optimale balans te bereiken tussen prestaties, inferentiesnelheid en modelgrootte.

Gegevens en trainingsproces

Gemma werd getraind op tot 6 biljoen tokens van tekstgegevens, voornamelijk in het Engels. Dit omvatte webdocumenten, wiskundige tekst en broncode. DeepMind heeft aanzienlijke inspanningen geleverd om de gegevens te filteren, waarbij giftige of schadelijke inhoud werd verwijderd met behulp van classificatoren en heuristieken.

De training werd uitgevoerd met behulp van Google’s TPUv5-infrastructuur, met maximaal 4096 TPU’s die werden gebruikt om Gemma-7B te trainen. Efficiënte model- en dataparallelisme-technieken stelden het trainen van de enorme modellen met commodity-hardware mogelijk.

Gestagede training werd gebruikt, waarbij de gegevensverdeling continu werd aangepast om zich te concentreren op hoge-kwaliteit, relevante tekst. De laatste fijne afstellingstadia maakten gebruik van een mengsel van door de mens gegenereerde en synthetische instructievolgvoorbeelden om de capaciteiten te verbeteren.

Modelprestaties

DeepMind heeft de Gemma-modellen grondig geëvalueerd op een brede reeks van meer dan 25 benchmarks die vraagbeantwoording, redenering, wiskunde, codering, alledaagse kennis en dialoogcapaciteiten omvatten.

Gemma bereikt state-of-the-art resultaten in vergelijking met soortgelijk grootte open source-modellen op de meeste benchmarks. Enkele highlights:

Wiskunde: Gemma blinkt uit in wiskundige redeneringstests zoals GSM8K en MATH, waarbij het modellen zoals Codex en Anthropic’s Claude met meer dan 10 punten overtreft.
Codering: Gemma komt overeen met of overtreft de prestaties van Codex op programmeringsbenchmarks zoals MBPP, ondanks dat het niet specifiek is getraind op code.
Dialoog: Gemma toont sterke conversatievaardigheden met een 51,7% winstpercentage tegenover Anthropic’s Mistral-7B op menselijke voorkeurstests.
Redenering: Op taken die inferentie vereisen, zoals ARC en Winogrande, overtreft Gemma andere 7B-modellen met 5-10 punten.

Gemma’s veelzijdigheid over disciplines heen toont zijn sterke algemene intelligentiecapaciteiten. Hoewel er nog steeds lacunes bestaan tot menselijke prestatieniveaus, vertegenwoordigt Gemma een sprong voorwaarts in open source NLP.

Veiligheid en verantwoordelijkheid

Het vrijgeven van open source-gewichten van grote modellen introduceert uitdagingen rondom opzettelijke misbruik en inherente modelvooroordelen. DeepMind heeft stappen ondernomen om risico’s te mitigeren:

Gegevensfiltering: Potentieel giftige, illegale of vooroordeelde tekst werd uit de trainingsgegevens verwijderd met behulp van classificatoren en heuristieken.
Evaluaties: Gemma werd getest op 30+ benchmarks die zijn geselecteerd om veiligheid, eerlijkheid en robuustheid te beoordelen. Het kwam overeen met of overtrof andere modellen.
Fijne afstelling: Model-fijne afstelling was gericht op het verbeteren van veiligheidsfuncties zoals informatiefiltering en passend afwijzings-/weigeringsgedrag.
Gebruiksvoorwaarden: Gebruiksvoorwaarden verbieden aanstootgevende, illegale of onethische toepassingen van Gemma-modellen. Echter, handhaving blijft een uitdaging.
Modelkaarten: Kaarten die modelcapaciteiten, beperkingen en vooroordelen beschrijven, werden vrijgegeven om transparantie te bevorderen.

Hoewel er risico’s bestaan bij het vrijgeven van open source-modellen, heeft DeepMind besloten dat de vrijgave van Gemma een netto maatschappelijk voordeel biedt op basis van zijn veiligheidsprofiel en de mogelijkheid om onderzoek te stimuleren. Echter, een waakzaam toezicht op potentiële schade zal blijven bestaan.

De volgende golf van AI-innovatie mogelijk maken

Het vrijgeven van Gemma als een open source-modelfamilie kan vooruitgang stimuleren in de hele AI-gemeenschap:

Toegankelijkheid: Gemma vermindert de barrières voor organisaties om met state-of-the-art NLP te werken, die eerder hoge compute-/gegevenskosten hadden voor het trainen van hun eigen LLM’s.
Nieuwe toepassingen: Door het vrijgeven van voorgetrainde en aangepaste checkpoints, stelt DeepMind het gemakkelijker om gunstige apps te ontwikkelen in gebieden zoals onderwijs, wetenschap en toegankelijkheid.
Aanpassing: Ontwikkelaars kunnen Gemma verder aanpassen voor specifieke industrie- of domein-specifieke toepassingen door middel van verdere training op propriëtaire gegevens.
Onderzoek: Open modellen zoals Gemma bevorderen grotere transparantie en controle van huidige NLP-systemen, waardoor toekomstige onderzoeksrichtingen worden verlicht.
Innovatie: De beschikbaarheid van sterke baseline-modellen zoals Gemma zal de vooruitgang versnellen op gebieden zoals vooroordeelmitigatie, feitelijkheid en AI-veiligheid.

Door Gemma’s capaciteiten voor iedereen beschikbaar te stellen via open sourcing, hoopt DeepMind verantwoorde ontwikkeling van AI voor het algemeen welzijn te stimuleren.

De weg vooruit

Met elke sprong in AI komen we dichter bij modellen die de menselijke intelligentie in alle domeinen evenaren of overtreffen. Systemen zoals Gemma onderstrepen hoe snelle vooruitgang in zelf-supervised modellen steeds geavanceerdere cognitieve capaciteiten ontsluiten.

Echter, er moet nog veel worden gedaan om de betrouwbaarheid, interpreteerbaarheid en controleerbaarheid van AI te verbeteren – gebieden waarin de menselijke intelligentie nog steeds de overhand heeft. Domeinen zoals wiskunde benadrukken deze aanhoudende lacunes, waarbij Gemma 64% scoort op MMLU in vergelijking met de geschatte 89% menselijke prestatie.

Het dichten van deze lacunes, terwijl de veiligheid en ethiek van steeds krachtigere AI-systemen worden gewaarborgd, zal de centrale uitdagingen in de komende jaren vormen. Het vinden van het juiste evenwicht tussen openheid en voorzichtigheid zal cruciaal zijn, aangezien DeepMind streeft naar het democratiseren van de toegang tot de voordelen van AI, terwijl het tegelijkertijd opkomende risico’s beheert.

Initiatieven om AI-veiligheid te bevorderen – zoals Dario Amodei’s ANC, DeepMind’s Ethics & Society-team en Anthropic’s Constitutionele AI – geven aan dat er een groeiend besef is van de noodzaak van nuances. Betekenisvolle vooruitgang zal een open, op bewijs gebaseerde dialoog tussen onderzoekers, ontwikkelaars, beleidsmakers en het publiek vereisen.

Als dit verantwoord wordt genavigeerd, vertegenwoordigt Gemma niet de top van AI, maar een basis voor de volgende generatie AI-onderzoekers die in DeepMind’s voetsporen treden naar eerlijke, gunstige kunstmatige algehele intelligentie.

Conclusie

De vrijgave van Gemma-modellen door DeepMind markeert een nieuwe era voor open source AI – een die verder gaat dan smalle benchmarks naar algemene intelligentiecapaciteiten. Uitgebreid getest op veiligheid en breed toegankelijk, stelt Gemma een nieuwe standaard voor verantwoorde open sourcing in AI.

Gedreven door een competitieve geest die getemperd is met coöperatieve waarden, verheft het delen van doorbraken zoals Gemma alle boten in de AI-ecosysteem. De hele gemeenschap heeft nu toegang tot een veelzijdige LLM-familie om hun initiatieven te stimuleren of te ondersteunen.

Hoewel er risico’s bestaan, biedt DeepMind’s technische en ethische zorgvuldigheid vertrouwen dat de voordelen van Gemma de potentiële schade overtreffen. Naarmate de AI-capaciteiten steeds geavanceerder worden, zal het behoud van deze nuances tussen openheid en voorzichtigheid cruciaal blijven.

Gemma brengt ons een stap dichter bij AI die voordeel oplevert voor de hele mensheid. Maar er zijn nog veel grote uitdagingen die op de loer liggen op het pad naar weldadige kunstmatige algehele intelligentie. Als AI-onderzoekers, ontwikkelaars en de samenleving als geheel kunnen samenwerken, kan Gemma op een dag worden gezien als een historisch basisstation, in plaats van de laatste top.

Aayush Mittal, Mittal

Ik heb de afgelopen vijf jaar doorgebracht met het onderdompelen van mezelf in de fascinerende wereld van Machine Learning en Deep Learning. Mijn passie en expertise hebben me geleid om bij te dragen aan meer dan 50 diverse software-engineeringprojecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een vakgebied dat ik graag verder wil verkennen.