Artificiell intelligens

Gemma: Google Bringing Advanced AI Capabilities genom öppen källkod

publicerade

2 månader sedan

Februari 29, 2024

Området artificiell intelligens (AI) har sett enorma framsteg de senaste åren, till stor del drivna av framsteg inom djupt lärande och naturlig språkbehandling (NLP). I spetsen för dessa framsteg är stora språkmodeller (LLM) – AI-system tränade på enorma mängder textdata som kan generera människoliknande text och engagera sig i konversationsuppgifter.

LLMs som Googles PaLM, Anthropics Claude och DeepMinds Gopher har visat anmärkningsvärda egenskaper, från kodning till sunt förnuftsresonemang. De flesta av dessa modeller har dock inte släppts öppet, vilket begränsar deras tillgång för forskning, utveckling och fördelaktiga applikationer.

Detta förändrades med den nyligen öppnade inköpet av Gemma – en familj av LLM från Googles DeepMind baserad på deras kraftfulla egenutvecklade Gemini-modeller. I det här blogginlägget kommer vi att dyka in i Gemma och analysera dess arkitektur, utbildningsprocess, prestanda och ansvarsfulla utgivning.

Översikt över Gemma

I februari 2023, DeepMind öppna råvaror två storlekar av Gemma-modeller – en version med 2 miljarder parameter optimerad för driftsättning på enheten, och en större version med 7 miljarder parametrar designad för GPU/TPU-användning.

Gemma utnyttjar en liknande transformatorbaserad arkitektur och utbildningsmetodik som DeepMinds ledande Gemini-modeller. Den tränades på upp till 6 biljoner tokens text från webbdokument, matematik och kod.

DeepMind släppte både råa förtränade kontrollpunkter av Gemma, såväl som versioner finjusterade med övervakad inlärning och mänsklig feedback för förbättrade möjligheter inom områden som dialog, instruktionsföljning och kodning.

Komma igång med Gemma

Gemmas öppna release gör dess avancerade AI-funktioner tillgängliga för utvecklare, forskare och entusiaster. Här är en snabbguide för att komma igång:

Platform Agnostic Deployment

En nyckelstyrka hos Gemma är dess flexibilitet – du kan köra den på CPU:er, GPU:er eller TPU:er. För CPU, använd TensorFlow Lite eller HuggingFace Transformers. För accelererad prestanda på GPU/TPU, använd TensorFlow. Molntjänster som Google Clouds Vertex AI ger också sömlös skalning.

Få tillgång till förutbildade modeller

Gemma finns i olika förtränade varianter beroende på dina behov. 2B- och 7B-modellerna erbjuder starka generativa förmågor direkt. För anpassad finjustering är modellerna 2B-FT och 7B-FT idealiska utgångspunkter.

Bygg spännande applikationer

Du kan bygga ett brett utbud av applikationer med Gemma, som berättelsegenerering, språköversättning, frågesvar och kreativ innehållsproduktion. Nyckeln är att utnyttja Gemmas styrkor genom att finjustera dina egna datauppsättningar.

arkitektur

Gemma använder en transformatorarkitektur som endast är avkodare och bygger på framsteg som multi-query uppmärksamhet och roterande positionsinbäddningar:

Transformatorer: Transformatorarkitekturen som enbart baseras på uppmärksamhetsmekanismer, som introducerades 2017, har blivit allestädes närvarande i NLP. Gemma ärver transformatorns förmåga att modellera långväga beroenden i text.
Endast avkodare: Gemma använder bara en transformator-avkodarstack, till skillnad från encoder-decoder-modeller som BART eller T5. Detta ger starka generativa möjligheter för uppgifter som textgenerering.
Uppmärksamhet för flera frågor: Gemma använder uppmärksamhet för flera frågor i sin större modell, vilket gör att varje uppmärksamhetshuvud kan behandla flera frågor parallellt för snabbare slutledning.
Roterande positionsinbäddningar: Gemma representerar positionsinformation med hjälp av roterande inbäddningar istället för absoluta positionskodningar. Denna teknik minskar modellstorleken samtidigt som positionsinformationen bibehålls.

Användningen av tekniker som multi-query uppmärksamhet och roterande positionsinbäddningar gör det möjligt för Gemma-modeller att nå en optimal avvägning mellan prestanda, slutledningshastighet och modellstorlek.

Data och utbildningsprocess

Gemma tränades på upp till 6 biljoner tokens textdata, främst på engelska. Detta inkluderade webbdokument, matematisk text och källkod. DeepMind investerade betydande ansträngningar för att filtrera data, ta bort giftigt eller skadligt innehåll med hjälp av klassificerare och heuristik.

Utbildningen utfördes med hjälp av Googles TPUv5-infrastruktur, med upp till 4096 TPU:er som användes för att träna Gemma-7B. Effektiva modell- och dataparallellismtekniker möjliggjorde träning av de massiva modellerna med råvaruhårdvara.

Etappvis utbildning användes, som kontinuerligt justerade datadistributionen för att fokusera på högkvalitativ, relevant text. De sista finjusteringsstegen använde en blandning av mänskligt genererade och syntetiska instruktionsföljande exempel för att förbättra kapaciteten.

Modellprestanda

DeepMind utvärderade noggrant Gemma-modeller på en bred uppsättning av över 25 riktmärken som spänner över frågesvar, resonemang, matematik, kodning, sunt förnuft och dialogmöjligheter.

Gemma uppnår toppmoderna resultat jämfört med liknande stora modeller med öppen källkod över de flesta benchmarks. Några höjdpunkter:

Matematik: Gemma utmärker sig på matematiska resonemangstester som GSM8K och MATH, överträffar modeller som Codex och Anthropics Claude med över 10 poäng.
Kodning: Gemma matchar eller överträffar prestandan hos Codex på programmeringsbenchmarks som MBPP, trots att den inte är specifikt utbildad i kod.
Dialog: Gemma uppvisar en stark konversationsförmåga med 51.7 % vinst jämfört med Anthropics Mistral-7B på tester av mänskliga preferenser.
Resonemang: På uppgifter som kräver slutledning som ARC och Winogrande överträffar Gemma andra 7B-modeller med 5-10 poäng.

Gemmas mångsidighet över discipliner visar dess starka generella intelligenskapacitet. Även om luckor till prestanda på mänsklig nivå kvarstår, representerar Gemma ett steg framåt inom öppen källkod NLP.

Säkerhet och ansvar

Att släppa vikter med öppen källkod för stora modeller introducerar utmaningar kring avsiktlig missbruk och inneboende modellfördomar. DeepMind vidtog åtgärder för att minska riskerna:

Datafiltrering: Potentiellt giftig, olaglig eller partisk text togs bort från träningsdata med hjälp av klassificerare och heuristik.
Betyg: Gemma testades på 30+ riktmärken utvalda för att bedöma säkerhet, rättvisa och robusthet. Den matchade eller överträffade andra modeller.
Finjustering: Modellfinjustering fokuserade på att förbättra säkerhetsfunktioner som informationsfiltrering och lämpliga säkrings-/vägranbeteenden.
Användarvillkor: Användningsvillkor förbjuder stötande, olaglig eller oetisk tillämpning av Gemma-modeller. Genomförandet är dock fortfarande utmanande.
Modellkort: Kort som beskriver modellens funktioner, begränsningar och fördomar släpptes för att främja transparens.

Även om det finns risker från öppen källa, fastställde DeepMind att Gemmas utgåva ger samhällsnytta baserade på dess säkerhetsprofil och möjliggörande av forskning. Vaksam övervakning av potentiella skador kommer dock att förbli kritisk.

Aktiverar nästa våg av AI-innovation

Att släppa Gemma som en modellfamilj med öppen källkod kan låsa upp framsteg inom AI-gemenskapen:

Tillgänglighet: Gemma minskar hindren för organisationer att bygga med banbrytande NLP, som tidigare stått inför höga beräknings-/datakostnader för att träna sina egna LLM:er.
Nya applikationer: Genom öppen källa för förtränade och inställda kontrollpunkter möjliggör DeepMind enklare utveckling av användbara appar inom områden som utbildning, vetenskap och tillgänglighet.
Anpassning: Utvecklare kan ytterligare anpassa Gemma för bransch- eller domänspecifika applikationer genom fortsatt utbildning om egen data.
Forskning: Öppna modeller som Gemma främjar större transparens och granskning av nuvarande NLP-system, vilket belyser framtida forskningsriktningar.
Innovation: Tillgängligheten av starka basmodeller som Gemma kommer att påskynda framstegen inom områden som begränsning av partiskhet, fakta och AI-säkerhet.

Genom att tillhandahålla Gemmas möjligheter till alla genom öppen källa, hoppas DeepMind att stimulera en ansvarsfull utveckling av AI för socialt bästa.

Vägen framför

Med varje steg i AI kommer vi närmare modeller som konkurrerar med eller överträffar mänsklig intelligens över alla domäner. System som Gemma understryker hur snabba framsteg inom självövervakade modeller låser upp alltmer avancerade kognitiva förmågor.

Arbetet återstår dock för att förbättra tillförlitligheten, tolkningsbarheten och kontrollerbarheten för AI – områden där mänsklig intelligens fortfarande råder. Domäner som matematik lyfter fram dessa ihållande klyftor, där Gemma får 64 % på MMLU jämfört med uppskattningsvis 89 % mänskliga prestationer.

Att täppa till dessa luckor samtidigt som man säkerställer säkerheten och etiken för allt mer kapabla AI-system kommer att vara de centrala utmaningarna under de kommande åren. Att hitta den rätta balansen mellan öppenhet och försiktighet kommer att vara avgörande, eftersom DeepMind strävar efter att demokratisera tillgången till fördelarna med AI och samtidigt hantera nya risker.

Initiativ för att främja AI-säkerhet – som Dario Amodeis ANC, DeepMinds Ethics & Society-team och Anthropics Constitutional AI – signalerar ett växande erkännande av detta behov av nyansering. Meningsfulla framsteg kommer att kräva en öppen, evidensbaserad dialog mellan forskare, utvecklare, beslutsfattare och allmänheten.

Om den navigeras på ett ansvarsfullt sätt, representerar Gemma inte toppen av AI, utan ett basläger för nästa generations AI-forskare som följer i DeepMinds fotspår mot rättvis, fördelaktig artificiell allmän intelligens.

Slutsats

DeepMinds lansering av Gemma-modeller innebär en ny era för AI med öppen källkod – en era som överskrider snäva riktmärken till generaliserade intelligensfunktioner. Gemma har testats omfattande för säkerhet och brett tillgängligt och sätter en ny standard för ansvarsfull öppen källa inom AI.

Driven av en tävlingsanda dämpad med kooperativa värderingar, höjer dela genombrott som Gemma alla båtar i AI-ekosystemet. Hela samhället har nu tillgång till en mångsidig LLM-familj för att driva eller stödja deras initiativ.

Även om riskerna kvarstår, ger DeepMinds tekniska och etiska noggrannhet förtroende för att Gemmas fördelar överväger dess potentiella skador. När AI-kapaciteten blir allt mer avancerad kommer det att vara avgörande att behålla denna nyans mellan öppenhet och försiktighet.

Gemma tar oss ett steg närmare AI som gynnar hela mänskligheten. Men många stora utmaningar väntar fortfarande längs vägen till välvillig artificiell allmän intelligens. Om AI-forskare, utvecklare och samhället i stort kan upprätthålla framsteg i samarbete kan Gemma en dag ses som ett historiskt basläger snarare än det slutliga toppmötet.

Relaterade ämnen:Deepmind Gemma LLM

Strax

AI i marknadsföring: MWC Conference Insights

Missa inte

Sårbarheter och säkerhetshot som stora språkmodeller står inför

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.