Inteligență artificială

Gemma: Google aduce capacități avansate de inteligență artificială prin sursă deschisă

Publicat 29 februarie 2024

Actualizat 22 mai 2026

Aayush Mittal Mittal

Domeniul inteligenței artificiale (IA) a cunoscut progrese imense în ultimii ani, în mare parte datorită avansurilor în învățarea profundă și prelucrarea limbajului natural (NLP). În fruntea acestor avansuri se află modelele de limbaj mare (LLM) – sisteme de IA antrenate pe cantități masive de date text care pot genera texte asemănătoare cu cele umane și pot participa la sarcini conversaționale.

LLM-urile, cum ar fi PaLM de la Google, Claude de la Anthropic și Gopher de la DeepMind, au demonstrat capacități remarcabile, de la programare la raționamentul comun. Cu toate acestea, majoritatea acestor modele nu au fost lansate deschis, limitând accesul lor pentru cercetare, dezvoltare și aplicații benefice.

Acest lucru s-a schimbat odată cu lansarea recentă a sursei deschise a lui Gemma – o familie de LLM-uri de la DeepMind, bazată pe modelele lor puternice proprietare Gemini. În acest articol, vom analiza arhitectura, procesul de antrenare, performanța și lansarea responsabilă a lui Gemma.

Prezentarea lui Gemma

În februarie 2023, DeepMind a lansat sursa deschisă a două versiuni ale modelului Gemma – o versiune de 2 miliarde de parametri, optimizată pentru implementarea pe dispozitive, și o versiune mai mare de 7 miliarde de parametri, proiectată pentru utilizarea pe GPU/TPU.

Gemma utilizează o arhitectură bazată pe transformatori și o metodologie de antrenare similară cu cea a modelului Gemini de la DeepMind. A fost antrenat pe până la 6 trilioane de tokeni de text din documente web, matematică și cod.

DeepMind a lansat atât punctele de plecare brute antrenate ale lui Gemma, cât și versiunile fine-tunate cu învățare supravegheată și feedback uman pentru a îmbunătăți capacitățile în domenii precum dialog, urmarea instrucțiunilor și programare.

Începerea cu Gemma

Lansarea sursei deschise a lui Gemma face ca capacitățile avansate de IA să fie accesibile pentru dezvoltatori, cercetători și entuziaști. Iată un ghid rapid pentru începerea utilizării lui Gemma:

Implementare agnostică de platformă

O putere cheie a lui Gemma este flexibilitatea sa – puteți rula modelul pe CPU, GPU sau TPU. Pentru CPU, utilizați TensorFlow Lite sau HuggingFace Transformers. Pentru performanță accelerată pe GPU/TPU, utilizați TensorFlow. Serviciile cloud, cum ar fi Vertex AI de la Google Cloud, oferă, de asemenea, scalare fără efort.

Acces la modele preantrenate

Gemma vine în variante preantrenate diferite, în funcție de nevoile dvs. Modelele de 2B și 7B oferă capacități generative puternice din cutie. Pentru fine-tuning personalizat, modelele 2B-FT și 7B-FT sunt puncte de plecare ideale.

Construirea de aplicații interesante

Puteți construi o gamă diversă de aplicații cu Gemma, cum ar fi generarea de povești, traducerea limbajului, răspunsurile la întrebări și producerea de conținut creativ. Cheia constă în exploatarea punctelor forte ale lui Gemma prin fine-tuning pe propriile dvs. seturi de date.

Arhitectură

Gemma utilizează o arhitectură de transformator doar cu decodificator, construită pe avansuri precum atenția multi-consultă și încorporările poziționale rotative:

Transformatori: Introdus în 2017, arhitectura de transformator bazată în întregime pe mecanisme de atenție a devenit ubicuă în NLP. Gemma moștenește capacitatea transformatorului de a modela dependențele pe termen lung în text.
Doar decodificator: Gemma utilizează doar un stivă de decodificatori de transformatori, spre deosebire de modelele encoder-decodificator, cum ar fi BART sau T5. Acest lucru oferă capacități generative puternice pentru sarcini precum generarea de text.
Atenția multi-consultă: Gemma utilizează atenția multi-consultă în modelul său mai mare, permițând fiecărui cap de atenție să proceseze multiple consultări în paralel pentru inferență mai rapidă.
Încorporări poziționale rotative: Gemma reprezintă informații poziționale utilizând încorporări rotative în loc de codări poziționale absolute. Această tehnică reduce dimensiunea modelului, păstrând în același timp informațiile poziționale.

Utilizarea tehnicilor precum atenția multi-consultă și încorporările poziționale rotative permite modelelor Gemma să atingă un compromis optim între performanță, viteza de inferență și dimensiunea modelului.

Date și proces de antrenare

Gemma a fost antrenat pe până la 6 trilioane de tokeni de date text, în principal în limba engleză. Acesta a inclus documente web, text matematic și cod sursă. DeepMind a investit eforturi semnificative în filtrarea datelor, eliminând conținutul toxic sau dăunător utilizând clasificatori și euristici.

Antrenamentul a fost realizat utilizând infrastructura TPUv5 de la Google, cu până la 4096 de TPU-uri utilizate pentru antrenarea modelului Gemma-7B. Tehnicile de paralelism eficient al modelului și datelor au permis antrenarea modelelor masive cu hardware standard.

S-a utilizat antrenament etapizat, ajustând continuu distribuția datelor pentru a se concentra pe text de înaltă calitate și relevant. Etapele finale de fine-tuning au utilizat o combinație de exemple de instruire generate de oameni și sintetice pentru a îmbunătăți capacitățile.

Performanța modelului

DeepMind a evaluat riguros modelele Gemma pe un set larg de peste 25 de benchmark-uri care acoperă întrebări și răspunsuri, raționament, matematică, programare, simț comun și capacități de dialog.

Gemma obține rezultate de top comparativ cu modelele deschise de dimensiuni similare pe majoritatea benchmark-urilor. Unele puncte forte:

Matematică: Gemma excelează la testele de raționament matematic, cum ar fi GSM8K și MATH, depășind modele precum Codex și Claude de la Anthropic cu peste 10 puncte.
Programare: Gemma se egalizează sau depășește performanța lui Codex pe benchmark-urile de programare, cum ar fi MBPP, în ciuda faptului că nu a fost antrenat în mod specific pe cod.
Dialog: Gemma demonstrează o puternică capacitate conversațională, cu o rată de câștig de 51,7% față de Mistral-7B de la Anthropic în testele de preferință umană.
Raționament: La sarcini care necesită inferență, cum ar fi ARC și Winogrande, Gemma depășește alte modele de 7 miliarde de parametri cu 5-10 puncte.

Versatilitatea lui Gemma în diverse discipline demonstrează capacitățile sale puternice de inteligență generală. Deși există încă lacune față de performanța umană, Gemma reprezintă un salt înainte în NLP deschis.

Siguranță și responsabilitate

Lansarea surselor deschise ale unor modele mari introduce provocări legate de utilizarea intenționată greșită și de prejudecățile inerente ale modelului. DeepMind a luat măsuri pentru a mitigă riscurile:

Filtrarea datelor: Textul potențial toxic, ilegal sau cu prejudecăți a fost eliminat din setul de date de antrenare utilizând clasificatori și euristici.
Evaluări: Gemma a fost testat pe peste 30 de benchmark-uri create pentru a evalua siguranța, echitatea și robustețea. A egalizat sau a depășit alte modele.
Fine-tuning: Fine-tuningul modelului s-a concentrat pe îmbunătățirea capacităților de siguranță, cum ar fi filtrarea informațiilor și comportamentele de refuz adecvat.
Termeni de utilizare: Termenii de utilizare interzic aplicațiile ofensive, ilegale sau neetice ale modelului Gemma. Cu toate acestea, aplicarea rămâne o provocare.
Carduri de model: Cardurile care detaliază capacitățile, limitările și prejudecățile modelului au fost lansate pentru a promova transparența.

Deși există riscuri asociate cu lansarea surselor deschise, DeepMind a determinat că lansarea lui Gemma oferă beneficii nete pentru societate, pe baza profilului său de siguranță și a capacității de a facilita cercetarea. Cu toate acestea, monitorizarea atentă a potențialelor prejudicii va rămâne critică.

Dezvoltarea următoarei valuri de inovație în IA

Lansarea lui Gemma ca o familie de modele deschise are potențialul de a debloca progresul în întreaga comunitate de IA:

Accesibilitate: Gemma reduce barierele pentru organizații care doresc să construiască cu NLP de ultimă generație, care anterior se confruntau cu costuri ridicate de calcul și date pentru antrenarea propriilor LLM-uri.
Noi aplicații: Prin lansarea punctelor de plecare preantrenate și fine-tunate, DeepMind facilitează dezvoltarea mai ușoară a aplicațiilor benefice în domenii precum educație, știință și accesibilitate.
Personalizare: Dezvoltatorii pot personaliza în continuare Gemma pentru aplicații specifice industriei sau domeniului prin antrenarea continuă pe date proprietare.
Cercetare: Modelele deschise, cum ar fi Gemma, promovează transparența și auditarea sistemelor actuale de NLP, luminând direcțiile viitoare de cercetare.
Inovație: Disponibilitatea unor modele de bază puternice, cum ar fi Gemma, va accelera progresul în domenii precum mitigarea prejudecăților, faptualitate și siguranța IA.

Prin oferirea capacităților lui Gemma tuturor prin sursă deschisă, DeepMind speră să stimuleze dezvoltarea responsabilă a IA pentru binele social.

Drumul înainte

Cu fiecare salt în IA, ne apropiem de modele care rivalizează sau depășesc inteligența umană în toate domeniile. Sisteme precum Gemma subliniază modul în care avansurile rapide în modelele autonome deblochează capacități cognitive din ce în ce mai avansate.

Cu toate acestea, mai rămân lucruri de făcut pentru a îmbunătăți fiabilitatea, interpretarea și controlabilitatea IA – domenii în care inteligența umană încă domină. Domenii precum matematica evidențiază aceste lacune persistente, Gemma obținând 64% la MMLU, comparativ cu performanța umană estimată de 89%.

Închiderea acestor lacune, asigurând în același timp siguranța și etica sistemelor IA din ce în ce mai capabile, va fi provocarea centrală în anii care vin. Găsirea echilibrului corect între deschidere și prudență va fi critică, pe măsură ce DeepMind își propune să democratizeze accesul la beneficiile IA, gestionând în același timp riscurile emergente.

Inițiative precum ANC a lui Dario Amodei, echipa de Etică și Societate de la DeepMind și Constitutional AI de la Anthropic semnalează o recunoaștere crescândă a necesității de a găsi un echilibru. Progresul semnificativ va necesita un dialog deschis și bazat pe dovezi între cercetători, dezvoltatori, factori de decizie și public.

Dacă va fi navigat în mod responsabil, Gemma reprezintă nu culmea IA, ci un punct de plecare pentru următoarea generație de cercetători în IA, urmând pașii lui DeepMind către o inteligență artificială generală corectă și benefică.

Concluzie

Lansarea modelului Gemma de către DeepMind marchează o nouă eră pentru IA deschisă – una care transcende benchmark-urile înguste în capacități de inteligență generală. Testat pe scară largă pentru siguranță și accesibil pe scară largă, Gemma stabilește un nou standard pentru lansarea responsabilă de surse deschise în IA.

Impulsat de un spirit competitiv temperat cu valori cooperante, partajarea descoperirilor precum Gemma ridică toate bărcile în ecosistemul IA. Întreaga comunitate are acum acces la o familie de LLM-uri versatile pentru a conduce sau a sprijini inițiativele lor.

Deși riscurile rămân, diligența tehnică și etică a lui DeepMind oferă încredere că beneficiile lui Gemma depășesc prejudiciile sale potențiale. Pe măsură ce capacitățile IA devin din ce în ce mai avansate, menținerea acestui echilibru între deschidere și prudență va fi critică.

Gemma ne aduce un pas mai aproape de IA care beneficiază întreaga omenire. Cu toate acestea, multe provocări majore ne așteaptă pe drumul către o inteligență artificială generală benefică. Dacă cercetătorii IA, dezvoltatorii și societatea în general pot menține progresul colaborativ, Gemma poate fi văzută într-o zi ca un punct de plecare istoric, mai degrabă decât culmea finală.

Aayush Mittal, Mittal

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Machine Learning și Deep Learning. Pasinea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un focus deosebit pe AI/ML. Curiozitatea mea în continuare m-a atras și spre Natural Language Processing, un domeniu pe care sunt dornic să îl explorez mai departe.