Intelligenza artificiale

Gemma: Google porta capacità AI avanzate attraverso open source

Published February 29, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Il campo dell’intelligenza artificiale (AI) ha visto enormi progressi negli ultimi anni, in gran parte trainati dai progressi nel deep learning e nel natural language processing (NLP). In prima linea di questi progressi ci sono i large language models (LLM) – sistemi AI addestrati su enormi quantità di dati testuali che possono generare testo simile a quello umano e partecipare a compiti conversazionali.

LLM come PaLM di Google, Claude di Anthropic e Gopher di DeepMind hanno dimostrato capacità notevoli, dalla codifica alla ragione comune. Tuttavia, la maggior parte di questi modelli non è stata rilasciata apertamente, limitandone l’accesso per la ricerca, lo sviluppo e le applicazioni benefiche.

Ciò è cambiato con il recente rilascio open source di Gemma – una famiglia di LLM di Google’s DeepMind basata sui loro potenti modelli proprietari Gemini. In questo post del blog, esploreremo Gemma, analizzandone l’architettura, il processo di addestramento, le prestazioni e il rilascio responsabile.

Panoramica di Gemma

A febbraio 2023, DeepMind ha rilasciato open source due dimensioni di modelli Gemma – una versione da 2 miliardi di parametri ottimizzata per la distribuzione sul dispositivo e una versione più grande da 7 miliardi di parametri progettata per l’uso GPU/TPU.

Gemma sfrutta un’architettura basata su transformer simile e una metodologia di addestramento simile ai modelli Gemini di DeepMind. È stato addestrato su fino a 6 trilioni di token di testo da documenti web, matematica e codice.

DeepMind ha rilasciato sia i checkpoint pre-addestrati grezzi di Gemma, sia le versioni fine-tune con apprendimento supervisionato e feedback umano per migliorare le capacità in aree come il dialogo, il follow-up delle istruzioni e la codifica.

Iniziare con Gemma

Il rilascio open source di Gemma rende le sue avanzate capacità AI accessibili a sviluppatori, ricercatori e appassionati. Ecco una guida rapida per iniziare:

Distribuzione agnostica della piattaforma

Un punto di forza di Gemma è la sua flessibilità – puoi eseguirlo su CPU, GPU o TPU. Per CPU, utilizza TensorFlow Lite o HuggingFace Transformers. Per prestazioni accelerate su GPU/TPU, utilizza TensorFlow. I servizi cloud come Vertex AI di Google forniscono anche una scalabilità senza soluzione di continuità.

Accedere ai modelli pre-addestrati

Gemma è disponibile in diverse varianti pre-addestrate a seconda delle tue esigenze. I modelli da 2B e 7B offrono forti capacità generative out-of-the-box. Per il fine-tuning personalizzato, i modelli 2B-FT e 7B-FT sono punti di partenza ideali.

Costruire applicazioni emozionanti

Puoi costruire una vasta gamma di applicazioni con Gemma, come la generazione di storie, la traduzione linguistica, la risposta alle domande e la produzione di contenuti creativi. La chiave è sfruttare i punti di forza di Gemma attraverso il fine-tuning sui tuoi set di dati.

Architettura

Gemma utilizza un’architettura decoder-only transformer, basata su avanzamenti come l’attenzione multi-query e le embedding posizionali rotative:

Transformer: Introdotta nel 2017, l’architettura transformer basata solo su meccanismi di attenzione è diventata onnipresente nel NLP. Gemma eredita la capacità del transformer di modellare le dipendenze a lungo raggio nel testo.
Decoder-only: Gemma utilizza solo uno stack di decoder transformer, a differenza dei modelli encoder-decoder come BART o T5. Ciò fornisce forti capacità generative per compiti come la generazione di testo.
Attenzione multi-query: Gemma impiega l’attenzione multi-query nel suo modello più grande, consentendo a ogni testa di attenzione di elaborare più query in parallelo per un’inferenza più rapida.
Embedding posizionali rotative: Gemma rappresenta le informazioni posizionali utilizzando embedding rotativi invece di codici di posizione assoluti. Questa tecnica riduce le dimensioni del modello mantenendo le informazioni sulla posizione.

L’uso di tecniche come l’attenzione multi-query e le embedding posizionali rotative consente ai modelli Gemma di raggiungere un compromesso ottimale tra prestazioni, velocità di inferenza e dimensioni del modello.

Dati e processo di addestramento

Gemma è stato addestrato su fino a 6 trilioni di token di dati testuali, principalmente in inglese. Ciò includeva documenti web, testi matematici e codice. DeepMind ha investito notevoli sforzi nella filtrazione dei dati, rimuovendo contenuti tossici o dannosi utilizzando classificatori ed euristici.

L’addestramento è stato eseguito utilizzando l’infrastruttura TPUv5 di Google, con fino a 4096 TPU utilizzati per addestrare Gemma-7B. Tecniche di parallelismo del modello e dei dati efficienti hanno consentito l’addestramento dei modelli massicci con hardware commodity.

È stato utilizzato l’addestramento a stati, regolando continuamente la distribuzione dei dati per concentrarsi su testo di alta qualità e rilevante. Le fasi finali di fine-tuning hanno utilizzato una miscela di esempi di istruzioni generate da esseri umani e sintetiche per migliorare le capacità.

Prestazioni del modello

DeepMind ha valutato rigorosamente i modelli Gemma su un’ampia gamma di oltre 25 benchmark che coprono domande di risposta, ragionamento, matematica, codifica, senso comune e capacità di dialogo.

Gemma raggiunge risultati di stato dell’arte rispetto a modelli open source di dimensioni simili nella maggior parte dei benchmark. Alcuni punti salienti:

Matematica: Gemma eccelle nei test di ragionamento matematico come GSM8K e MATH, superando modelli come Codex e Claude di Anthropic di oltre 10 punti.
Codifica: Gemma eguaglia o supera le prestazioni di Codex sui benchmark di programmazione come MBPP, nonostante non sia stato addestrato specificamente su codice.
Dialogo: Gemma dimostra una forte capacità conversazionale con un tasso di vittoria del 51,7% su Mistral-7B di Anthropic nei test di preferenza umana.
Ragionamento: Nei compiti che richiedono inferenza come ARC e Winogrande, Gemma supera altri modelli da 7B di 5-10 punti.

La versatilità di Gemma attraverso le discipline dimostra le sue forti capacità di intelligenza generale. Sebbene rimangano lacune rispetto alle prestazioni umane, Gemma rappresenta un balzo in avanti nell’NLP open source.

Sicurezza e responsabilità

Rilasciare pesi open source di modelli di grandi dimensioni introduce sfide legate a un uso improprio intenzionale e a pregiudizi del modello intrinseci. DeepMind ha adottato misure per mitigare i rischi:

Filtraggio dei dati: Il testo potenzialmente tossico, illegale o pregiudizievole è stato rimosso dai dati di addestramento utilizzando classificatori ed euristici.
Valutazioni: Gemma è stato testato su oltre 30 benchmark curati per valutare la sicurezza, la correttezza e la robustezza. Ha eguagliato o superato altri modelli.
Fine-tuning: Il fine-tuning del modello si è concentrato sul miglioramento delle capacità di sicurezza come il filtraggio delle informazioni e i comportamenti di rifiuto/edging appropriati.
Termini di utilizzo: I termini di utilizzo proibiscono applicazioni offensive, illegali o non etiche dei modelli Gemma. Tuttavia, l’applicazione rimane una sfida.
Schede del modello: Sono state rilasciate schede che dettagliano le capacità del modello, i limiti e i pregiudizi per promuovere la trasparenza.

Sebbene esistano rischi legati al rilascio open source, DeepMind ha determinato che il rilascio di Gemma fornisce benefici netti per la società in base al suo profilo di sicurezza e alla possibilità di abilitare la ricerca. Tuttavia, il monitoraggio vigile dei potenziali danni sarà critico.

Abilitare la prossima ondata di innovazione AI

Rilasciare Gemma come modello open source sta per sbloccare il progresso in tutta la comunità AI:

Accessibilità: Gemma riduce le barriere per le organizzazioni che desiderano costruire con NLP di ultima generazione, che in precedenza affrontavano costi di calcolo e dati elevati per l’addestramento dei propri LLM.
Nuove applicazioni: Rilasciando checkpoint pre-addestrati e regolati, DeepMind consente uno sviluppo più semplice di app benefiche in aree come l’istruzione, la scienza e l’accessibilità.
Personalizzazione: Gli sviluppatori possono personalizzare ulteriormente Gemma per applicazioni specifiche di settore o dominio attraverso un addestramento continuo su dati proprietari.
Ricerca: I modelli open source come Gemma favoriscono una maggiore trasparenza e audit dei sistemi NLP attuali, illuminando le future direzioni di ricerca.
Innovazione: La disponibilità di modelli baseline forti come Gemma accelererà il progresso in aree come la mitigazione dei pregiudizi, la factualità e la sicurezza dell’AI.

Fornendo le capacità di Gemma a tutti attraverso l’open sourcing, DeepMind spera di stimolare lo sviluppo responsabile di AI per il bene sociale.

La strada ahead

Con ogni balzo in avanti nell’AI, ci avviciniamo a modelli che rivaleggiano o superano l’intelligenza umana in tutti i domini. Sistemi come Gemma sottolineano come i rapidi progressi nei modelli auto-supervisionati stiano sbloccando capacità cognitive sempre più avanzate.

Tuttavia, rimane lavoro da fare per migliorare l’affidabilità, l’interpretazione e la controllabilità dell’AI – aree in cui l’intelligenza umana regna ancora suprema. Domini come la matematica evidenziano queste lacune persistenti, con Gemma che ottiene il 64% su MMLU rispetto al 89% delle prestazioni umane stimate.

Colmare queste lacune garantendo al contempo la sicurezza e l’etica di sistemi AI sempre più capaci sarà la sfida centrale nei prossimi anni. Trovare il giusto equilibrio tra apertura e cautela sarà critico, poiché DeepMind mira a democratizzare l’accesso ai benefici dell’AI gestendo i rischi emergenti.

Iniziative per promuovere la sicurezza dell’AI – come ANC di Dario Amodei, il team Ethics & Society di DeepMind e Constitutional AI di Anthropic – segnalano una crescente consapevolezza di questa esigenza di sfumature. I progressi significativi richiederanno un dialogo aperto e basato sulle prove tra ricercatori, sviluppatori, responsabili delle politiche e il pubblico.

Se navigato in modo responsabile, Gemma rappresenta non la vetta dell’AI, ma un basecamp per la prossima generazione di ricercatori di AI che seguono le orme di DeepMind verso un’intelligenza artificiale generale equa e benefica.

Conclusione

Il rilascio dei modelli Gemma di DeepMind segna una nuova era per l’AI open source – una che trascende i benchmark ristretti in capacità di intelligenza generalizzata. Testato a fondo per la sicurezza e ampiamente accessibile, Gemma stabilisce un nuovo standard per il rilascio open source responsabile nell’AI.

Guidato da uno spirito di competizione temperato da valori cooperativi, condividere innovazioni come Gemma solleva tutte le barche nell’ecosistema AI. L’intera comunità ha ora accesso a una famiglia di LLM versatile per guidare o supportare le loro iniziative.

Sebbene rimangano rischi, la diligenza tecnica ed etica di DeepMind fornisce la fiducia che i benefici di Gemma superino i suoi potenziali danni. Man mano che le capacità dell’AI crescono sempre più avanzate, mantenere questa sfumatura tra apertura e cautela sarà critico.

Gemma ci porta un passo più vicino all’AI che beneficia l’umanità intera. Tuttavia, molte sfide grandiose attendono ancora lungo il percorso verso l’intelligenza artificiale generale benevola. Se i ricercatori di AI, gli sviluppatori e la società nel suo complesso possono mantenere un progresso collaborativo, Gemma potrebbe un giorno essere visto come un basecamp storico, piuttosto che la vetta finale.