Intelligenza artificiale
Gemma: Google porta capacitĂ AI avanzate attraverso l’open source
Il campo dell’intelligenza artificiale (AI) ha visto enormi progressi negli ultimi anni, in gran parte guidati da avanzamenti nel deep learning e nel natural language processing (NLP). All’avanguardia di questi avanzamenti ci sono i large language models (LLM) – sistemi AI addestrati su enormi quantità di dati testuali che possono generare testo simile a quello umano e partecipare a compiti conversazionali.
LLM come Google’s PaLM, Anthropic’s Claude e DeepMind’s Gopher hanno dimostrato capacità notevoli, dalla codifica alla ragionamento comune. Tuttavia, la maggior parte di questi modelli non è stata rilasciata apertamente, limitando l’accesso per la ricerca, lo sviluppo e le applicazioni benefiche.
Ciò è cambiato con il recente rilascio open source di Gemma – una famiglia di LLM di Google’s DeepMind basata sui loro potenti modelli proprietari Gemini. In questo post di blog, analizzeremo Gemma, esaminandone l’architettura, il processo di addestramento, le prestazioni e il rilascio responsabile.
Panoramica di Gemma
A febbraio 2023, DeepMind ha rilasciato due versioni dei modelli Gemma – una versione da 2 miliardi di parametri ottimizzata per la distribuzione sul dispositivo e una versione più grande da 7 miliardi di parametri progettata per l’uso su GPU/TPU.
Gemma sfrutta un’architettura basata su trasformatori simile a quella dei modelli Gemini di DeepMind e un metodo di addestramento simile. È stato addestrato su fino a 6 trilioni di token di dati testuali da documenti web, matematica e codice.
DeepMind ha rilasciato sia i checkpoint pre-addestrati grezzi di Gemma che le versioni addestrate con apprendimento supervisionato e feedback umano per migliorare le capacità in aree come il dialogo, l’esecuzione di istruzioni e la codifica.
Iniziare con Gemma
Il rilascio open source di Gemma rende le sue capacità AI avanzate accessibili a sviluppatori, ricercatori e appassionati. Ecco una guida rapida per iniziare:
Distribuzione agnostica della piattaforma
Un punto di forza di Gemma è la sua flessibilità – puoi eseguirlo su CPU, GPU o TPU. Per CPU, utilizza TensorFlow Lite o HuggingFace Transformers. Per prestazioni accelerate su GPU/TPU, utilizza TensorFlow. I servizi cloud come Google Cloud’s Vertex AI offrono anche una scalabilità senza problemi.
Accesso ai modelli pre-addestrati
Gemma è disponibile in diverse varianti pre-addestrate a seconda delle tue esigenze. I modelli 2B e 7B offrono capacità generative forti out-of-the-box. Per la fine-tuning personalizzata, i modelli 2B-FT e 7B-FT sono punti di partenza ideali.
Creare applicazioni emozionanti
Puoi creare una vasta gamma di applicazioni con Gemma, come la generazione di storie, la traduzione linguistica, la risposta alle domande e la produzione di contenuti creativi. La chiave è sfruttare i punti di forza di Gemma attraverso la fine-tuning sui tuoi dataset.
Architettura
Gemma utilizza un’architettura di trasformatori decoder-only, basata su avanzamenti come l’attenzione multi-query e le embedding posizionali rotative:
- Trasformatori: introdotti nel 2017, l’architettura dei trasformatori basata esclusivamente su meccanismi di attenzione è diventata onnipresente nel NLP. Gemma eredita la capacità del trasformatore di modellare le dipendenze a lungo raggio nel testo.
- Decoder-only: Gemma utilizza solo uno stack di decoder di trasformatori, a differenza dei modelli encoder-decoder come BART o T5. Ciò fornisce capacità generative forti per compiti come la generazione di testo.
- Attenzione multi-query: Gemma impiega l’attenzione multi-query nel suo modello più grande, consentendo a ogni testa di attenzione di elaborare più query in parallelo per un’inferenza più rapida.
- Embedding posizionali rotative: Gemma rappresenta le informazioni posizionali utilizzando embedding rotativi invece di codici di posizione assoluti. Questa tecnica riduce le dimensioni del modello mantenendo le informazioni sulla posizione.
L’utilizzo di tecniche come l’attenzione multi-query e le embedding posizionali rotative consente ai modelli Gemma di raggiungere un equilibrio ottimale tra prestazioni, velocità di inferenza e dimensioni del modello.
Dati e processo di addestramento
Gemma è stato addestrato su fino a 6 trilioni di token di dati testuali, principalmente in inglese. Ciò includeva documenti web, testi matematici e codice sorgente. DeepMind ha investito notevoli sforzi nella filtrazione dei dati, rimuovendo contenuti tossici o dannosi utilizzando classificatori e euristici.
L’addestramento è stato eseguito utilizzando l’infrastruttura TPUv5 di Google, con fino a 4096 TPU utilizzati per addestrare Gemma-7B. Tecniche di parallelismo del modello e dei dati efficienti hanno consentito l’addestramento dei modelli massicci con hardware commodity.
È stato utilizzato un addestramento a stati, regolando continuamente la distribuzione dei dati per concentrarsi su testi di alta qualità e rilevanti. Le fasi finali di fine-tuning hanno utilizzato una miscela di esempi di istruzioni generate dall’uomo e sintetiche per migliorare le capacità in aree come il dialogo, l’esecuzione di istruzioni e la codifica.
Prestazioni del modello
DeepMind ha valutato rigorosamente i modelli Gemma su un’ampia gamma di oltre 25 benchmark che coprono la risposta alle domande, il ragionamento, la matematica, la codifica, il senso comune e le capacità di dialogo.
Gemma raggiunge risultati di stato dell’arte rispetto ai modelli open source di dimensioni simili nella maggior parte dei benchmark. Alcuni punti salienti:
- Matematica: Gemma eccelle nei test di ragionamento matematico come GSM8K e MATH, superando modelli come Codex e Anthropic’s Claude di oltre 10 punti.
- Codifica: Gemma eguaglia o supera le prestazioni di Codex sui benchmark di programmazione come MBPP, nonostante non sia stato addestrato specificamente su codice.
- Dialogo: Gemma dimostra una forte capacità conversazionale con un tasso di vittoria del 51,7% su Anthropic’s Mistral-7B nei test di preferenza umana.
- Ragionamento: Su compiti che richiedono inferenza come ARC e Winogrande, Gemma supera altri modelli da 7B di 5-10 punti.
La versatilità di Gemma attraverso le discipline dimostra le sue forti capacità di intelligenza generale. Sebbene rimangano lacune rispetto alle prestazioni umane, Gemma rappresenta un balzo in avanti nell’NLP open source.
Sicurezza e responsabilità
Il rilascio open source di pesi di modelli grandi introduce sfide relative all’uso improprio intenzionale e ai pregiudizi intrinseci del modello. DeepMind ha adottato misure per mitigare i rischi:
- Filtraggio dei dati: testo potenzialmente tossico, illegale o pregiudizievole è stato rimosso dai dati di addestramento utilizzando classificatori e euristici.
- Valutazioni: Gemma è stato testato su oltre 30 benchmark curati per valutare la sicurezza, l’equità e la robustezza. Ha eguagliato o superato altri modelli.
- Fine-tuning: la fine-tuning del modello si è concentrata sul miglioramento delle capacità di sicurezza come la filtrazione delle informazioni e i comportamenti di rifiuto/hedging appropriati.
- Termini di utilizzo: i termini di utilizzo proibiscono applicazioni offensive, illegali o non etiche dei modelli Gemma. Tuttavia, l’applicazione rimane una sfida.
- Schede del modello: sono state rilasciate schede che dettagliano le capacità, i limiti e i pregiudizi del modello per promuovere la trasparenza.
Sebbene esistano rischi legati al rilascio open source, DeepMind ha determinato che il rilascio di Gemma fornisce benefici netti per la società sulla base del suo profilo di sicurezza e dell’abilitazione della ricerca. Tuttavia, il monitoraggio attento dei potenziali danni sarà critico.
Abilitare la prossima ondata di innovazione AI
Il rilascio di Gemma come famiglia di modelli open source sta per sbloccare il progresso in tutta la comunità AI:
- Accessibilità: Gemma riduce le barriere per le organizzazioni che desiderano costruire con NLP di punta, che in precedenza affrontavano alti costi di calcolo e dati per l’addestramento dei propri LLM.
- Nuove applicazioni: rilasciando checkpoint pre-addestrati e regolati, DeepMind consente uno sviluppo più semplice di app benefiche in aree come l’istruzione, la scienza e l’accessibilità.
- Personalizzazione: gli sviluppatori possono personalizzare ulteriormente Gemma per applicazioni specifiche di settore o dominio attraverso un addestramento continuo su dati proprietari.
- Ricerca: modelli open come Gemma favoriscono una maggiore trasparenza e audit dei sistemi NLP attuali, illuminando le direzioni di ricerca future.
- Innovazione: la disponibilità di modelli di base forti come Gemma accelererà il progresso in aree come la mitigazione dei pregiudizi, la factualità e la sicurezza AI.
Fornendo le capacità di Gemma a tutti attraverso l’open source, DeepMind spera di stimolare lo sviluppo responsabile di AI per il bene sociale.
La strada ahead
Con ogni balzo in avanti nell’AI, ci avviciniamo a modelli che rivaleggiano o superano l’intelligenza umana in tutti i domini. Sistemi come Gemma sottolineano come i rapidi progressi nei modelli auto-supervisionati stanno sbloccando capacità cognitive sempre più avanzate.
Tuttavia, rimane lavoro da fare per migliorare l’affidabilità, l’interpretazione e il controllo dell’AI – aree in cui l’intelligenza umana regna ancora suprema. Domini come la matematica evidenziano queste lacune persistenti, con Gemma che segna il 64% su MMLU rispetto al 89% stimato delle prestazioni umane.
Colmare queste lacune mentre si garantisce la sicurezza e l’etica di sistemi AI sempre più capaci sarà la sfida centrale nei prossimi anni. Trovare l’equilibrio giusto tra apertura e cautela sarà critico, poiché DeepMind mira a democratizzare l’accesso ai benefici dell’AI mentre gestisce i rischi emergenti.
Iniziative per promuovere la sicurezza AI – come Dario Amodei’s ANC, il team Ethics & Society di DeepMind e Anthropic’s Constitutional AI – segnalano una crescente consapevolezza di questo bisogno di sfumatura. Un progresso significativo richiederà un dialogo aperto e basato sulle prove tra ricercatori, sviluppatori, responsabili politici e il pubblico.
Se navigato in modo responsabile, Gemma rappresenta non la vetta dell’AI, ma un campo base per la prossima generazione di ricercatori AI che seguono le orme di DeepMind verso un’intelligenza artificiale generale equa e benefica.
Conclusione
Il rilascio di Gemma da parte di DeepMind segna una nuova era per l’AI open source – un’era che trascende i benchmark ristretti verso capacità di intelligenza generalizzata. Testato a fondo per la sicurezza e ampiamente accessibile, Gemma stabilisce un nuovo standard per il rilascio open source responsabile nell’AI.
Guidato da uno spirito di competizione temperato da valori cooperativi, condividere innovazioni come Gemma solleva tutte le barche nell’ecosistema AI. L’intera comunità ora ha accesso a una famiglia di LLM versatile per guidare o sostenere le loro iniziative.
Sebbene rimangano rischi, la diligenza tecnica ed etica di DeepMind fornisce la fiducia che i benefici di Gemma superino i potenziali danni. Man mano che le capacità AI crescono sempre più avanzate, mantenere questa sfumatura tra apertura e cautela sarà critico.
Gemma ci porta un passo più vicino all’AI che beneficia tutta l’umanità. Tuttavia, molte sfide grandiose attendono ancora lungo il percorso verso un’intelligenza artificiale generale benevola. Se i ricercatori AI, gli sviluppatori e la società nel suo complesso possono mantenere un progresso collaborativo, Gemma potrebbe un giorno essere vista come un campo base storico, piuttosto che la vetta finale.












