Connect with us

Intelligenza artificiale

Svelando Meta Llama 3: Un passo avanti nei modelli di linguaggio di grandi dimensioni

mm

Nel campo dell’intelligenza artificiale generativa, Meta continua a guidare con il suo impegno per la disponibilità open-source, distribuendo in tutto il mondo la sua avanzata serie di modelli di linguaggio di grandi dimensioni Meta AI (Llama) a sviluppatori e ricercatori. Sulla base delle sue iniziative progressive, Meta ha recentemente introdotto la terza iterazione di questa serie, Llama 3. Questa nuova edizione migliora notevolmente Llama 2, offrendo numerosi miglioramenti e stabilendo standard che sfidano i concorrenti del settore come Google, Mistral e Anthropic. Questo articolo esplora i significativi progressi di Llama 3 e come si confronta con il suo predecessore, Llama 2.

La serie Llama di Meta: da esclusiva ad accesso aperto e prestazioni migliorate

Meta ha avviato la sua serie Llama nel 2022 con il lancio di Llama 1, un modello limitato all’uso non commerciale e accessibile solo a istituzioni di ricerca selezionate a causa delle immense richieste computazionali e della natura proprietaria che caratterizzavano i modelli di linguaggio di grandi dimensioni all’epoca. Nel 2023, con l’uscita di Llama 2, Meta AI si è spostata verso una maggiore apertura, offrendo il modello gratuitamente per scopi di ricerca e commerciali. Questa mossa era progettata per democratizzare l’accesso alle tecnologie di intelligenza artificiale generativa avanzate, consentendo a un’ampia gamma di utenti, tra cui startup e piccoli team di ricerca, di innovare e sviluppare applicazioni senza i costi elevati tipicamente associati ai modelli di grandi dimensioni. Continuando questa tendenza verso l’apertura, Meta ha introdotto Llama 3, che si concentra sul migliorare le prestazioni dei modelli più piccoli in vari benchmark industriali.

Presentazione di Llama 3

Llama 3 è la seconda generazione dei modelli di linguaggio di grandi dimensioni open-source di Meta, con modelli pre-addestrati e fine-tunati con 8B e 70B parametri. In linea con i suoi predecessori, Llama 3 utilizza un’architettura decoder-only transformer e continua la pratica di addestramento autoregressivo, self-supervised per prevedere token successivi in sequenze di testo. Llama 3 è pre-addestrato su un set di dati che è sette volte più grande di quello utilizzato per Llama 2, con oltre 15 trilioni di token tratti da una nuova miscela curata di dati online pubblicamente disponibili. Questo vasto set di dati è elaborato utilizzando due cluster dotati di 24.000 GPU. Per mantenere la alta qualità di questi dati di addestramento, sono state impiegate una varietà di tecniche di intelligenza artificiale centrata sui dati, tra cui filtri euristici e NSFW, deduplicazione semantica e classificazione della qualità del testo. Progettato per applicazioni di dialogo, il modello Llama 3 Instruct è stato notevolmente migliorato, incorporando oltre 10 milioni di campioni di dati annotati da esseri umani e sfruttando una sofisticata miscela di metodi di addestramento come supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO).

Llama 3 vs. Llama 2: miglioramenti chiave

Llama 3 apporta diversi miglioramenti rispetto a Llama 2, aumentando notevolmente la sua funzionalità e le prestazioni:

  • Vocabolario esteso: Llama 3 ha aumentato il suo vocabolario a 128.256 token, rispetto ai 32.000 token di Llama 2. Questo miglioramento supporta una codifica del testo più efficiente per input e output e rafforza le sue capacità multilingue.
  • Lunghezza del contesto estesa: I modelli Llama 3 forniscono una lunghezza del contesto di 8.000 token, raddoppiando i 4.090 token supportati da Llama 2. Questo aumento consente di gestire contenuti più estensivi, comprendendo sia le promozioni dell’utente che le risposte del modello.
  • Dati di addestramento aggiornati: Il set di dati di addestramento per Llama 3 è sette volte più grande di quello di Llama 2, con quattro volte più codice. Contiene oltre il 5% di dati di alta qualità, non in inglese, che coprono più di 30 lingue, il che è fondamentale per il supporto alle applicazioni multilingue. Questi dati subiscono un rigoroso controllo di qualità utilizzando tecniche avanzate come filtri euristici e NSFW, deduplicazione semantica e classificatori di testo.
  • Regolazione delle istruzioni e valutazione raffinate: A differenza di Llama 2, Llama 3 utilizza tecniche di regolazione delle istruzioni avanzate, tra cui supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO). Per aumentare questo processo, è stato introdotto un nuovo set di valutazione di alta qualità, composto da 1.800 promozioni che coprono diversi casi d’uso come consigli, brainstorming, classificazione, codifica e altro, garantendo una valutazione e una regolazione completa delle capacità del modello.
  • Sicurezza avanzata dell’AI: Llama 3, come Llama 2, incorpora rigorose misure di sicurezza come la regolazione delle istruzioni e il red teaming completo per mitigare i rischi, in particolare in aree critiche come la sicurezza informatica e le minacce biologiche. A sostegno di questi sforzi, Meta ha anche introdotto Llama Guard 2, fine-tunato sulla versione 8B di Llama 3. Questo nuovo modello migliora la serie Llama Guard classificando input e risposte LLM per identificare contenuti potenzialmente non sicuri, rendendolo ideale per ambienti di produzione.

Disponibilità di Llama 3

I modelli Llama 3 sono ora integrati nell’ecosistema Hugging Face, migliorando l’accessibilità per gli sviluppatori. I modelli sono anche disponibili attraverso piattaforme di modello come servizio come Perplexity Labs e Fireworks.ai, e su piattaforme cloud come AWS SageMaker, Azure ML e Vertex AI. Meta pianifica di ampliare ulteriormente la disponibilità di Llama 3, inclusi piattaforme come Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM e Snowflake. Inoltre, il supporto hardware per Llama 3 sarà esteso per includere piattaforme di AMD, AWS, Dell, Intel, NVIDIA e Qualcomm.

Miglioramenti futuri in Llama 3

Meta ha rivelato che la versione attuale di Llama 3 è solo la prima fase della sua visione più ampia per la versione completa di Llama 3. Stanno sviluppando un modello avanzato con oltre 400 miliardi di parametri che introdurrà nuove funzionalità, tra cui multimodalità e la capacità di gestire più lingue. Questa versione migliorata avrà anche una finestra di contesto estesa e capacità di prestazione generali migliorate.

Il punto chiave

Llama 3 di Meta segna un’evoluzione significativa nel panorama dei modelli di linguaggio di grandi dimensioni, spingendo la serie non solo verso una maggiore accessibilità open-source, ma anche migliorando notevolmente le sue capacità di prestazione. Con un set di dati di addestramento sette volte più grande del suo predecessore e funzionalità come vocabolario esteso e lunghezza del contesto aumentata, Llama 3 stabilisce nuovi standard che sfidano anche i concorrenti più forti del settore.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.