Connect with us

Qwen2 – L’ultimo modello linguistico multilingue di Alibaba sfida SOTA come Llama 3

Intelligenza artificiale

Qwen2 – L’ultimo modello linguistico multilingue di Alibaba sfida SOTA come Llama 3

mm
evolution from Qwen1.5 to Qwen2

Dopo mesi di attesa, il team Qwen di Alibaba ha finalmente presentato Qwen2 – l’evoluzione successiva della loro potente serie di modelli linguistici. Qwen2 rappresenta un notevole passo avanti, con avanzamenti all’avanguardia che potrebbero posizionarlo come la migliore alternativa al modello celebrato Llama 3 di Meta. In questo approfondimento tecnico, esploreremo le caratteristiche chiave, le prestazioni e le tecniche innovative che rendono Qwen2 un formidabile concorrente nel regno dei large language model (LLM).

Scaling Up: Introduzione alla linea di modelli Qwen2

Al cuore di Qwen2 si trova una linea di modelli diversificata progettata per soddisfare diverse esigenze computazionali. La serie comprende cinque dimensioni di modelli distinti: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e il modello flagship Qwen2-72B. Questa gamma di opzioni si adatta a un ampio spettro di utenti, dalle persone con risorse hardware modeste a quelle con accesso a infrastrutture computazionali all’avanguardia.

Una delle caratteristiche di spicco di Qwen2 è la sua capacità multilingue. Mentre il precedente modello Qwen1.5 eccelleva in inglese e cinese, Qwen2 è stato addestrato su dati che coprono ben 27 lingue aggiuntive. Questo regime di addestramento multilingue include lingue di regioni diverse come l’Europa occidentale, l’Europa orientale e centrale, il Medio Oriente, l’Asia orientale e l’Asia meridionale.

Tabella che elenca le lingue supportate dai modelli Qwen2, categorizzate per regioni

Lingue supportate dai modelli Qwen2, categorizzate per regioni geografiche

Ampiangendo il suo repertorio linguistico, Qwen2 dimostra un’eccezionale capacità di comprendere e generare contenuti in un’ampia gamma di lingue, rendendolo uno strumento inestimabile per applicazioni globali e comunicazione interculturale.

Affrontare il code-switching: una sfida multilingue

Nei contesti multilingui, il fenomeno del code-switching – la pratica di alternare tra diverse lingue all’interno di una singola conversazione o enunciazione – è un’evenienza comune. Qwen2 è stato addestrato meticolosamente per gestire scenari di code-switching, riducendo notevolmente i problemi associati e garantendo transizioni fluide tra le lingue.

Le valutazioni utilizzando prompt che inducono tipicamente il code-switching hanno confermato il sostanziale miglioramento di Qwen2 in questo dominio, una testimonianza dell’impegno di Alibaba nel fornire un modello linguistico veramente multilingue.

Eccellere nella codifica e nella matematica

Qwen2 ha capacità notevoli nei domini della codifica e della matematica, aree che hanno tradizionalmente rappresentato una sfida per i modelli linguistici. Sfruttando estesi set di dati di alta qualità e metodologie di addestramento ottimizzate, Qwen2-72B-Instruct, la variante istruita del modello flagship, esibisce prestazioni eccezionali nella risoluzione di problemi matematici e compiti di codifica in vari linguaggi di programmazione.

Estendere la comprensione del contesto

Una delle caratteristiche più impressionanti di Qwen2 è la sua capacità di comprendere e elaborare sequenze di contesto estese. Mentre la maggior parte dei modelli linguistici lotta con testi lunghi, i modelli Qwen2-7B-Instruct e Qwen2-72B-Instruct sono stati progettati per gestire lunghezze di contesto fino a 128K token.

Questa capacità notevole è un gioco di svolta per le applicazioni che richiedono una comprensione approfondita di documenti lunghi, come contratti legali, articoli di ricerca o manuali tecnici densi. Elaborando contesti estesi, Qwen2 può fornire risposte più accurate e complete, aprendo nuove frontiere nell’elaborazione del linguaggio naturale.

Grafico che mostra l'accuratezza di recupero dei fatti dei modelli Qwen2 in documenti di diverse lunghezze di contesto e profondità

Accuratezza dei modelli Qwen2 nel recupero di fatti da documenti di diverse lunghezze di contesto e profondità.

Questo grafico mostra la capacità dei modelli Qwen2 di recuperare fatti da documenti di diverse lunghezze di contesto e profondità.

Innovazioni architettoniche: Group Query Attention e embedding ottimizzati

Sotto il cofano, Qwen2 incorpora diverse innovazioni architettoniche che contribuiscono alle sue prestazioni eccezionali. Una di queste innovazioni è l’adozione di Group Query Attention (GQA) su tutti i modelli. GQA offre velocità di inferenza più rapide e un uso ridotto della memoria, rendendo Qwen2 più efficiente e accessibile a una gamma più ampia di configurazioni hardware.

Inoltre, Alibaba ha ottimizzato gli embedding per i modelli più piccoli della serie Qwen2. Legando gli embedding, il team è riuscito a ridurre l’impronta di memoria di questi modelli, consentendone il deploy su hardware meno potente senza compromettere le prestazioni.

Test dei benchmark: Qwen2 supera i modelli di stato dell’arte

Qwen2 ha prestazioni notevoli in una gamma diversificata di benchmark. Le valutazioni comparative rivelano che Qwen2-72B, il modello più grande della serie, supera i concorrenti di spicco come Llama-3-70B in aree critiche, tra cui la comprensione del linguaggio naturale, l’acquisizione della conoscenza, la competenza nella codifica, le abilità matematiche e le capacità multilingui.

Grafici che confrontano Qwen2-72B-Instruct e Llama3-70B-Instruct nella codifica e nella matematica

Qwen2-72B-Instruct versus Llama3-70B-Instruct nelle prestazioni di codifica e matematica

Nonostante abbia meno parametri del suo predecessore, Qwen1.5-110B, Qwen2-72B esibisce prestazioni superiori, una testimonianza dell’efficacia dei set di dati curati meticolosamente da Alibaba e delle metodologie di addestramento ottimizzate.

Sicurezza e responsabilità: allineamento con i valori umani

Qwen2-72B-Instruct è stato sottoposto a una rigorosa valutazione per la sua capacità di gestire query potenzialmente pericolose relative ad attività illegali, frodi, pornografia e violazioni della privacy. I risultati sono incoraggianti: Qwen2-72B-Instruct si comporta in modo comparabile al modello GPT-4 altamente considerato per quanto riguarda la sicurezza, esibendo proporzioni notevolmente più basse di risposte pericolose rispetto ad altri grandi modelli come Mistral-8x22B.

Questo risultato sottolinea l’impegno di Alibaba nello sviluppare sistemi di intelligenza artificiale che si allineano con i valori umani, garantendo che Qwen2 non sia solo potente ma anche affidabile e responsabile.

Licenza e impegno open-source

In una mossa che amplifica ulteriormente l’impatto di Qwen2, Alibaba ha adottato un approccio open-source alla licenza. Mentre Qwen2-72B e i suoi modelli istruiti mantengono la licenza Qianwen originale, i modelli restanti – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B e Qwen2-57B-A14B – sono stati rilasciati sotto la licenza Apache 2.0 permissiva.

Questa maggiore apertura è prevista per accelerare l’applicazione e l’uso commerciale dei modelli Qwen2 in tutto il mondo, promuovendo la collaborazione e l’innovazione all’interno della comunità globale dell’AI.

Uso e implementazione

L’uso dei modelli Qwen2 è semplice grazie alla loro integrazione con framework popolari come Hugging Face. Ecco un esempio di utilizzo di Qwen2-7B-Chat-beta per l’inferenza:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # il dispositivo su cui caricare il modello

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Dammi una breve introduzione ai large language model."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Questo snippet di codice dimostra come impostare e generare testo utilizzando il modello Qwen2-7B-Chat. L’integrazione con Hugging Face lo rende accessibile e facile da sperimentare.

Qwen2 vs. Llama 3: un’analisi comparativa

Mentre Qwen2 e Llama 3 di Meta sono entrambi modelli linguistici formidabili, esibiscono punti di forza e compromessi distinti.

Grafico di confronto delle prestazioni di Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B su più benchmark

Grafico di confronto delle prestazioni di Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B su vari benchmark, tra cui MMLU, MMLU-Pro, GPQA e altri.

Ecco un’analisi comparativa per aiutarti a comprendere le loro principali differenze:

Capacità multilingue: Qwen2 detiene un chiaro vantaggio in termini di supporto multilingue. Il suo addestramento su dati che coprono 27 lingue aggiuntive, oltre all’inglese e al cinese, consente a Qwen2 di eccellere nella comunicazione interculturale e in scenari multilingui. Al contrario, le capacità multilingue di Llama 3 sono meno pronunciate, potenzialmente limitando la sua efficacia in contesti linguistici diversi.

Competenza nella codifica e nella matematica: Sia Qwen2 che Llama 3 dimostrano impressionanti capacità nella codifica e nella matematica. Tuttavia, Qwen2-72B-Instruct sembra avere un leggero vantaggio, grazie al suo rigoroso addestramento su estesi set di dati di alta qualità in questi domini. L’attenzione di Alibaba nel migliorare le capacità di Qwen2 in queste aree potrebbe darle un vantaggio per applicazioni specializzate che coinvolgono la codifica o la risoluzione di problemi matematici.

Comprensione del contesto lungo: I modelli Qwen2-7B-Instruct e Qwen2-72B-Instruct vantano la capacità di gestire lunghezze di contesto fino a 128K token. Questa caratteristica è particolarmente preziosa per le applicazioni che richiedono una comprensione approfondita di documenti lunghi o materiali tecnici densi. Llama 3, sebbene capace di elaborare sequenze lunghe, potrebbe non eguagliare le prestazioni di Qwen2 in questo settore specifico.

Mentre entrambi Qwen2 e Llama 3 esibiscono prestazioni di stato dell’arte, la gamma di modelli di Qwen2, che va da 0,5B a 72B di parametri, offre maggiore flessibilità e scalabilità. Questa versatilità consente agli utenti di scegliere la dimensione del modello che meglio si adatta alle loro risorse computazionali e ai requisiti di prestazione. Inoltre, gli sforzi continui di Alibaba per scalare Qwen2 a modelli più grandi potrebbero ulteriormente migliorare le sue capacità, potenzialmente superando Llama 3 in futuro.

Distribuzione e integrazione: semplificazione dell’adozione di Qwen2

Per agevolare l’adozione e l’integrazione diffusa di Qwen2, Alibaba ha intrapreso passi proattivi per garantire un deployage senza problemi su varie piattaforme e framework. Il team Qwen ha collaborato strettamente con numerosi progetti e organizzazioni di terze parti, consentendo a Qwen2 di essere utilizzato in congiunzione con un’ampia gamma di strumenti e framework.

Regolazione fine e quantizzazione: Progetti di terze parti come Axolotl, Llama-Factory, Firefly, Swift e XTuner sono stati ottimizzati per supportare la regolazione fine dei modelli Qwen2, consentendo agli utenti di adattare i modelli alle loro attività e set di dati specifici. Inoltre, strumenti di quantizzazione come AutoGPTQ, AutoAWQ e Neural Compressor sono stati adattati per funzionare con Qwen2, facilitando il deploy efficiente su dispositivi con risorse limitate.

Distribuzione e inferenza: I modelli Qwen2 possono essere distribuiti e serviti utilizzando una varietà di framework, tra cui vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino e TGI. Questi framework offrono pipeline di inferenza ottimizzate, consentendo un deploy efficiente e scalabile di Qwen2 in ambienti di produzione.

Piattaforme API e esecuzione locale: Per gli sviluppatori che cercano di integrare Qwen2 nelle loro applicazioni, le piattaforme API come Together, Fireworks e OpenRouter forniscono un accesso conveniente alle capacità dei modelli. In alternativa, l’esecuzione locale è supportata attraverso framework come MLX, Llama.cpp, Ollama e LM Studio, consentendo agli utenti di eseguire Qwen2 sulle loro macchine locali mantenendo il controllo sulla privacy e la sicurezza dei dati.

Framework di agenti e RAG: Il supporto di Qwen2 per l’uso di strumenti e capacità di agente è rafforzato da framework come LlamaIndex, CrewAI e OpenDevin. Questi framework consentono la creazione di agenti AI specializzati e l’integrazione di Qwen2 in pipeline di generazione aumentata da recupero (RAG), ampliando la gamma di applicazioni e casi d’uso.

Guardando avanti: sviluppi futuri e opportunità

La visione di Alibaba per Qwen2 si estende ben al di là del rilascio attuale. Il team sta attivamente addestrando modelli più grandi per esplorare le frontiere della scalabilità dei modelli, complementata da sforzi continui di scalabilità dei dati. Inoltre, sono in corso piani per estendere Qwen2 nel regno dell’AI multimodale, abilitando l’integrazione di capacità di comprensione visiva e audio.

Mentre l’ecosistema open-source dell’AI continua a prosperare, Qwen2 svolgerà un ruolo cruciale, fungendo da potente risorsa per ricercatori, sviluppatori e organizzazioni che cercano di avanzare lo stato dell’arte nell’elaborazione del linguaggio naturale e nell’intelligenza artificiale.

Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.