Connect with us

L’ascesa dei modelli di ragionamento di piccole dimensioni: possono i modelli di intelligenza artificiale compatto eguagliare il ragionamento di livello GPT?

Intelligenza artificiale

L’ascesa dei modelli di ragionamento di piccole dimensioni: possono i modelli di intelligenza artificiale compatto eguagliare il ragionamento di livello GPT?

mm

Negli ultimi anni, il campo dell’intelligenza artificiale è stato affascinato dal successo dei grandi modelli linguistici (LLM). Inizialmente progettati per l’elaborazione del linguaggio naturale, questi modelli si sono evoluti in potenti strumenti di ragionamento in grado di affrontare problemi complessi con un processo di pensiero passo dopo passo simile a quello umano. Tuttavia, nonostante le loro eccezionali capacità di ragionamento, i LLM presentano significative limitazioni, tra cui alti costi computazionali e velocità di deploy lenta, che li rendono impraticabili per l’uso nel mondo reale in ambienti con risorse limitate come i dispositivi mobili o il calcolo edge. Ciò ha portato a un crescente interesse per lo sviluppo di modelli più piccoli e più efficienti che possano offrire capacità di ragionamento simili minimizzando i costi e le richieste di risorse. Questo articolo esplora l’ascesa di questi modelli di ragionamento di piccole dimensioni, il loro potenziale, le sfide e le implicazioni per il futuro dell’intelligenza artificiale.

Un cambio di prospettiva

Per gran parte della storia recente dell’intelligenza artificiale, il campo ha seguito il principio delle “leggi di scala”, che suggerisce che le prestazioni del modello migliorano in modo prevedibile all’aumentare dei dati, della potenza di calcolo e delle dimensioni del modello. Se questo approccio ha prodotto modelli potenti, ha anche comportato significative compromissioni, tra cui alti costi di infrastruttura, impatto ambientale e problemi di latenza. Non tutte le applicazioni richiedono le capacità complete di modelli massicci con centinaia di miliardi di parametri. In molti casi pratici – come ad esempio gli assistenti su dispositivo, la sanità e l’istruzione – modelli più piccoli possono raggiungere risultati simili, se possono ragionare in modo efficace.

Comprendere il ragionamento nell’intelligenza artificiale

Il ragionamento nell’intelligenza artificiale si riferisce alla capacità di un modello di seguire catene logiche, comprendere causa ed effetto, dedurre implicazioni, pianificare passaggi in un processo e identificare contraddizioni. Per i modelli linguistici, ciò significa non solo recuperare informazioni, ma anche manipolare e inferire informazioni attraverso un approccio strutturato e passo dopo passo. Questo livello di ragionamento è tipicamente raggiunto attraverso la fine-tuning dei LLM per eseguire ragionamenti multi-passi prima di arrivare a una risposta. Sebbene efficaci, questi metodi richiedono significative risorse computazionali e possono essere lenti e costosi da deploy, sollevando preoccupazioni sulla loro accessibilità e impatto ambientale.

Comprendere i modelli di ragionamento di piccole dimensioni

I modelli di ragionamento di piccole dimensioni mirano a replicare le capacità di ragionamento dei modelli più grandi, ma con maggiore efficienza in termini di potenza computazionale, utilizzo della memoria e latenza. Questi modelli spesso utilizzano una tecnica chiamata distillazione della conoscenza, in cui un modello più piccolo (lo “studente”) apprende da un modello più grande pre-addestrato (l'”insegnante”). Il processo di distillazione comporta l’addestramento del modello più piccolo sui dati generati dal modello più grande, con l’obiettivo di trasferire la capacità di ragionamento. Il modello studente viene quindi fine-tuned per migliorare le sue prestazioni. In alcuni casi, apprendimento per rinforzo con funzioni di ricompensa specializzate a livello di dominio viene applicato per ulteriormente migliorare la capacità del modello di eseguire ragionamenti specifici del compito.

L’ascesa e i progressi dei modelli di ragionamento di piccole dimensioni

Un importante traguardo nello sviluppo dei modelli di ragionamento di piccole dimensioni è stato raggiunto con il rilascio di DeepSeek-R1. Nonostante sia stato addestrato su un cluster relativamente modesto di GPU più vecchie, DeepSeek-R1 ha raggiunto prestazioni paragonabili a quelle di modelli più grandi come OpenAI’s o1 su benchmark come MMLU e GSM-8K. Questo risultato ha portato a una riconsiderazione dell’approccio tradizionale di scaling, che presumeva che i modelli più grandi fossero intrinsecamente superiori.

Il successo di DeepSeek-R1 può essere attribuito al suo innovativo processo di addestramento, che ha combinato apprendimento per rinforzo su larga scala senza affidarsi alla fine-tuning supervisionata nelle fasi iniziali. Questa innovazione ha portato alla creazione di DeepSeek-R1-Zero, un modello che ha dimostrato impressionanti capacità di ragionamento, paragonabili a quelle dei modelli di ragionamento più grandi. Ulteriori miglioramenti, come l’uso di dati di avvio a freddo, hanno migliorato la coerenza e l’esecuzione del modello, in particolare in aree come la matematica e la codifica.

Inoltre, le tecniche di distillazione si sono rivelate cruciali nello sviluppo di modelli più piccoli e più efficienti a partire da quelli più grandi. Ad esempio, DeepSeek ha rilasciato versioni distillate dei suoi modelli, con dimensioni che vanno da 1,5 miliardi a 70 miliardi di parametri. Utilizzando questi modelli, i ricercatori hanno addestrato un modello più piccolo DeepSeek-R1-Distill-Qwen-32B che ha superato OpenAI’s o1-mini su vari benchmark. Questi modelli sono ora deployabili con hardware standard, rendendoli una opzione più fattibile per una vasta gamma di applicazioni.

Possono i modelli piccoli eguagliare il ragionamento di livello GPT

Per valutare se i modelli di ragionamento di piccole dimensioni (SRM) possano eguagliare la potenza di ragionamento dei modelli più grandi (LRM) come GPT, è importante valutare le loro prestazioni su benchmark standard. Ad esempio, il modello DeepSeek-R1 ha ottenuto un punteggio di circa 0,844 sul test MMLU, paragonabile a quello dei modelli più grandi come o1. Sul dataset GSM-8K, che si concentra sulla matematica di livello scolastico, il modello distillato DeepSeek-R1 ha raggiunto prestazioni di alto livello, superando sia o1 che o1-mini.

Nei compiti di codifica, come quelli su LiveCodeBench e CodeForces, i modelli distillati DeepSeek-R1 hanno eseguito in modo simile a o1-mini e GPT-4o, dimostrando forti capacità di ragionamento nella programmazione. Tuttavia, i modelli più grandi mantengono ancora un vantaggio nei compiti che richiedono una più ampia comprensione del linguaggio o la gestione di finestre di contesto lunghe, poiché i modelli più piccoli tendono a essere più specifici del compito.

Nonostante le loro forze, i modelli piccoli possono lottare con compiti di ragionamento esteso o quando si confrontano con dati fuori distribuzione. Ad esempio, nelle simulazioni di scacchi dei LLM, DeepSeek-R1 ha fatto più errori dei modelli più grandi, suggerendo limitazioni nella sua capacità di mantenere la concentrazione e l’accuratezza nel lungo periodo.

Compromessi e implicazioni pratiche

I compromessi tra le dimensioni del modello e le prestazioni sono cruciali quando si confrontano SRM con LRM di livello GPT. I modelli più piccoli richiedono meno memoria e potenza computazionale, rendendoli ideali per dispositivi edge, app mobili o situazioni in cui è necessaria l’inferenza offline. Ciò comporta costi operativi inferiori, con modelli come DeepSeek-R1 che possono essere fino al 96% più economici da eseguire rispetto ai modelli più grandi come o1.

Tuttavia, questi guadagni di efficienza sono accompagnati da alcuni compromessi. I modelli più piccoli sono solitamente fine-tuned per compiti specifici, il che può limitare la loro versatilità rispetto ai modelli più grandi. Ad esempio, mentre DeepSeek-R1 eccelle nella matematica e nella codifica, mancano capacità multimodali, come la capacità di interpretare immagini, che i modelli più grandi come GPT-4o possono gestire.

Nonostante queste limitazioni, le applicazioni pratiche dei modelli di ragionamento di piccole dimensioni sono vaste. Nella sanità, possono alimentare strumenti di diagnostica che analizzano dati medici su server standard degli ospedali. Nell’istruzione, possono essere utilizzati per sviluppare sistemi di tutoraggio personalizzati, fornendo feedback passo dopo passo agli studenti. Nella ricerca scientifica, possono assistere nell’analisi dei dati e nel testing delle ipotesi in campi come la matematica e la fisica. La natura open-source di modelli come DeepSeek-R1 favorisce inoltre la collaborazione e democratizza l’accesso all’intelligenza artificiale, consentendo a organizzazioni più piccole di trarre vantaggio dalle tecnologie avanzate.

Il punto fondamentale

L’evoluzione dei modelli linguistici in modelli di ragionamento di piccole dimensioni rappresenta un importante progresso nell’intelligenza artificiale. Sebbene questi modelli potrebbero non eguagliare ancora completamente le capacità ampie dei modelli linguistici più grandi, offrono vantaggi chiave in termini di efficienza, efficienza dei costi e accessibilità. Trovando un equilibrio tra potenza di ragionamento e efficienza delle risorse, i modelli più piccoli sono destinati a svolgere un ruolo cruciale in varie applicazioni, rendendo l’intelligenza artificiale più pratica e sostenibile per l’uso nel mondo reale.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.