Intelligenza artificiale

Test-Time Scaling: Il Segreto Dietro la Nuova Ondata di Modelli di Ragionamento di Livello PhD

mm

Il campo dell’intelligenza artificiale ha raggiunto un punto in cui semplicemente aggiungere più dati o aumentare le dimensioni di un modello non è più il modo migliore per renderlo più intelligente. Per gli ultimi anni, abbiamo creduto che se costruivamo reti neurali più grandi e le alimentavamo con più internet, sarebbero diventate più intelligenti. Questo approccio, noto come leggi di scala, ha funzionato in modo sorprendente. Ci ha dato modelli che possono scrivere poesie, tradurre lingue e superare l’esame di avvocato. Tuttavia, questi modelli spesso hanno lottato con la logica profonda, la matematica complessa e i problemi scientifici a più passaggi. Erano eccellenti nel riconoscimento di pattern, ma spesso fallivano nei problemi che richiedevano ragionamento a più passaggi.

Recentemente, è emersa una nuova tendenza che sta cambiando il modo in cui pensiamo alle capacità dell’AI. Questa tendenza si chiama test-time scaling. Invece di concentrarsi solo su quanto un modello impara durante la sua fase di addestramento, i ricercatori si stanno ora concentrando su quanto il modello “pensi” quando risponde a una domanda. Questo passaggio è il segreto dietro la nuova ondata di modelli di ragionamento, come la serie o1 di OpenAI, che ora stanno eseguendo al livello di studenti di PhD in soggetti difficili come fisica, chimica e biologia.

Il Passaggio dalle Leggi di Scala dell’Addestramento alle Leggi di Scala dell’Inferenza

Per capire perché questo è un cambiamento importante, dobbiamo guardare a come l’AI è stata costruita fino ad ora. Tradizionalmente, l'”intelligenza” di un modello era determinata in base al suo addestramento. Ciò comportava spendere mesi e milioni di dollari per eseguire grandi quantità di dati attraverso migliaia di GPU. Una volta completato l’addestramento, il modello era essenzialmente congelato. Quando gli si faceva una domanda, rispondeva quasi istantaneamente in base ai pattern che aveva già imparato. Questo è ciò che chiamiamo inferenza o test-time.

Il problema con questo approccio tradizionale è che il modello ha solo una possibilità di rispondere correttamente. Elabora il prompt e genera token uno dopo l’altro senza un modo per “pensare” o “verificare” la sua logica prima di rispondere. Il test-time scaling cambia questa dinamica. Consente al modello di utilizzare più potenza computazionale durante la fase di inferenza. Proprio come un essere umano potrebbe impiegare alcuni secondi per rispondere a una domanda semplice, ma diversi minuti o ore per risolvere un problema matematico complesso, i modelli di AI stanno essere progettati per scalare il loro sforzo in base alla difficoltà del compito.

Definizione del Concetto di Test-Time Scaling

Il test-time scaling si riferisce alle tecniche che consentono a un modello di AI di utilizzare risorse computazionali aggiuntive per elaborare una richiesta nel momento della consegna. In semplici termini, significa dare al modello più “tempo di pensiero”. Ciò non significa rendere il modello più grande; significa renderlo più deliberato. Quando un modello utilizza il test-time scaling, non produce solo la prima risposta che gli viene in mente. Invece, potrebbe esplorare diversi percorsi, verificare gli errori nella sua logica e raffinare la sua risposta prima che l’utente la veda.

Questo concetto è spesso paragonato al modo in cui funziona il cervello umano. Gli psicologi spesso parlano di “System 1” e “System 2” thinking. Il System 1 è veloce, istintivo ed emotivo. È ciò che si utilizza quando si riconosce un volto o si guida un’auto su una strada familiare. Il System 2 è più lento, più deliberato e logico. È ciò che si utilizza quando si risolve un’equazione matematica difficile o si pianifica un progetto complesso. Fino a poco tempo fa, i LLM erano principalmente pensatori del System 1. Il test-time scaling è il ponte che consente loro di accedere al pensiero del System 2.

La Meccanica del Processo di Ragionamento

Ci sono diversi modi in cui i ricercatori raggiungono il test-time scaling. Uno dei metodi più comuni si chiama Chain of Thought (CoT) prompting, ma in questi nuovi modelli, è costruito direttamente nel sistema anziché essere qualcosa che l’utente deve chiedere. Il modello è addestrato a dividere un problema in passaggi logici più piccoli. Facendo ciò, il modello può verificare ogni parte della soluzione prima di passare alla successiva.

Un’altra tecnica importante coinvolge algoritmi di ricerca, come Monte Carlo Tree Search. Invece di prevedere solo la parola più probabile successiva, il modello genera diversi percorsi possibili per una risposta. Valuta questi percorsi e determina quale sia più probabile portare a una soluzione corretta. Se raggiunge un vicolo cieco o si rende conto che un passaggio precedente era sbagliato, può tornare indietro e provare un approccio diverso. Questa capacità di “guardare avanti” è molto simile a come un motore di scacchi valuta migliaia di mosse possibili prima di scegliere la migliore. Ricerchando molte possibilità durante la fase di inferenza, il modello può risolvere problemi molto più complessi di quelli che possono essere risolti direttamente utilizzando un LLM standard.

Perché il Ragionamento di Livello PhD Richiede più della Memoria

Il motivo per cui questo è così importante è che il ragionamento di alto livello nella scienza e nella matematica non può essere risolto solo con la memoria. In un esame di fisica di livello PhD, non si può semplicemente ripetere un fatto letto in un libro di testo. Bisogna applicare principi complessi a una situazione nuova e unica. I modelli standard spesso “hallucinano” in questi scenari perché stanno cercando di prevedere la parola successiva in base alla probabilità anziché alla logica.

Il test-time scaling consente al modello di agire più come un ricercatore. Può testare ipotesi internamente. Ad esempio, se a un modello viene chiesto di scrivere un pezzo di codice complesso, può “eseguire” la logica nella sua catena di pensiero nascosta, identificare un potenziale bug e correggerlo prima di presentare il codice finale. Questa capacità di auto-correzione è ciò che consente ai nuovi modelli di raggiungere punteggi alti in benchmark come l’American Invitational Mathematics Examination (AIME) o il GPQA (un test scientifico difficile progettato da esperti). Non stanno solo indovinando; stanno verificando.

Il Compromesso di Efficienza e i Costi di Calcolo

Sebbene il test-time scaling sia potente, comporta un costo significativo. Nel vecchio modo di fare le cose, la parte più costosa dell’AI era l’addestramento. Una volta distribuito il modello, eseguirlo era relativamente economico e veloce. Con il test-time scaling, il costo si sposta verso la richiesta dell’utente. Poiché il modello sta facendo più lavoro generando diversi percorsi e verificando il suo stesso lavoro, ci vuole più tempo per rispondere e richiede più risorse hardware.

Ciò crea una nuova economia per l’AI. Stiamo andando verso una situazione in cui il “costo per query” può variare notevolmente. Una domanda semplice sul meteo potrebbe costare una frazione di centesimo e richiedere un secondo. Un’indagine scientifica approfondita potrebbe costare diversi dollari in tempo di calcolo e potrebbe richiedere un’ora per l’elaborazione. Questo compromesso è necessario per raggiungere un ragionamento di alto livello, ma significa anche che gli sviluppatori devono trovare modi per rendere questi modelli efficienti in modo che possano essere utilizzati su larga scala in settori come la medicina o l’ingegneria.

L’Impatto sul Futuro dell’Intelligenza Artificiale

La crescita del test-time scaling suggerisce che potremmo stare entrando in una nuova era di sviluppo dell’AI. Per anni, c’è stata la preoccupazione che alla fine saremmo rimasti senza dati di alta qualità per addestrare i modelli. Se i modelli imparano solo da ciò che gli esseri umani hanno già scritto, potrebbero raggiungere un limite. Tuttavia, il test-time scaling mostra che i modelli possono migliorare le loro prestazioni pensando più duramente, non solo leggendo di più.

Ciò apre la porta all’AI che fa le sue scoperte. Se un modello può ragionare attraverso un problema che non ha mai visto prima, può potenzialmente trovare nuove soluzioni nella scienza dei materiali, nella scoperta di farmaci o nell’energia rinnovabile. Spostamento dell’AI da essere un assistente utile che riassume il testo a essere un collaboratore digitale che può aiutare a risolvere i problemi più difficili del mondo. Stiamo vedendo un passaggio da “generativo” AI a “ragionamento” AI.

Il Punto di Partenza

Il test-time scaling si sta rivelando il collegamento mancante nella ricerca di un’intelligenza artificiale avanzata. Consentendo ai modelli di utilizzare più potenza computazionale nel momento dell’inferenza, abbiamo sbloccato un livello di prestazioni che era considerato anni lontano. Questi modelli stanno iniziando a dimostrare un tipo di logica che si sente molto più vicino all’intelligenza umana rispetto al semplice riconoscimento di pattern del passato.

Man mano che procediamo, la sfida sarà quella di raffinare queste tecniche. Dobbiamo rendere il ragionamento più veloce e più accessibile, trovando il giusto equilibrio tra “veloce” e “lento” pensiero. Il segreto non è più solo la dimensione del modello o la quantità di dati che ha visto. Il segreto è come il modello utilizza il suo tempo per pensare. Per chiunque segua i progressi dell’AI, è chiaro che l’attenzione si è spostata. La corsa non è più solo su chi ha il modello più grande, ma su chi ha il modello che può ragionare meglio. Questo passaggio definirà probabilmente il prossimo decennio di innovazione nel settore.

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.