AGI
La prossima legge di scalabilità dell’IA: non più dati, ma migliori modelli del mondo

Per anni, l’industria dell’intelligenza artificiale ha seguito una semplice e brutale regola: più grande è meglio. Abbiamo addestrato modelli su enormi set di dati, aumentato il numero di parametri e utilizzato immense risorse computazionali per risolvere il problema. Questa formula ha funzionato per la maggior parte del tempo. Dalla GPT-3 alla GPT-4, e dai chatbot grezzi ai motori di ragionamento, la “legge di scalabilità” suggeriva che se continuavamo a fornire alla macchina sempre più testo, alla fine sarebbe diventata intelligente.
Ma adesso stiamo raggiungendo un limite. Internet è finito. I dati di alta qualità stanno diventando esauriti e i ritorni sull’aumentare le dimensioni dei modelli stanno diminuendo. I principali ricercatori di IA argomentano che il prossimo grande balzo nell’intelligenza artificiale non verrà dal leggere più testo da solo. Verrà dal comprendere la realtà dietro il testo. Questa convinzione segnala un cambiamento fondamentale nella focalizzazione dell’IA, che introduce l’era del Modello del Mondo.
I limiti della previsione del prossimo token
Per capire perché abbiamo bisogno di un nuovo approccio, dobbiamo prima esaminare cosa fanno effettivamente i sistemi di IA attuali. Nonostante le loro impressionanti capacità, modelli come ChatGPT o Claude sono fondamentalmente motori statistici. Prevedono la prossima parola in una sequenza in base alla probabilità di ciò che è venuto prima. Non capiscono che un bicchiere caduto si romperà; semplicemente sanno che in milioni di storie, la parola “rompersi” spesso segue la frase “bicchiere caduto”.
Questo approccio, noto come modello autoregressivo, ha un difetto critico. Si basa interamente sulla correlazione, non sulla causalità. Se si addestra un LLM su mille descrizioni di un incidente d’auto, impara il linguaggio degli incidenti. Ma non impara mai la fisica della quantità di moto, della frizione o della fragilità. È uno spettatore, non un partecipante.
Questo limite sta diventando il “Muro dei Dati“. Abbiamo quasi raschiato l’intero internet pubblico. Per scalare ulteriormente utilizzando il metodo attuale, avremmo bisogno di esponenzialmente più dati di quanti ne esistano. I dati sintetici (ad esempio il testo generato dall’IA) offrono una soluzione temporanea, ma spesso portano al “collasso del modello“, dove il sistema amplifica i propri pregiudizi ed errori. Non possiamo scalare il nostro modo verso l’Intelligenza Artificiale Generale (AGI) utilizzando solo il testo perché il testo è una compressione a bassa larghezza di banda del mondo. Descrive la realtà, ma non è la realtà stessa.
Perché i modelli del mondo sono importanti
I leader dell’IA come Yann LeCun hanno a lungo sostenuto che i sistemi di IA attuali mancano di un aspetto fondamentale della cognizione umana che anche i bambini piccoli possiedono naturalmente. Questa è la nostra capacità di mantenere un modello interno di come funziona il mondo, che comunemente si riferisce come Modello del Mondo. Un Modello del Mondo non prevede solo la prossima parola; costruisce una mappa mentale interna di come funziona l’ambiente fisico. Quando vediamo una palla rotolare dietro un divano, sappiamo che è ancora lì. Sappiamo che apparirà dall’altra parte a meno che non venga fermata. Non abbiamo bisogno di leggere un libro di testo per capire questo; eseguiamo una simulazione mentale basata sul nostro modello interno del mondo della fisica e della permanenza degli oggetti.
Per far avanzare l’IA, deve passare dall’imitazione statistica a questo tipo di simulazione interna. Deve capire le cause sottostanti degli eventi, non solo le loro descrizioni testuali.
Il Joint Embedding Predictive Architecture (JEPA) è un esempio primario di questo cambiamento di paradigma. A differenza dei LLM, che cercano di prevedere ogni singolo pixel o parola (un processo che è computazionalmente costoso e rumoroso), JEPA prevede rappresentazioni astratte. Ignora dettagli imprevedibili come il movimento delle singole foglie su un albero e si concentra su concetti di alto livello come l’albero, il vento e la stagione. Imparando a prevedere come questi concetti di alto livello cambiano nel tempo, l’IA impara la struttura del mondo piuttosto che i dettagli di superficie.
Dalla previsione alla simulazione
Stiamo già vedendo i primi segnali di questo passaggio nei modelli di generazione di video. Quando OpenAI ha rilasciato Sora, l’hanno descritta non solo come uno strumento di video, ma come un “simulatore di mondo.”
Questa distinzione è vitale. Un generatore di video standard potrebbe creare un video di una persona che cammina prevedendo quali pixel colorati vanno normalmente uno dopo l’altro. Un simulatore di mondo, tuttavia, tenta di mantenere la coerenza 3D, l’illuminazione e la permanenza degli oggetti nel tempo. “Capisce” che se la persona cammina dietro un muro, non dovrebbe scomparire dall’esistenza.
Sebbene i modelli di video attuali siano ancora lontani dalla perfezione, rappresentano il nuovo terreno di addestramento. Il mondo fisico contiene significativamente più informazioni del mondo testuale. Un singolo secondo di video contiene milioni di punti di dati visivi riguardanti la fisica, la luce e l’interazione. Addestrando i modelli su questa realtà visiva, possiamo insegnare all’IA il “senso comune” che attualmente manca ai LLM.
Questo crea una nuova legge di scalabilità. Il successo non sarà più misurato da quanti trilioni di token un modello ha letto. Sarà misurato dalla fedeltà della sua simulazione e dalla sua capacità di prevedere stati futuri dell’ambiente. Un’IA che può simulare con precisione le conseguenze di un’azione senza doverla eseguire è un’IA che può pianificare, ragionare e agire in modo sicuro.
Efficienza e il percorso verso l’AGI
Questo cambiamento affronta anche i costi energetici insostenibili dell’IA attuale. I LLM sono inefficienti perché devono prevedere ogni dettaglio per generare un output coerente. Un Modello del Mondo è più efficiente perché è selettivo. Proprio come un guidatore umano si concentra sulla strada e ignora il pattern delle nuvole nel cielo, un Modello del Mondo si concentra sui fattori causali rilevanti di un compito.
LeCun ha sostenuto che questo approccio consente ai modelli di imparare molto più velocemente. Un sistema come V-JEPA (Video-Joint Embedding Predictive Architecture) ha dimostrato di poter convergere su una soluzione con molti meno iterazioni di addestramento rispetto ai metodi tradizionali. Imparando la “forma” dei dati piuttosto che memorizzare i dati stessi, i Modelli del Mondo costruiscono una forma di intelligenza più robusta che generalizza meglio a nuove situazioni non viste.
Questo è il collegamento mancante per l’AGI. La vera intelligenza richiede la navigazione. Richiede un agente che guardi un obiettivo, simuli diversi percorsi per raggiungere quell’obiettivo utilizzando il suo modello interno del mondo e poi scelga il percorso con la più alta probabilità di successo. I generatori di testo non possono farlo; possono solo scrivere un piano, non possono capire le limitazioni della sua esecuzione.
Il punto fondamentale
L’industria dell’IA è a un punto di svolta. La strategia di “aggiungere solo più dati” sta raggiungendo la sua fine logica. Stiamo passando dall’era del Chatbot all’era del Simulatore.
La prossima generazione di scalabilità dell’IA non sarà più leggere l’intero internet. Sarà guardare il mondo, capire le sue regole e costruire un’architettura interna che specchi la realtà. Questo non è solo un upgrade tecnico; è un cambiamento fondamentale in ciò che consideriamo “apprendimento”.
Per le imprese e i ricercatori, la focalizzazione deve cambiare. Dobbiamo smettere di ossessionarci con i contatori di parametri e iniziare a valutare quanto bene i nostri sistemi capiscono la causa e l’effetto. L’IA del futuro non ci dirà solo cosa è successo; ci mostrerà cosa potrebbe succedere, e perché. Questa è la promessa dei Modelli del Mondo, e è l’unico percorso in avanti.












