Intelligenza generale artificiale
La prossima legge di scala dell'intelligenza artificiale: non più dati, ma modelli mondiali migliori

Per anni, il settore dell'intelligenza artificiale ha seguito una regola semplice e brutale: più grande è, meglio è. Abbiamo addestrato modelli su enormi set di dati, aumentato il numero di parametri e investito un'immensa potenza di calcolo nel problema. Questa formula ha funzionato per la maggior parte del tempo. Da GPT-3 a GPT-4, e dai rudimentali chatbot ai motori di ragionamento, il "legge di scala"suggeriva che se avessimo continuato a fornire alla macchina più testo, alla fine sarebbe diventata intelligente.
Ma ora siamo sbattere contro un muroInternet è finito. I dati pubblici di alta qualità si stanno esaurendo e i profitti derivanti dal semplice ampliamento dei modelli sono diminuzioneI principali ricercatori di intelligenza artificiale discutere che il prossimo grande balzo in avanti nell'intelligenza artificiale non deriverà solo dalla lettura di più testo. Deriverà dalla comprensione della realtà dietro il testo. Questa convinzione segnala un cambiamento fondamentale nell'attenzione dell'IA, inaugurando l'era del Modello Mondiale.
I limiti della previsione del prossimo token
Per capire perché abbiamo bisogno di un nuovo approccio, dobbiamo prima esaminare cosa fanno effettivamente gli attuali sistemi di intelligenza artificiale. Nonostante le loro impressionanti capacità, modelli come ChatGPT o Claude sono fondamentalmente motori statisticiPrevedono la parola successiva in una sequenza basandosi sulla probabilità di ciò che l'ha preceduta. Non capiscono che un bicchiere caduto si frantumerà; sanno solo che in milioni di storie, la parola "frantumarsi" segue spesso la frase "bicchiere caduto".
Questo approccio, noto come modellazione autoregressiva, ha un difetto critico. Si basa interamente sulla correlazione, non sulla causalità. Se si addestra un LLM su mille descrizioni di un incidente stradale, impara il linguaggio degli incidenti. Ma non apprende mai la fisica della quantità di moto, dell'attrito o della fragilità. È uno spettatore, non un partecipante.
Questa limitazione sta diventando la “Muro di dati." Abbiamo quasi raschiato l'intera rete Internet pubblica. Per scalare ulteriormente utilizzando il metodo attuale, avremmo bisogno di una quantità di dati esponenzialmente maggiore di quella esistente. I dati sintetici (ovvero il testo generato dall'intelligenza artificiale) offrono una soluzione temporanea, ma spesso portano a "collasso del modello”, dove il sistema amplifica i propri pregiudizi ed errori. Non possiamo raggiungere l'Intelligenza Artificiale Generale (AGI) utilizzando solo testo, perché il testo è una compressione a bassa larghezza di banda del mondo. Descrive la realtà, ma non è la realtà stessa.
Perché i modelli mondiali sono importanti
AI capi Come Yann LeCun, sostengono da tempo che gli attuali sistemi di intelligenza artificiale mancano di un aspetto fondamentale della cognizione umana che persino i bambini piccoli possiedono naturalmente. Si tratta della nostra capacità di mantenere un modello interno di come funziona il mondo, che comunemente chiamano Modello mondialeUn Modello del Mondo non si limita a prevedere la parola successiva; costruisce una mappa mentale interna di come funziona l'ambiente fisico. Quando vediamo una palla rotolare dietro un divano, sappiamo che è ancora lì. Sappiamo che riapparirà dall'altra parte a meno che non venga fermata. Non abbiamo bisogno di leggere un libro di testo per capirlo; eseguiamo una simulazione mentale basata sul nostro "modello del mondo" interno di fisica e permanenza degli oggetti.
Affinché l'intelligenza artificiale possa progredire, deve passare dall'imitazione statistica a questo tipo di simulazione interna. Deve comprendere le cause sottostanti gli eventi, non solo le loro descrizioni testuali.
. Architettura predittiva di incorporamento congiunto (JEPA) è un ottimo esempio di questo cambio di paradigma. A differenza degli LLM, che cercano di prevedere ogni singolo pixel o parola (un processo computazionalmente costoso e rumoroso), JEPA prevede rappresentazioni astratte. Ignora dettagli imprevedibili come il movimento delle singole foglie su un albero e si concentra su concetti di alto livello come l'albero, il vento e la stagione. Imparando a prevedere come questi stati di alto livello cambiano nel tempo, l'IA apprende la struttura del mondo piuttosto che i dettagli superficiali.
Dalla previsione alla simulazione
Stiamo già vedendo i primi segnali di questa transizione nei modelli di generazione video. Quando OpenAI ha rilasciato Sora, lo ha descritto non solo come uno strumento video, ma come un "simulatore mondiale. "
Questa distinzione è fondamentale. Un generatore video standard potrebbe creare un video di una persona che cammina prevedendo quali pixel colorati si trovano solitamente uno accanto all'altro. Un simulatore di mondo, invece, cerca di mantenere la coerenza 3D, l'illuminazione e la permanenza dell'oggetto nel tempo. "Capisce" che se la persona cammina dietro un muro, non dovrebbe scomparire dall'esistenza.
Sebbene gli attuali modelli video siano ancora lontani dalla perfezione, rappresentano il nuovo campo di addestramento. Il mondo fisico contiene molte più informazioni del mondo testuale. Un singolo secondo di video contiene milioni di punti dati visivi riguardanti fisica, luce e interazione. Addestrando i modelli su questa realtà visiva, possiamo insegnare all'intelligenza artificiale il "buon senso" che attualmente manca ai LLM.
Questo crea una nuova legge di scala. Il successo non sarà più misurato in base al numero di trilioni di token letti da un modello. Sarà misurato dalla fedeltà della sua simulazione e dalla sua capacità di prevedere gli stati futuri dell'ambiente. Un'IA in grado di simulare accuratamente le conseguenze di un'azione senza doverla intraprendere è un'IA in grado di pianificare, ragionare e agire in modo sicuro.
Efficienza e il percorso verso l'AGI
Questo cambiamento affronta anche l'insostenibile i costi energetici dell'IA attuale. I LLM sono inefficienti perché devono prevedere ogni dettaglio per generare un output coerente. Un modello del mondo è più efficiente perché selettivo. Proprio come un conducente umano si concentra sulla strada e ignora la disposizione delle nuvole nel cielo, un modello del mondo si concentra sui fattori causali rilevanti di un compito.
LeCun ha sostenuto che questo approccio consente ai modelli di apprendere molto più velocemente. Un sistema come V-JEPA (Video-Joint Embedding Predictive Architecture) ha dimostrato di poter convergere verso una soluzione con molte meno iterazioni di addestramento rispetto ai metodi tradizionali. Imparando la "forma" dei dati anziché memorizzarli, i World Models costruiscono una forma di intelligenza più solida che si generalizza meglio a situazioni nuove e inedite.
Questo è l'anello mancante dell'AGI. La vera intelligenza richiede navigazione. Richiede che un agente consideri un obiettivo, simuli diversi percorsi per raggiungerlo utilizzando il suo modello interno del mondo e poi scelga il percorso con la più alta probabilità di successo. I generatori di testo non possono fare questo; possono solo scrivere un piano, non possono comprenderne i vincoli esecutivi.
Conclusione
Il settore dell'intelligenza artificiale è a un punto di svolta. La strategia del "basta aggiungere più dati" sta raggiungendo la sua conclusione logica. Stiamo passando dall'era del chatbot a quella del simulatore.
La prossima generazione di intelligenza artificiale non consisterà nel leggere l'intera rete Internet. Riguarderà piuttosto l'osservazione del mondo, la comprensione delle sue regole e la costruzione di un'architettura interna che rispecchi la realtà. Non si tratta solo di un aggiornamento tecnico; è un cambiamento fondamentale in ciò che consideriamo "apprendimento".
Per le aziende e i ricercatori, l'attenzione deve cambiare. Dobbiamo smettere di ossessionarci con il conteggio dei parametri e iniziare a valutare quanto bene i nostri sistemi comprendano causa ed effetto. L'intelligenza artificiale del futuro non si limiterà a dire cosa è successo; mostrerà anche cosa potrebbe succedere e perché. Questa è la promessa dei Modelli del Mondo, ed è l'unica strada da percorrere.












