Intelligenza artificiale

Possono i Modelli di Mondo dell’AI Comprendere Davvero le Leggi Fisiche?

Published November 26, 2024

Updated April 27, 2026

Martin Anderson

Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

La grande speranza per i modelli di visione-linguaggio dell’AI è che un giorno diventeranno capaci di una maggiore autonomia e versatilità, incorporando principi di leggi fisiche allo stesso modo in cui sviluppiamo una comprensione innata di questi principi attraverso l’esperienza precoce.

Ad esempio, i giochi con la palla dei bambini tendono a sviluppare una comprensione della cinetica del moto, e dell’effetto del peso e della texture della superficie sulla traiettoria. Allo stesso modo, le interazioni con scenari comuni come bagni, bevande versate, oceani, piscine e altri corpi liquidi diversi instilleranno in noi una comprensione versatile e scalabile dei modi in cui i liquidi si comportano sotto la gravità.

Anche i postulati di fenomeni meno comuni – come la combustione, le esplosioni e la distribuzione del peso architettonico sotto pressione – vengono assorbiti inconsciamente attraverso l’esposizione a programmi TV e film, o video sui social media.

Quando studiamo i principi dietro questi sistemi a livello accademico, stiamo semplicemente “adattando” i nostri modelli mentali intuitivi (ma non informati) di essi.

Masters of One

Attualmente, la maggior parte dei modelli di AI sono, al contrario, più “specializzati” e molti di essi sono stati ottimizzati o addestrati da zero su set di dati di immagini o video che sono abbastanza specifici per determinati casi d’uso, piuttosto che essere progettati per sviluppare una comprensione generale delle leggi che governano.

Altri possono presentare l’aspetto di una comprensione delle leggi fisiche; ma potrebbero in realtà riprodurre campioni dai loro dati di addestramento, piuttosto che comprendere veramente le basi di aree come la fisica del moto in un modo che possa produrre rappresentazioni veramente nuove (e scientificamente plausibili) dai prompt degli utenti.

In questo momento delicato nella commercializzazione e produzione di sistemi di AI generativa, spetta a noi e alla scrupolosità degli investitori distinguere il marketing ingegnoso di nuovi modelli di AI dalla realtà delle loro limitazioni.

Uno dei lavori più interessanti di novembre, guidato da Bytedance Research, ha affrontato questo problema, esplorando il divario tra le capacità apparenti e reali di modelli generativi “tutto-propósito” come Sora.

Il lavoro ha concluso che, allo stato attuale dell’arte, l’output generato da modelli di questo tipo è più probabile che imiti esempi dal loro set di dati di addestramento che dimostrare una comprensione completa delle limitazioni fisiche sottostanti che operano nel mondo reale.

Il documento afferma*:

‘[Questi] modelli possono essere facilmente distorti da “esempi ingannevoli” nel set di dati di addestramento, portandoli a generalizzare in un modo “basato su casi” in determinate condizioni. Questo fenomeno, anche osservato in grandi modelli linguistici, descrive la tendenza di un modello a fare riferimento a casi di addestramento simili quando risolve nuovi compiti.

‘Ad esempio, considera un modello video addestrato su dati di una palla in movimento ad alta velocità in moto lineare uniforme. Se la data augmentation viene eseguita ruotando orizzontalmente i video, introducendo così un moto di ritorno, il modello potrebbe generare uno scenario in cui una palla a bassa velocità inverta la direzione dopo i primi frame, anche se questo comportamento non è fisicamente corretto.’

Prenderemo uno sguardo più da vicino al documento – intitolato Valutazione dei Modelli di Mondo con LLM per la Presa di Decisioni – a breve. Ma prima, analizziamo lo sfondo di queste apparenti limitazioni.

Ricordo del Passato

Senza generalizzazione, un modello di AI addestrato è poco più di un costoso foglio di calcolo di riferimenti a sezioni dei suoi dati di addestramento: trova il termine di ricerca appropriato e puoi evocare un’istanza di quei dati.

In questo scenario, il modello sta effettivamente agendo come un “motore di ricerca neurale”, poiché non può produrre interpretazioni astratte o “creative” dell’output desiderato, ma invece ripete una variazione minore dei dati che ha visto durante il processo di addestramento.

Ciò è noto come memorizzazione – un problema controverso che sorge perché modelli di AI veramente duttili e interpretivi tendono a mancare di dettagli, mentre modelli veramente dettagliati tendono a mancare di originalità e flessibilità.

La capacità dei modelli influenzati dalla memorizzazione di riprodurre i dati di addestramento è un potenziale ostacolo legale, nei casi in cui i creatori del modello non avevano i diritti incondizionati per utilizzare quei dati; e dove i benefici da quei dati possono essere dimostrati attraverso un numero crescente di metodi di estrazione.

A causa della memorizzazione, tracce di dati non autorizzati possono persistere, concatenati, attraverso più sistemi di addestramento, come un marchio indelebile e non intenzionale – anche in progetti in cui il praticante di apprendimento automatico ha preso cura di garantire che vengano utilizzati dati “sicuri”.

Modelli di Mondo

Tuttavia, il problema centrale di utilizzo con la memorizzazione è che tende a trasmettere l’illusione di intelligenza, o suggerire che il modello di AI abbia generalizzato leggi o domini fondamentali, dove in realtà è il grande volume di dati memorizzati che fornisce questa illusione (cioè, il modello ha così tanti esempi di dati potenziali da cui scegliere che è difficile per un essere umano capire se sta rigurgitando contenuti appresi o se ha una comprensione veramente astratta dei concetti coinvolti nella generazione).

Questo problema ha ramificazioni per l’interesse crescente in modelli di mondo – la prospettiva di sistemi di AI altamente diversi e costosi addestrati che incorporano molte leggi note e sono riccamente esplorabili.

I modelli di mondo sono di particolare interesse nello spazio di generazione di immagini e video. Nel 2023 RunwayML ha iniziato un progetto di ricerca sullo sviluppo e sulla fattibilità di tali modelli; DeepMind ha recentemente assunto uno degli originatori del noto modello generativo di video Sora per lavorare su un modello di questo tipo; e le startup come Higgsfield stanno investendo significativamente in modelli di mondo per la sintesi di immagini e video.

Combinazioni Difficili

Una delle promesse dei nuovi sviluppi nei sistemi di AI generativa è la prospettiva che possano apprendere leggi fisiche fondamentali, come il moto, la cinematica umana (come caratteristiche del passo), dinamica dei fluidi, e altri fenomeni fisici noti che sono, almeno, visivamente familiari agli esseri umani.

Se l’AI generativa potesse raggiungere questo obiettivo, potrebbe diventare capace di produrre effetti visivi iper-realistici che ritraggono esplosioni, inondazioni e collisioni plausibili tra molti tipi di oggetti.

Se, d’altra parte, il sistema di AI ha semplicemente sido addestrato su migliaia (o centinaia di migliaia) di video che ritraggono tali eventi, potrebbe essere capace di riprodurre i dati di addestramento in modo convincente quando viene addestrato su un punto di dati simile alla query dell’utente; tuttavia fallirebbe se la query combina troppi concetti che, in tale combinazione, non sono rappresentati nel set di dati.

Inoltre, queste limitazioni non sarebbero immediatamente evidenti, fino a quando non si spingesse il sistema con combinazioni di questo tipo.

Ciò significa che un nuovo sistema generativo potrebbe essere capace di generare contenuti video virali che, sebbene impressionanti, possono creare una falsa impressione delle capacità e della profondità di comprensione del sistema, perché il compito che rappresenta non è una vera sfida per il sistema.

Ad esempio, un evento relativamente comune e ben diffuso, come ‘un edificio viene demolito’, potrebbe essere presente in più video in un set di dati utilizzato per addestrare un modello che si suppone abbia una certa comprensione della fisica. Pertanto, il modello potrebbe presumibilmente generalizzare bene questo concetto e anche produrre output veramente nuovo all’interno dei parametri appresi da numerosi video.

Questo è un esempio in-distribution, dove il set di dati contiene molti esempi utili per il sistema di AI per apprendere.

Tuttavia, se si richiede un esempio più bizzarro o specioso, come ‘La Torre Eiffel viene fatta saltare in aria da invasori alieni’, il modello dovrebbe combinare domini diversi come ‘proprietà metallurgiche’, ‘caratteristiche di esplosioni’, ‘gravità’, ‘resistenza del vento’ – e ‘navi spaziali aliene’.

Questo è un esempio out-of-distribution (OOD), che combina così tanti concetti intrecciati che il sistema probabilmente fallirà nel generare un esempio convincente, o si attaccherà all’esempio semantico più vicino su cui è stato addestrato – anche se quell’esempio non aderisce alla query dell’utente.

A meno che il set di dati di origine del modello non contenga effetti visivi CGI di stile hollywoodiano che ritraggono lo stesso o un evento simile, una tale rappresentazione richiederebbe assolutamente che il modello raggiunga una comprensione ben generalizzata e duttile delle leggi fisiche.

Vincoli Fisici

Il nuovo documento – una collaborazione tra Bytedance, Tsinghua University e Technion – suggerisce non solo che modelli come Sora non internalizzano veramente le leggi fisiche deterministiche in questo modo, ma che l’aumento dei dati (un approccio comune negli ultimi 18 mesi) sembra, nella maggior parte dei casi, non produrre alcun miglioramento in questo senso.

Il documento esplora non solo i limiti dell’extrapolazione di leggi fisiche specifiche – come il comportamento di oggetti in movimento quando collidono, o quando il loro percorso è ostruito – ma anche la capacità del modello di generalizzazione combinatoria – istanze in cui le rappresentazioni di due principi fisici diversi vengono fuse in un’unica rappresentazione generativa.

Un video riassunto del nuovo documento. Fonte: https://x.com/bingyikang/status/1853635009611219019

I tre principi fisici selezionati per lo studio dai ricercatori erano moto parabolico; moto lineare uniforme; e collisione perfettamente elastica.

Come si può vedere nel video sopra, i risultati indicano che modelli come Sora non internalizzano veramente le leggi fisiche, ma tendono a riprodurre i dati di addestramento.

Inoltre, gli autori hanno scoperto che aspetti come il colore e la forma diventano così intrecciati al momento dell’inferenza che una palla generata potrebbe probabilmente trasformarsi in un quadrato, apparentemente perché un moto simile in un esempio del set di dati presentava un quadrato e non una palla (vedi esempio nel video incorporato sopra).

Il documento conclude:

‘Il nostro studio suggerisce che la scalabilità da sola è insufficiente per i modelli di generazione di video per scoprire le leggi fisiche fondamentali, nonostante il suo ruolo nel più ampio successo di Sora…

‘…[I risultati] indicano che la scalabilità da sola non può affrontare il problema OOD, anche se migliora le prestazioni in altri scenari.

‘La nostra analisi approfondita suggerisce che la generalizzazione del modello di video si basa più sul riferimento a esempi di addestramento simili piuttosto che sull’apprendimento di regole universali. Abbiamo osservato un ordine di priorità di colore > dimensione > velocità > forma in questo comportamento “basato su casi”.

‘[Il nostro] studio suggerisce che la scalabilità ingenua è insufficiente per i modelli di generazione di video per scoprire le leggi fisiche fondamentali.’

Chiesto se il team di ricerca avesse trovato una soluzione al problema, uno degli autori del documento ha commentato:

‘Purtroppo, no. In realtà, questo è probabilmente la missione di tutta la comunità di AI.’

Metodo e Dati

I ricercatori hanno utilizzato un Variational Autoencoder (VAE) e DiT per generare campioni video. In questo setup, le rappresentazioni latenti compresse prodotte dal VAE lavorano in tandem con la modellazione del processo di denoising di DiT.

I video sono stati addestrati su Stable Diffusion V1.5-VAE. Lo schema è stato lasciato fondamentalmente invariato, con solo miglioramenti architettonici alla fine del processo:

‘[Abbiamo mantenuto] la maggior parte del convoluzione 2D originale, della normalizzazione dei gruppi e dei meccanismi di attenzione sulle dimensioni spaziali.

‘Per gonfiare questa struttura in un auto-encoder spaziale-temporale, abbiamo convertito i primi blocchi di downsampling 2D dell’encoder e i blocchi di upsampling 2D del decoder in 3D, e abbiamo impiegato più strati 1D extra per migliorare la modellazione temporale.’

Per abilitare la modellazione video, il VAE modificato è stato addestrato congiuntamente con dati di immagini e video di alta qualità, con il componente GAN 2D nativo dell’architettura SD1.5 aumentato per il 3D.

Il set di dati di immagini utilizzato era la fonte originale di Stable Diffusion, LAION-Aesthetics, con filtraggio, oltre a DataComp. Per i dati video, un subset è stato curato da Vimeo-90K, Panda-70m e HDVG.

I dati sono stati addestrati per un milione di passi, con random resized crop e random horizontal flip applicati come processi di data augmentation.

Flipping Out

Come notato sopra, il processo di data augmentation di flip orizzontale casuale può essere un ostacolo nell’addestrare un sistema progettato per produrre un moto autentico. Ciò è perché l’output del modello addestrato potrebbe considerare entrambe le direzioni di un oggetto e causare inversioni casuali mentre tenta di negoziare questi dati conflittuali (vedi video incorporato sopra).

D’altra parte, se si disattiva il flip orizzontale, il modello è più probabile che produca un output che aderisce a una sola direzione appresa dai dati di addestramento.

Quindi non c’è una soluzione facile al problema, tranne che il sistema veramente assimili l’intera gamma di possibilità di movimento da entrambe le versioni native e capovolte – una facoltà che i bambini sviluppano facilmente, ma che sembra essere più una sfida per i modelli di AI.

Test

Per il primo set di esperimenti, i ricercatori hanno formulato un simulatore 2D per produrre video di movimento e collisioni di oggetti che si conformano alle leggi della meccanica classica, che ha fornito un set di dati controllato e di alta volumetria che esclude le ambiguità dei video del mondo reale, per la valutazione dei modelli. Il motore di gioco fisico Box2D è stato utilizzato per creare questi video.

I tre scenari fondamentali elencati sopra sono stati l’obiettivo dei test: moto lineare uniforme, collisioni perfettamente elastiche e moto parabolico.

Set di dati di dimensioni crescenti (che vanno da 30.000 a tre milioni di video) sono stati utilizzati per addestrare modelli di diverse dimensioni e complessità (DiT-S a DiT-L), con i primi tre frame di ogni video utilizzati per la condizionamento.

Dettagli dei modelli diversi addestrati nel primo set di esperimenti. Fonte: https://arxiv.org/pdf/2411.02385

I ricercatori hanno scoperto che i risultati in-distribution (ID) si sono scalati bene con quantità crescenti di dati, mentre le generazioni OOD non hanno migliorato, indicando carenze nella generalizzazione.

Risultati per il primo round di test.

Gli autori notano:

‘Questi risultati suggeriscono l’incapacità della scalabilità di eseguire il ragionamento in scenari OOD.’

Successivamente, i ricercatori hanno testato e addestrato sistemi progettati per esibire una competenza per la generalizzazione combinatoria, in cui due movimenti contrastanti vengono combinati per (sperabilmente) produrre un movimento coeso che è fedele alla legge fisica dietro ciascuno dei movimenti separati.

Per questa fase dei test, gli autori hanno utilizzato il simulatore PHYRE, creando un ambiente 2D che rappresenta oggetti diversi e di forme diverse in caduta libera, che collidono l’uno con l’altro in una varietà di interazioni complesse.

Le metriche di valutazione per questo secondo test sono state Fréchet Video Distance (FVD); Structural Similarity Index (SSIM); Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); e uno studio umano (denominato ‘anormale’ nei risultati).

Tre scale di set di dati di addestramento sono stati creati, a 100.000 video, 0,6 milioni di video e 3-6 milioni di video. I modelli DiT-B e DiT-XL sono stati utilizzati, a causa della maggiore complessità dei video, con il primo frame utilizzato per la condizionamento.

I modelli sono stati addestrati per un milione di passi a risoluzione 256×256, con 32 frame per video.

Risultati per il secondo round di test.

Il risultato di questo test suggerisce che l’aumento semplice dei dati non è un approccio adeguato:

Il documento afferma:

‘Questi risultati suggeriscono che sia la capacità del modello che la copertura dello spazio di combinazione sono cruciali per la generalizzazione combinatoria. Questa intuizione implica che le leggi di scalabilità per la generazione di video dovrebbero concentrarsi sull’aumento della diversità di combinazione, piuttosto che semplicemente aumentare il volume dei dati.’

Infine, i ricercatori hanno condotto ulteriori test per cercare di determinare se un modello di generazione di video possa veramente assimilare le leggi fisiche, o se semplicemente memorizza e riproduce i dati di addestramento al momento dell’inferenza.

Qui hanno esaminato il concetto di “generalizzazione basata su casi”, in cui i modelli tendono a imitare esempi di addestramento specifici quando si confrontano con situazioni nuove, nonché esempi di moto uniforme – in particolare, come la direzione del moto nei dati di addestramento influenza le previsioni del modello addestrato.

Due set di dati di addestramento, per moto uniforme e collisione, sono stati curati, ciascuno consistente in video di moto uniforme che rappresentano velocità tra 2,5 e 4 unità, con i primi tre frame utilizzati come condizionamento. I valori latenti come velocità sono stati omessi, e, dopo l’addestramento, il test è stato eseguito su scenari visti e non visti.

Sotto, mostriamo i risultati per il test di generazione di moto uniforme:

Risultati per i test di generazione di moto uniforme, dove la variabile ‘velocità’ è omessa durante l’addestramento.

Gli autori affermano:

‘[Con] un grande divario nel set di dati di addestramento, il modello tende a generare video in cui la velocità è alta o bassa per assomigliare ai dati di addestramento quando i primi frame mostrano velocità di gamma media.’

Per i test di collisione, molte più variabili sono coinvolte, e il modello è richiesto di apprendere una funzione non lineare bidimensionale.

Collisione: risultati per il terzo e ultimo round di test.

Gli autori osservano che la presenza di “esempi ingannevoli”, come il moto inverso (ad esempio, una palla che rimbalza su una superficie e inverte la sua direzione), può fuorviare il modello e farlo generare previsioni fisicamente scorrette.

Conclusione

Se un algoritmo non-AI (ad esempio, un metodo “cotto”, procedurale) contiene regole matematiche per il comportamento di fenomeni fisici come fluidi, oggetti sotto gravità o pressione, ci sono un set di costanti invariabili disponibili per una rappresentazione accurata.

Tuttavia, i risultati del nuovo documento indicano che non si sviluppa alcuna relazione equivalente o comprensione intrinseca delle leggi fisiche classiche durante l’addestramento dei modelli generativi, e che l’aumento dei dati non risolve il problema, ma lo oscura – perché un numero maggiore di video di addestramento è disponibile per il sistema da imitare al momento dell’inferenza.

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.

Pubblicato per la prima volta martedì, 26 novembre 2024