Intelligenza Artificiale
I modelli del mondo basati sull'intelligenza artificiale possono davvero comprendere le leggi fisiche?

La grande speranza per i modelli di intelligenza artificiale basati sulla visione e sul linguaggio è che un giorno diventino capaci di maggiore autonomia e versatilità, incorporando i principi delle leggi fisiche nello stesso modo in cui sviluppiamo una comprensione innata di questi principi attraverso l'esperienza precoce.
Ad esempio, i giochi con la palla dei bambini tendono a svilupparsi una comprensione della cinetica del movimento, e dell'effetto del peso e della consistenza della superficie sulla traiettoria. Allo stesso modo, le interazioni con scenari comuni come bagni, bevande rovesciate, l'oceano, piscine e altri diversi corpi liquidi ci instilleranno una comprensione versatile e scalabile dei modi in cui il liquido si comporta sotto gravità.
Anche i postulati di fenomeni meno comuni, come la combustione, le esplosioni e la distribuzione del peso architettonico sotto pressione, vengono assorbiti inconsciamente attraverso l'esposizione a programmi TV e film, o video sui social media.
Nel momento in cui studiamo il principi dietro questi sistemi, a livello accademico, stiamo semplicemente "adattando" i nostri modelli mentali intuitivi (ma non informati) di essi.
Maestri di Uno
Attualmente, la maggior parte dei modelli di intelligenza artificiale sono, al contrario, più "specializzati", e molti di essi sono messo a punto o addestrati da zero su set di dati di immagini o video piuttosto specifici per determinati casi d'uso, anziché progettati per sviluppare una comprensione così generale delle leggi vigenti.
Altri possono presentare il aspetto di una comprensione delle leggi fisiche; ma potrebbero in realtà riprodurre campioni dai loro dati di addestramento, anziché comprendere realmente le basi di aree come la fisica del movimento in un modo che possa produrre rappresentazioni davvero nuove (e scientificamente plausibili) a partire dai suggerimenti degli utenti.
In questo delicato momento di produzione e commercializzazione dei sistemi di intelligenza artificiale generativa, spetta a noi, e al controllo degli investitori, distinguere il marketing elaborato dei nuovi modelli di intelligenza artificiale dalla realtà dei loro limiti.
Uno di novembre articoli più interessanti, guidato da Bytedance Research, ha affrontato questo problema, esplorando il divario tra le capacità apparenti e reali dei modelli generativi "multiuso" come Sora.
Il lavoro ha concluso che allo stato attuale dell'arte, l'output generato da modelli di questo tipo ha maggiori probabilità di essere imitando esempi tratti dai loro dati di addestramento piuttosto che dimostrare effettivamente la piena comprensione dei vincoli fisici sottostanti che operano nel mondo reale.
Il documento afferma*:
'[Questi] modelli possono essere facilmente distorti da esempi "ingannevoli" tratti dal set di addestramento, portandoli a generalizzare in modo "basato sui casi" in determinate condizioni. Questo fenomeno, inoltre, osservato nei modelli linguistici di grandi dimensioni, descrive la tendenza di un modello a fare riferimento a casi di addestramento simili quando si risolvono nuovi compiti.
Ad esempio, si consideri un modello video addestrato sui dati di una palla ad alta velocità che si muove in moto lineare uniforme. Se l'aumento dei dati viene eseguito capovolgendo orizzontalmente i video, introducendo così un moto inverso, il modello potrebbe generare uno scenario in cui una palla a bassa velocità inverte la direzione dopo i fotogrammi iniziali, anche se questo comportamento non è fisicamente corretto.
Daremo un'occhiata più da vicino al documento, intitolato Valutazione dei modelli mondiali con LLM per il processo decisionale – a breve. Ma prima, diamo un'occhiata al contesto di queste apparenti limitazioni.
Ricordo delle cose passate
Senza generalizzazione, un modello di intelligenza artificiale addestrato non è altro che un costoso foglio di calcolo di riferimenti a sezioni dei suoi dati di addestramento: trova il termine di ricerca appropriato e potrai richiamare un'istanza di quei dati.
In questo scenario, il modello agisce effettivamente come un "motore di ricerca neurale", poiché non può produrre interpretazioni astratte o "creative" dell'output desiderato, ma invece riproduce alcune piccole variazioni dei dati visualizzati durante il processo di formazione.
Questo è noto come memorizzazione – un problema controverso che sorge perché i modelli di intelligenza artificiale veramente duttili e interpretativi tendono a mancare di dettagli, mentre i modelli veramente dettagliati tendono a mancare di originalità e flessibilità.
La capacità dei modelli interessati dalla memorizzazione di riprodurre i dati di addestramento rappresenta un potenziale ostacolo legale, nei casi in cui i creatori del modello non avessero diritti illimitati di utilizzo di tali dati e in cui i benefici derivanti da tali dati possano essere dimostrati attraverso un numero crescente di metodi di estrazione.
Grazie alla memorizzazione, le tracce di dati non autorizzati possono persistere, a catena, attraverso molteplici sistemi di formazione, come una filigrana indelebile e involontaria, anche nei progetti in cui l'esperto di apprendimento automatico ha prestato attenzione a garantire che vengano utilizzati dati "sicuri".
Modelli del mondo
Tuttavia, il problema centrale dell'uso della memorizzazione è che tende a trasmettere l' illusione di intelligenza, o suggeriscono che il modello di intelligenza artificiale abbia leggi o domini fondamentali generalizzati, quando in realtà è l'elevato volume di dati memorizzati a fornire questa illusione (vale a dire, il modello ha così tanti potenziali esempi di dati tra cui scegliere che è difficile per un essere umano dire se sta rigurgitando contenuti appresi o se ha una comprensione veramente astratta dei concetti coinvolti nella generazione).
Questa questione ha ripercussioni sul crescente interesse per modelli mondiali – la prospettiva di sistemi di intelligenza artificiale altamente diversificati e costosi da addestrare, che incorporano molteplici leggi note e sono ampiamente esplorabili.
I modelli mondiali sono di particolare interesse nello spazio generativo di immagini e video. Nel 2023 RunwayML ha avviato un iniziativa di ricerca nello sviluppo e nella fattibilità di tali modelli; DeepMind ha recentemente assunti uno degli ideatori dell'acclamato video generativo Sora per lavorare su un modello di questo tipo; e startup come Higgsfield stanno investendo in modo significativo in modelli mondiali per la sintesi di immagini e video.
Combinazioni difficili
Una delle promesse dei nuovi sviluppi nei sistemi di intelligenza artificiale video generativa è la prospettiva che possano apprendere leggi fisiche fondamentali, come il movimento, la cinematica umana (come caratteristiche dell'andatura), fluidodinamicae altri fenomeni fisici noti che sono, quantomeno, visivamente familiari agli esseri umani.
Se l'intelligenza artificiale generativa riuscisse a raggiungere questo traguardo, potrebbe essere in grado di produrre effetti visivi iperrealistici che raffigurano esplosioni, inondazioni ed eventi di collisione plausibili su più tipi di oggetti.
Se, d'altro canto, il sistema di intelligenza artificiale è stato semplicemente addestrato su migliaia (o centinaia di migliaia) di video che raffigurano tali eventi, potrebbe essere in grado di riprodurre i dati di addestramento in modo abbastanza convincente quando è stato addestrato su un dati simili puntano alla query di destinazione dell'utente; Ancora fallire se la query combina troppi concetti che, in tale combinazione, non sono affatto rappresentati nei dati.
Inoltre, queste limitazioni non sarebbero immediatamente evidenti, finché non si mettesse alla prova il sistema con combinazioni impegnative di questo tipo.
Ciò significa che un nuovo sistema generativo potrebbe essere in grado di generare contenuti video virali che, pur essendo impressionanti, possono creare una falsa impressione delle capacità e della profondità di comprensione del sistema, perché il compito che rappresenta non è una vera sfida per il sistema.
Ad esempio, un evento relativamente comune e ben diffuso, come 'un edificio viene demolito', potrebbe essere presente in più video in un set di dati utilizzato per addestrare un modello che si suppone abbia una certa comprensione della fisica. Pertanto, il modello potrebbe presumibilmente generalizzare bene questo concetto e persino produrre un output genuinamente nuovo entro i parametri appresi da numerosi video.
Questo è uno in distribuzione ad esempio, in cui il set di dati contiene molti esempi utili da cui il sistema di intelligenza artificiale può imparare.
Tuttavia, se si volesse fare un esempio più bizzarro o specioso, come "La Torre Eiffel è stata fatta saltare in aria dagli invasori alieni", il modello dovrebbe combinare diversi domini quali "proprietà metallurgiche", "caratteristiche delle esplosioni", "gravità", "resistenza al vento" e "astronavi aliene".
Questo è uno fuori distribuzione (OOD) esempio, che combina così tanti concetti intrecciati che il sistema probabilmente non riuscirà a generare un esempio convincente o passerà automaticamente all'esempio semantico più vicino su cui è stato addestrato, anche se tale esempio non aderisce al prompt dell'utente.
A parte il fatto che il set di dati sorgente del modello conteneva effetti visivi basati su CGI in stile hollywoodiano che raffiguravano lo stesso evento o un evento simile, una tale rappresentazione richiederebbe assolutamente di raggiungere una comprensione ben generalizzata e duttile delle leggi fisiche.
Vincoli fisici
Il nuovo documento, frutto della collaborazione tra Bytedance, Tsinghua University e Technion, suggerisce non solo che modelli come Sora non è un interiorizzano realmente le leggi fisiche deterministiche in questo modo, ma che l'aumento della scala dei dati (un approccio comune negli ultimi 18 mesi) sembra, nella maggior parte dei casi, non produrre alcun reale miglioramento in tal senso.
Il documento esplora non solo i limiti dell'estrapolazione di specifiche leggi fisiche, come il comportamento degli oggetti in movimento quando entrano in collisione o quando il loro percorso è ostruito, ma anche la capacità di un modello di generalizzazione combinatoria – casi in cui le rappresentazioni di due diversi principi fisici vengono fuse in un unico output generativo.
Un riassunto video del nuovo articolo. Fonte: https://x.com/bingyikang/status/1853635009611219019
Le tre leggi fisiche selezionate per lo studio dai ricercatori sono state moto parabolico; moto lineare uniforme, E Urto perfettamente elastico.
Come si può vedere nel video qui sopra, i risultati indicano che modelli come Sora non interiorizzano realmente le leggi fisiche, ma tendono a riprodurre i dati di addestramento.
Inoltre, gli autori hanno scoperto che aspetti quali colore e forma diventano così interconnessi al momento dell'inferenza che una palla generata probabilmente si trasformerebbe in un quadrato, apparentemente perché un movimento simile in un esempio di set di dati presentava un quadrato e non una palla (vedere l'esempio nel video incorporato sopra).
Il documento, che ha notevolmente impegnato il settore della ricerca sui social media, conclude:
"Il nostro studio suggerisce che il solo ridimensionamento non è sufficiente affinché i modelli di generazione video scoprano le leggi fisiche fondamentali, nonostante il suo ruolo nel più ampio successo di Sora...
"…[I risultati] indicano che il ridimensionamento da solo non può risolvere il problema OOD, sebbene migliori le prestazioni in altri scenari.
"La nostra analisi approfondita suggerisce che la generalizzazione del modello video si basa maggiormente sul riferimento a esempi di training simili piuttosto che sull'apprendimento di regole universali. Abbiamo osservato un ordine di priorità di colore > dimensione > velocità > forma in questo comportamento "basato sui casi".
"[Il nostro] studio suggerisce che un ridimensionamento ingenuo non è sufficiente affinché i modelli di generazione video scoprano le leggi fisiche fondamentali".
Alla domanda se il team di ricerca avesse trovato una soluzione al problema, uno degli autori dell'articolo ha commentato:
"Purtroppo no. In realtà, questa è probabilmente la missione dell'intera comunità dell'intelligenza artificiale."
Metodo e dati
I ricercatori hanno utilizzato a Autoencoder variazionale (VAE) e DiT architetture per generare campioni video. In questa configurazione, il compresso rappresentazioni latenti prodotto dal lavoro VAE in tandem con la modellazione di DiT del denoising
I video sono stati addestrati su Stable Diffusion V1.5-VAE. Lo schema è rimasto sostanzialmente invariato, con solo miglioramenti architettonici di fine processo:
"[Manteniamo] la maggior parte della convoluzione 2D originale, della normalizzazione di gruppo e dei meccanismi di attenzione sulle dimensioni spaziali.
Per trasformare questa struttura in un auto-encoder spazio-temporale, convertiamo gli ultimi blocchi di downsample 2D del codificatore e i primi blocchi di upsample 2D del decodificatore in blocchi 3D e utilizziamo più livelli 1D aggiuntivi per migliorare la modellazione temporale.
Per consentire la modellazione video, il VAE modificato è stato addestrato congiuntamente con dati video e immagini HQ, con il componente 2D Generative Adversarial Network (GAN) nativo dell'architettura SD1.5 potenziato per il 3D.
Il set di dati delle immagini utilizzato era la fonte originale di Stable Diffusion, LAION-Estetica, con filtraggio, oltre a Compressa datiPer i dati video, è stato selezionato un sottoinsieme da Vimeo-90K, Panda-70m e HDVG set di dati.
I dati sono stati addestrati per un milione di passaggi, con ritaglio ridimensionato casuale e capovolgimento orizzontale casuale applicato come aumento dei dati processi.
Flipping
Come notato sopra, l'aumento dei dati di ribaltamento orizzontale casuale processi può essere una responsabilità nell'addestramento di un sistema progettato per produrre un movimento autentico. Questo perché l'output del modello addestrato può considerare entrambi direzioni di un oggetto e causano inversioni casuali nel tentativo di negoziare questi dati contrastanti (vedere il video incorporato sopra).
D'altra parte, se si gira in orizzontale, capovolgendosi MENO, è quindi più probabile che il modello produca un output che aderisca a una sola direzione appreso dai dati di addestramento.
Quindi non esiste una soluzione semplice al problema, se non che il sistema assimili veramente tutte le possibilità di movimento sia dalla versione nativa che da quella capovolta, una capacità che i bambini sviluppano facilmente, ma che rappresenta una sfida maggiore, a quanto pare, per i modelli di intelligenza artificiale.
Test
Per la prima serie di esperimenti, i ricercatori hanno formulato un simulatore 2D per produrre video di movimento di oggetti e collisioni che sono in accordo con le leggi della meccanica classica, che hanno fornito un set di dati ad alto volume e controllato che escludeva le ambiguità dei video del mondo reale, per la valutazione dei modelli. Scatola2D Per creare questi video è stato utilizzato un motore di gioco fisico.
I test si sono concentrati sui tre scenari fondamentali sopra elencati: moto lineare uniforme, urti perfettamente elastici e moto parabolico.
Sono stati utilizzati set di dati di dimensioni crescenti (da 30,000 a tre milioni di video) per addestrare modelli di diverse dimensioni e complessità (da DiT-S a DiT-L), utilizzando per il condizionamento i primi tre fotogrammi di ciascun video.

Dettagli dei diversi modelli addestrati nella prima serie di esperimenti. Fonte: https://arxiv.org/pdf/2411.02385
I ricercatori hanno scoperto che i risultati in distribuzione (ID) erano ben scalabili con quantità crescenti di dati, mentre le generazioni OOD non miglioravano, il che indica carenze nella generalizzazione.

Risultati del primo ciclo di test.
Gli autori notano:
"Questi risultati suggeriscono l'incapacità della scalabilità di eseguire il ragionamento negli scenari OOD".
Successivamente, i ricercatori hanno testato e addestrato sistemi progettati per dimostrare una certa competenza nella generalizzazione combinatoria, in cui due movimenti contrastanti vengono combinati per produrre (si spera) un movimento coeso che sia fedele alla legge fisica alla base di ciascuno dei singoli movimenti.
Per questa fase dei test, gli autori hanno utilizzato il FIRE simulatore, che crea un ambiente 2D che raffigura oggetti multipli e di forma diversa in caduta libera, che si scontrano tra loro in una serie di interazioni complesse.
Le metriche di valutazione per questo secondo test sono state Distanza video Fréchet (DVD); Indice di similarità strutturale (SIM); Rapporto segnale/rumore di picco (PSNR); Metriche di similarità percettiva apprese (LPIPS); e uno studio sull'uomo (contrassegnato come "anormale" nei risultati).
Sono state create tre scale di set di dati di training, a 100,000 video, 0.6 milioni di video e 3-6 milioni di video. Sono stati utilizzati modelli DiT-B e DiT-XL, a causa della maggiore complessità dei video, con il primo frame utilizzato per il condizionamento.
I modelli sono stati addestrati per un milione di passaggi con una risoluzione di 256×256, con 32 fotogrammi per video.

Risultati del secondo turno di test.
Il risultato di questo test suggerisce che il semplice aumento del volume dei dati è un approccio inadeguato:
Il documento afferma:
"Questi risultati suggeriscono che sia la capacità del modello che la copertura dello spazio di combinazione sono cruciali per la generalizzazione combinatoria. Questa intuizione implica che le leggi di scala per la generazione di video dovrebbero concentrarsi sull'aumento della diversità delle combinazioni, piuttosto che sul semplice aumento del volume di dati."
Infine, i ricercatori hanno condotto ulteriori test per cercare di determinare se un modello di generazione video possa realmente assimilare le leggi fisiche o se si limiti a memorizzare e riprodurre i dati di addestramento al momento dell'inferenza.
Qui hanno esaminato il concetto di generalizzazione "basata sui casi", in cui i modelli tendono a imitare specifici esempi di addestramento quando si confrontano con situazioni nuove, oltre ad esaminare esempi di moto uniforme, in particolare come la direzione del moto nei dati di addestramento influenza le previsioni del modello addestrato.
Due set di dati di addestramento, per moto uniforme e collisione, sono stati curati, ciascuno composto da video di moto uniforme che raffigurano velocità comprese tra 2.5 e 4 unità, con i primi tre fotogrammi utilizzati come condizionamento. Valori latenti come velocità sono stati omessi e, dopo l'addestramento, i test sono stati eseguiti sia su scenari visibili che non visibili.
Di seguito vediamo i risultati del test per la generazione del moto uniforme:

Risultati dei test per la generazione di moto uniforme, in cui la variabile "velocità" viene omessa durante l'addestramento.
Gli autori affermano:
"[Con] un ampio divario nel set di addestramento, il modello tende a generare video in cui la velocità è alta o bassa per assomigliare ai dati di addestramento quando i frame iniziali mostrano velocità di medio raggio."
Per i test di collisione sono coinvolte molte più variabili e il modello deve apprendere un modello bidimensionale funzione non lineare.

Collisione: risultati del terzo e ultimo round di test.
Gli autori osservano che la presenza di esempi "ingannevoli", come il moto inverso (ad esempio, una palla che rimbalza su una superficie e inverte la sua traiettoria), può fuorviare il modello e indurlo a generare previsioni fisicamente errate.
Conclusione
Se un algoritmo non AI (vale a dire, un metodo procedurale "cotto") contiene regole matematiche per il comportamento di fenomeni fisici quali fluidi o oggetti sottoposti a gravità o pressione, esiste una serie di costanti immutabili disponibili per una rappresentazione accurata.
Tuttavia, i risultati del nuovo articolo indicano che durante l'addestramento dei modelli generativi non si sviluppa alcuna relazione equivalente o comprensione intrinseca delle leggi fisiche classiche e che l'aumento delle quantità di dati non risolve il problema, ma piuttosto lo oscura, perché è disponibile un numero maggiore di video di addestramento che il sistema può imitare al momento dell'inferenza.
* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.
Prima pubblicazione martedì 26 novembre 2024












