Intelligence artificielle
Les modèles de monde IA peuvent-ils vraiment comprendre les lois physiques ?

Le grand espoir pour les modèles d’IA de vision-langage est qu’ils deviendront un jour capables d’une plus grande autonomie et polyvalence, en incorporant les principes des lois physiques de la même manière que nous développons une compréhension innée de ces principes à travers l’expérience précoce.
Par exemple, les jeux de ballon des enfants tendent à développer une compréhension de la cinétique du mouvement, et de l’effet du poids et de la texture de la surface sur la trajectoire. De même, les interactions avec des scénarios courants tels que les bains, les boissons renversées, l’océan, les piscines et d’autres corps liquides diversifiés instilleront en nous une compréhension polyvalente et évolutiva de la façon dont les liquides se comportent sous la gravité.
Même les postulats de phénomènes moins courants – tels que la combustion, les explosions et la distribution du poids architectural sous pression – sont absorbés inconsciemment à travers l’exposition aux programmes de télévision et aux films, ou aux vidéos de médias sociaux.
Lorsque nous étudions les principes behind ces systèmes, à un niveau académique, nous ne faisons que « rétroéquiper » nos modèles mentaux intuitifs (mais non informés) d’eux.
Maitres d’un
Actuellement, la plupart des modèles d’IA sont, par contraste, plus « spécialisés », et beaucoup d’entre eux sont soit affinés ou formés à partir de zéro sur des jeux de données d’images ou de vidéos qui sont quite spécifiques à certains cas d’utilisation, plutôt que conçus pour développer une telle compréhension générale des lois gouvernantes.
D’autres peuvent présenter l’apparence d’une compréhension des lois physiques ; mais ils peuvent en fait reproduire des échantillons de leurs données de formation, plutôt que de vraiment comprendre les bases de domaines tels que la physique du mouvement d’une manière qui peut produire des dépeints vraiment novateurs (et scientifiquement plausibles) à partir des invites des utilisateurs.
À ce moment délicat de la productisation et de la commercialisation des systèmes d’IA génératifs, il est laissé à nous, et à l’examen des investisseurs, de distinguer le marketing habile de nouveaux modèles d’IA de la réalité de leurs limites.
L’un des papiers les plus intéressants de novembre, mené par Bytedance Research, a abordé ce problème, en explorant l’écart entre les capacités apparentes et réelles de modèles génératifs « tout usage » tels que Sora.
Les travaux ont conclu que, à l’état actuel de l’art, la sortie générée de modèles de ce type est plus susceptible de s’imiter des exemples de leurs données de formation que de vraiment démontrer une compréhension complète des contraintes physiques sous-jacentes qui opèrent dans le monde réel.
Le papier indique* :
‘[Ces] modèles peuvent être facilement biaisés par des exemples “trompeurs” de l’ensemble de formation, les amenant à généraliser de manière “basée sur les cas” dans certaines conditions. Ce phénomène, également observé dans les grands modèles de langage, décrit la tendance d’un modèle à référencer des cas de formation similaires lors de la résolution de nouvelles tâches.
‘Par exemple, considérez un modèle de vidéo formé sur des données d’une balle en mouvement à grande vitesse en mouvement linéaire uniforme. Si une augmentation de données est effectuée en inversant horizontalement les vidéos, en introduisant ainsi un mouvement à sens inverse, le modèle peut générer un scénario dans lequel une balle à faible vitesse inverse sa direction après les premiers cadres, même si ce comportement n’est pas physiquement correct.’
Nous allons examiner de plus près le papier – intitulé Évaluation des modèles de monde avec LLM pour la prise de décision – plus tard. Mais d’abord, regardons les antécédents de ces limitations apparentes.
Mémoire des choses passées
Sans généralisation, un modèle d’IA formé est peu plus qu’un coûteux tableau de références à des sections de ses données de formation : trouver le terme de recherche approprié, et vous pouvez invoquer une instance de ces données.
Dans ce scénario, le modèle agit effectivement comme un « moteur de recherche neuronal », puisqu’il ne peut produire des interprétations abstraites ou « créatives » de la sortie souhaitée, mais reproduit plutôt une variation mineure des données qu’il a vues pendant le processus de formation.
Ceci est connu sous le nom de mémorisation – un problème controversé qui surgit parce que les modèles d’IA vraiment ductiles et interprétables tendent à manquer de détails, tandis que les modèles vraiment détaillés tendent à manquer d’originalité et de flexibilité.
La capacité des modèles affectés par la mémorisation à reproduire des données de formation est un obstacle juridique potentiel, dans les cas où les créateurs du modèle n’avaient pas les droits non grevés pour utiliser ces données ; et où les avantages de ces données peuvent être démontrés à travers un nombre croissant de méthodes d’extraction.
En raison de la mémorisation, des traces de données non autorisées peuvent persister, enchaînées, à travers plusieurs systèmes de formation, comme une marque d’eau indélébile et non intentionnelle – même dans des projets où le praticien de l’apprentissage automatique a pris soin de s’assurer que des données « sûres » sont utilisées.
Modèles de monde
Cependant, le problème d’utilisation central avec la mémorisation est qu’il tend à transmettre l’illusion d’intelligence, ou suggérer que le modèle d’IA a généralisé des lois ou des domaines fondamentaux, alors qu’en fait c’est le grand volume de données mémorisées qui fournit cette illusion (c’est-à-dire que le modèle a tellement d’exemples de données potentiels à choisir qu’il est difficile pour un humain de déterminer s’il est en train de régurgiter du contenu appris ou s’il a une compréhension vraiment abstraite des concepts impliqués dans la génération).
Ce problème a des ramifications pour l’intérêt croissant pour les modèles de monde – la perspective de systèmes d’IA hautement diversifiés et coûteusement formés qui incorporent plusieurs lois connues, et sont richement explorables.
Les modèles de monde sont d’un intérêt particulier dans l’espace de l’image et de la vidéo génératives. En 2023, RunwayML a lancé une initiative de recherche sur le développement et la faisabilité de tels modèles ; DeepMind a récemment embauché l’un des créateurs du célèbre modèle de vidéo générative Sora pour travailler sur un modèle de ce type ; et des startups telles que Higgsfield investissent considérablement dans les modèles de monde pour la synthèse d’images et de vidéos.
Combinaisons difficiles
L’une des promesses des nouvelles avancées dans les systèmes d’IA génératifs de vidéos est la perspective qu’ils peuvent apprendre les lois physiques fondamentales, telles que le mouvement, la cinématique humaine (telle que les caractéristiques de la démarche), la dynamique des fluides, et d’autres phénomènes physiques connus qui sont, à tout le moins, visuellement familiers aux humains.
Si l’IA générative peut atteindre ce jalon, elle pourrait devenir capable de produire des effets visuels hyper-réalistes qui dépeignent des explosions, des inondations et des événements de collision plausibles à travers plusieurs types d’objets.
Si, d’un autre côté, le système d’IA a simplement été formé sur des milliers (ou des centaines de milliers) de vidéos dépeignant de tels événements, il pourrait être capable de reproduire les données de formation de manière convaincante lorsqu’il est formé sur un point de données similaire à la requête cible de l’utilisateur ; mais échouer si la requête combine trop de concepts qui, dans une telle combinaison, ne sont pas représentés dans les données.
De plus, ces limitations ne seraient pas immédiatement apparentes, jusqu’à ce que l’on pousse le système avec des combinaisons de ce type difficiles.
Cela signifie qu’un nouveau système génératif peut être capable de générer du contenu vidéo viral qui, bien que impressionnant, peut créer une fausse impression des capacités et de la profondeur de compréhension du système, car la tâche qu’il représente n’est pas un véritable défi pour le système.
Par exemple, un événement relativement courant et bien diffusé, tel que ‘un bâtiment est détruit’, pourrait être présent dans plusieurs vidéos dans un ensemble de données utilisé pour former un modèle qui est censé avoir une certaine compréhension de la physique. Par conséquent, le modèle pourrait présumément généraliser ce concept bien, et même produire une sortie vraiment novatrice dans les paramètres appris à partir de vidéos abondantes.
Ceci est un exemple en distribution, où l’ensemble de données contient de nombreux exemples utiles pour que le système d’IA apprenne.
Cependant, si l’on demande un exemple plus bizarre ou spéculatif, tel que ‘La tour Eiffel est détruite par des envahisseurs extraterrestres’, le modèle devrait combiner des domaines divers tels que « propriétés métallurgiques », « caractéristiques des explosions », « gravité », « résistance au vent » – et « vaisseau spatial extraterrestre ».
Ceci est un exemple hors distribution (OOD), qui combine autant de concepts entrelacés que le système sera probablement soit incapable de générer un exemple convaincant, soit défaillira à l’exemple sémantique le plus proche sur lequel il a été formé – même si cet exemple n’obéit pas à la requête de l’utilisateur.
À moins que l’ensemble de données source du modèle ne contienne des effets visuels CGI basés sur des films hollywoodiens dépeignant le même ou un événement similaire, une telle dépeinture nécessiterait absolument que le modèle atteigne une compréhension bien généralisée et ductile des lois physiques.
Contraintes physiques
Le nouveau papier – une collaboration entre Bytedance, l’Université Tsinghua et le Technion – suggère non seulement que des modèles tels que Sora ne réellement internalisent pas les lois physiques déterministes de cette manière, mais que la mise à l’échelle des données (une approche courante au cours des 18 derniers mois) semble, dans la plupart des cas, ne produire aucune amélioration réelle à cet égard.
Le papier explore non seulement les limites de l’extrapolation de lois physiques spécifiques – telles que le comportement des objets en mouvement lorsqu’ils entrent en collision, ou lorsque leur trajectoire est obstruée – mais également la capacité d’un modèle à généralisation combinatoire – des instances où les représentations de deux principes physiques différents sont fusionnées en une seule sortie générative.
Une vidéo résumant le nouveau papier. Source: https://x.com/bingyikang/status/1853635009611219019
Les trois lois physiques sélectionnées pour l’étude par les chercheurs étaient le mouvement parabolique ; le mouvement linéaire uniforme ; et la collision parfaitement élastique.
Comme on peut le voir dans la vidéo ci-dessus, les résultats indiquent que des modèles tels que Sora ne réellement internalisent pas les lois physiques, mais tendent à reproduire les données de formation.
De plus, les auteurs ont constaté que des aspects tels que la couleur et la forme deviennent si entrelacés au moment de l’inférence que une balle générée pourrait probablement se transformer en carré, apparemment parce qu’un mouvement similaire dans un exemple de données mettait en scène un carré et non une balle (voir exemple dans la vidéo ci-dessus).
Le papier, qui a notablement engagé le secteur de la recherche sur les médias sociaux, conclut :
‘Notre étude suggère que la mise à l’échelle seule est insuffisante pour que les modèles de génération de vidéos découvrent les lois physiques fondamentales, malgré son rôle dans le succès plus large de Sora…
‘…[Les résultats] indiquent que la mise à l’échelle seule ne peut pas résoudre le problème OOD, même si elle améliore les performances dans d’autres scénarios.
‘Notre analyse approfondie suggère que la généralisation du modèle de vidéo repose davantage sur la référence à des exemples de formation similaires plutôt que sur l’apprentissage de règles universelles. Nous avons observé une priorisation de l’ordre de la couleur > de la taille > de la vitesse > de la forme dans ce comportement “basé sur les cas”.
‘[Notre] étude suggère que la mise à l’échelle naïve est insuffisante pour que les modèles de génération de vidéos découvrent les lois physiques fondamentales.’
Lorsqu’on a demandé à l’équipe de recherche si elle avait trouvé une solution au problème, l’un des auteurs du papier a commenté :
‘Malheureusement, nous n’avons pas. En fait, c’est probablement la mission de l’ensemble de la communauté de l’IA.’
Méthode et données
Les chercheurs ont utilisé un Variational Autoencoder (VAE) et des architectures DiT pour générer des échantillons de vidéos. Dans cette configuration, les représentations latentes compressées produites par le VAE fonctionnent en tandem avec la modélisation du processus de débruitage de DiT.
Les vidéos ont été formées sur le VAE Stable Diffusion V1.5. Le schéma a été laissé fondamentalement inchangé, avec seulement des améliorations architecturales de fin de processus :
‘[Nous conservons] la majorité des convolutions 2D originales, de la normalisation de groupe et des mécanismes d’attention sur les dimensions spatiales.
‘Pour gonfler cette structure en un auto-encodeur spatial-temporel, nous convertissons les derniers blocs de downsampling 2D de l’encodeur et les premiers blocs de upsampling 2D du décodeur en 3D, et employons plusieurs couches 1D supplémentaires pour améliorer la modélisation temporelle.’
Afin de permettre la modélisation de vidéos, le VAE modifié a été formé conjointement avec des données d’images et de vidéos HQ, avec le composant GAN 2D natif de l’architecture SD1.5 augmenté pour 3D.
L’ensemble de données d’images utilisé était la source originale de Stable Diffusion, LAION-Aesthetics, avec un filtrage, en plus de DataComp. Pour les données de vidéos, un sous-ensemble a été sélectionné à partir des ensembles de données Vimeo-90K, Panda-70m et HDVG.
Les données ont été formées pendant un million d’étapes, avec une réduction aléatoire et une inversion horizontale aléatoire appliquées en tant que processus d’augmentation de données.
Flipping Out
Comme mentionné précédemment, le processus d’augmentation de données d’inversion horizontale aléatoire peut être une contrainte pour la formation d’un système conçu pour produire un mouvement authentique. C’est parce que la sortie du modèle formé peut prendre en compte les deux directions d’un objet, et provoquer des inversions aléatoires lorsqu’il tente de négocier ces données contradictoires (voir la vidéo ci-dessus).
D’un autre côté, si l’on désactive l’inversion horizontale, le modèle est alors plus susceptible de produire une sortie qui se conforme à une seule direction apprise à partir des données de formation.
Il n’y a donc pas de solution facile au problème, sauf si le système vraiment assimile l’ensemble des possibilités de mouvement à partir des versions natives et inversées – une facilité que les enfants développent facilement, mais qui est plus difficile, apparemment, pour les modèles d’IA.
Tests
Pour la première série d’expériences, les chercheurs ont conçu un simulateur 2D pour produire des vidéos de mouvement d’objets et de collisions qui s’accordent avec les lois de la mécanique classique, ce qui a fourni un grand volume et un ensemble de données contrôlées qui excluent les ambiguïtés des vidéos du monde réel, pour l’évaluation des modèles. Le moteur de jeu de physique Box2D a été utilisé pour créer ces vidéos.
Les trois scénarios fondamentaux mentionnés ci-dessus ont été l’objet des tests : le mouvement linéaire uniforme, les collisions parfaitement élastiques et le mouvement parabolique.
Des ensembles de données de tailles croissantes (allant de 30 000 à trois millions de vidéos) ont été utilisés pour former des modèles de tailles et de complexités différentes (DiT-S à DiT-L), avec les trois premiers cadres de chaque vidéo utilisés pour la condition.

Détails des modèles variés formés dans la première série d’expériences. Source: https://arxiv.org/pdf/2411.02385
Les chercheurs ont constaté que les résultats en distribution (ID) ont bien évolué avec l’augmentation de la quantité de données, tandis que les générations OOD n’ont pas amélioré, indiquant des lacunes dans la généralisation.

Résultats de la première série de tests.
Les auteurs notent :
‘Ces résultats suggèrent l’incapacité de la mise à l’échelle à effectuer un raisonnement dans les scénarios OOD.’
Ensuite, les chercheurs ont testé et formé des systèmes conçus pour exhiber une compétence pour la généralisation combinatoire, dans laquelle deux mouvements contrastés sont combinés pour (espérons-le) produire un mouvement cohérent qui est fidèle à la loi physique derrière chacun des mouvements séparés.
Pour cette phase des tests, les auteurs ont utilisé le simulateur PHYRE, créant un environnement 2D qui représente plusieurs objets de formes diverses en chute libre, entrant en collision les uns avec les autres dans diverses interactions complexes.
Les métriques d’évaluation pour ce deuxième test étaient Fréchet Video Distance (FVD) ; Structural Similarity Index (SSIM) ; Peak Signal-to-Noise Ratio (PSNR) ; Learned Perceptual Similarity Metrics (LPIPS) ; et une étude humaine (dénommée « anormale » dans les résultats).
Trois échelles de jeux de données de formation ont été créées, à 100 000 vidéos, 0,6 million de vidéos et 3-6 millions de vidéos. Des modèles DiT-B et DiT-XL ont été utilisés, en raison de la complexité accrue des vidéos, avec le premier cadre utilisé pour la condition.
Les modèles ont été formés pendant un million d’étapes à une résolution de 256×256, avec 32 cadres par vidéo.

Résultats de la deuxième série de tests.
Le résultat de ce test suggère que l’augmentation simple du volume de données est une approche inadéquate :
Le papier indique :
‘Ces résultats suggèrent que la capacité du modèle et la couverture de l’espace de combinaison sont cruciales pour la généralisation combinatoire. Cette intuition implique que les lois de mise à l’échelle pour la génération de vidéos devraient se concentrer sur l’augmentation de la diversité des combinaisons, plutôt que de simplement augmenter le volume de données.’
Enfin, les chercheurs ont mené d’autres tests pour tenter de déterminer si un modèle de génération de vidéos peut vraiment assimiler les lois physiques, ou s’il se contente de mémoriser et de reproduire les données de formation au moment de l’inférence.
Ici, ils ont examiné le concept de « généralisation basée sur les cas », où les modèles tendent à imiter des exemples de formation spécifiques lorsqu’ils sont confrontés à de nouvelles situations, ainsi que des exemples de mouvement uniforme – notamment, comment la direction du mouvement dans les données de formation influence les prédictions du modèle formé.
Deux ensembles de données de formation, pour mouvement uniforme et collision, ont été sélectionnés, chacun consistant en des vidéos de mouvement uniforme représentant des vitesses comprises entre 2,5 et 4 unités, avec les trois premiers cadres utilisés comme condition. Des valeurs latentes telles que vitesse ont été omises, et, après la formation, des tests ont été effectués sur des scénarios vus et non vus.
Ci-dessous, nous voyons les résultats pour le test de génération de mouvement uniforme :

Résultats pour les tests de génération de mouvement uniforme, où la variable ‘vitesse’ est omise pendant la formation.
Les auteurs indiquent :
‘[Avec] un grand écart dans l’ensemble de formation, le modèle tend à générer des vidéos où la vitesse est soit élevée, soit faible pour ressembler aux données de formation lorsque les premiers cadres montrent des vitesses dans la plage moyenne.’
Pour les tests de collision, bien plus de variables sont impliquées, et le modèle doit apprendre une fonction non linéaire à deux dimensions.

Collision : résultats de la troisième et dernière série de tests.
Les auteurs observent que la présence d’exemples « trompeurs », tels que le mouvement inversé (c’est-à-dire une balle qui rebondit sur une surface et inverse sa trajectoire), peut induire le modèle en erreur et le faire générer des prédictions physiquement incorrectes.
Conclusion
Si un algorithme non-IA (c’est-à-dire une méthode « cuite », procédurale) contient des règles mathématiques pour le comportement de phénomènes physiques tels que les fluides, ou les objets sous la gravité, ou sous pression, il existe un ensemble de constantes inchangeables disponibles pour un rendu précis.
Cependant, les résultats de la nouvelle étude indiquent qu’aucune relation équivalente ou compréhension intrinsèque des lois physiques classiques n’est développée pendant la formation des modèles génératifs, et que l’augmentation de la quantité de données ne résout pas le problème, mais l’obscurcit plutôt – car un plus grand nombre de vidéos de formation sont disponibles pour que le système les imite au moment de l’inférence.
* Ma conversion des citations en ligne des auteurs en liens hypertexte.
Publié pour la première fois mardi 26 novembre 2024












