Intelligence Artificielle

Les modèles mondiaux de l’IA peuvent-ils vraiment comprendre les lois physiques ?

Publié 26 novembre 2024

Martin Anderson

Image produite par ChatGPT-4o, représentant divers objets présentant des propriétés physiques aberrantes. Le sujet a été développé de manière conversationnelle

Le grand espoir pour les modèles d’IA vision-langage est qu’ils deviendront un jour capables d’une plus grande autonomie et polyvalence, intégrant les principes des lois physiques de la même manière que nous développons une compréhension innée de ces principes grâce à l’expérience précoce.

Par exemple, les jeux de balle des enfants ont tendance à développer une compréhension de la cinétique du mouvement, et de l'effet du poids et de la texture de la surface sur la trajectoire. De même, les interactions avec des scénarios courants tels que les bains, les boissons renversées, l'océan, les piscines et d'autres corps liquides divers nous inculqueront une compréhension polyvalente et évolutive de la manière dont les liquides se comportent sous l'effet de la gravité.

Même les postulats de phénomènes moins courants – tels que la combustion, les explosions et la répartition du poids architectural sous pression – sont inconsciemment absorbés par l’exposition à des programmes télévisés et à des films, ou à des vidéos sur les réseaux sociaux.

Au moment où nous étudions le accompagnant Derrière ces systèmes, au niveau académique, nous ne faisons que « moderniser » nos modèles mentaux intuitifs (mais non informés) de ces systèmes.

Maîtres de l'Un

Actuellement, la plupart des modèles d’IA sont, en revanche, plus « spécialisés », et beaucoup d’entre eux sont soit affiné ou formés à partir de zéro sur des ensembles de données d'images ou de vidéos qui sont assez spécifiques à certains cas d'utilisation, plutôt que conçus pour développer une compréhension aussi générale des lois en vigueur.

D'autres peuvent présenter le apparence d'une compréhension des lois physiques ; mais ils peuvent en fait reproduire des échantillons de leurs données d'entraînement, plutôt que de vraiment comprendre les bases de domaines tels que la physique du mouvement d'une manière qui peut produire des représentations vraiment nouvelles (et scientifiquement plausibles) à partir des invites des utilisateurs.

À ce moment délicat de la productisation et de la commercialisation des systèmes d’IA génératifs, il nous appartient, ainsi qu’à l’examen minutieux des investisseurs, de distinguer le marketing artisanal des nouveaux modèles d’IA de la réalité de leurs limites.

L'un des mois de novembre les articles les plus intéressants, dirigé par Bytedance Research, s'est attaqué à cette question, en explorant l'écart entre les capacités apparentes et réelles des modèles génératifs « polyvalents » tels que Sora.

Les travaux ont conclu qu'à l'état actuel de la technique, les résultats générés par des modèles de ce type sont plus susceptibles d'être Exemples de singes issus de leurs données de formation plutôt que de démontrer réellement une compréhension complète des contraintes physiques sous-jacentes qui opèrent dans le monde réel.

Le papier précise* :

« [Ces] modèles peuvent être facilement biaisés par des exemples « trompeurs » issus de l’ensemble d’entraînement, ce qui les conduit à généraliser de manière « fondée sur des cas » dans certaines conditions. Ce phénomène, également observée dans les grands modèles de langage, décrit la tendance d'un modèle à référencer des cas de formation similaires lors de la résolution de nouvelles tâches.

Prenons par exemple un modèle vidéo entraîné à partir des données d'une balle à grande vitesse se déplaçant selon un mouvement linéaire uniforme. Si l'augmentation des données est réalisée en retournant horizontalement les vidéos, introduisant ainsi un mouvement en sens inverse, le modèle peut générer un scénario dans lequel une balle à faible vitesse change de direction après les premières images, même si ce comportement n'est pas physiquement correct.

Nous allons examiner de plus près le document intitulé Évaluation des modèles mondiaux avec LLM pour la prise de décision – brièvement. Mais examinons d'abord le contexte de ces limitations apparentes.

Souvenir des choses passées

Sans généralisation, un modèle d’IA entraîné n’est guère plus qu’une feuille de calcul coûteuse de références à des sections de ses données d’entraînement : trouvez le terme de recherche approprié et vous pouvez invoquer une instance de ces données.

Dans ce scénario, le modèle agit effectivement comme un « moteur de recherche neuronal », car il ne peut pas produire d'interprétations abstraites ou « créatives » du résultat souhaité, mais à la place reproduit quelques variations mineures des données qu’il a vues pendant le processus de formation.

Ceci est connu comme mémorisation – un problème controversé qui survient parce que les modèles d’IA véritablement ductiles et interprétatifs ont tendance à manquer de détails, tandis que les modèles véritablement détaillés ont tendance à manquer d’originalité et de flexibilité.

La capacité des modèles affectés par la mémorisation à reproduire les données d'entraînement constitue un obstacle juridique potentiel, dans les cas où les créateurs du modèle ne disposaient pas de droits inconditionnels pour utiliser ces données ; et où les avantages de ces données peuvent être démontrés par un nombre croissant de méthodes d'extraction.

En raison de la mémorisation, des traces de données non autorisées peuvent persister, enchaîné, à travers de multiples systèmes de formation, comme un filigrane indélébile et involontaire – même dans les projets où le praticien de l'apprentissage automatique a pris soin de garantir que des données « sûres » sont utilisées.

Modèles du monde

Cependant, le problème central de l'utilisation de la mémorisation est qu'elle tend à transmettre l' illusion d'intelligence, ou suggérer que le modèle d’IA a généralisé des lois ou des domaines fondamentaux, alors qu’en fait c’est le volume élevé de données mémorisées qui fournit cette illusion (c’est-à-dire que le modèle a tellement d’exemples de données potentiels parmi lesquels choisir qu’il est difficile pour un humain de dire s’il régurgite du contenu appris ou s’il a une compréhension véritablement abstraite des concepts impliqués dans la génération).

Cette question a des répercussions sur l’intérêt croissant pour modèles du monde – la perspective de systèmes d’IA extrêmement diversifiés et coûteux à former, qui intègrent de multiples lois connues et sont richement explorables.

Les modèles mondiaux présentent un intérêt particulier dans l'espace génératif de l'image et de la vidéo. En 2023, RunwayML a lancé une initiative de recherche dans le développement et la faisabilité de tels modèles ; DeepMind a récemment embauché l'un des créateurs de la célèbre vidéo générative Sora pour travailler sur un modèle de ce type ; et les startups comme Higgsfield investissent massivement dans des modèles mondiaux de synthèse d’images et de vidéos.

Combinaisons difficiles

L’une des promesses des nouveaux développements dans les systèmes d’IA vidéo générative est la perspective qu’ils puissent apprendre les lois physiques fondamentales, telles que le mouvement, la cinématique humaine (comme caractéristiques de la démarche), dynamique des fluides, et d’autres phénomènes physiques connus qui sont, à tout le moins, visuellement familiers aux humains.

Si l’IA générative pouvait franchir cette étape, elle pourrait devenir capable de produire des effets visuels hyperréalistes représentant des explosions, des inondations et des collisions plausibles sur plusieurs types d’objets.

Si, d'un autre côté, le système d'IA a simplement été formé sur des milliers (ou des centaines de milliers) de vidéos décrivant de tels événements, il pourrait être capable de reproduire les données de formation de manière assez convaincante lorsqu'il a été formé sur une des données similaires pointent vers la requête cible de l'utilisateur; encore échouer si la requête combine trop de concepts qui, dans une telle combinaison, ne sont pas du tout représentés dans les données.

De plus, ces limitations ne seraient pas immédiatement apparentes, jusqu’à ce que l’on pousse le système avec des combinaisons difficiles de ce type.

Cela signifie qu'un nouveau système génératif pourrait être capable de générer du contenu vidéo viral qui, bien qu'impressionnant, peut créer une fausse impression des capacités du système et de la profondeur de compréhension, car la tâche qu'il représente ne constitue pas un véritable défi pour le système.

Par exemple, un événement relativement courant et bien diffusé, tel que « un bâtiment est démoli », pourrait être présent dans plusieurs vidéos dans un ensemble de données utilisé pour entraîner un modèle censé avoir une certaine compréhension de la physique. Par conséquent, le modèle pourrait vraisemblablement bien généraliser ce concept, et même produire des résultats véritablement nouveaux dans le cadre des paramètres appris à partir de vidéos abondantes.

C'est un en distribution exemple, où l’ensemble de données contient de nombreux exemples utiles à partir desquels le système d’IA peut apprendre.

Cependant, si l’on demandait un exemple plus bizarre ou plus spécieux, comme « La Tour Eiffel est détruite par des extraterrestres », le modèle devrait être capable de combiner divers domaines tels que les « propriétés métallurgiques », les « caractéristiques des explosions », la « gravité », la « résistance au vent » et les « vaisseaux spatiaux extraterrestres ».

C'est un hors distribution (OOD) exemple, qui combine tellement de concepts intriqués que le système ne parviendra probablement pas à générer un exemple convaincant ou reviendra par défaut à l'exemple sémantique le plus proche sur lequel il a été formé, même si cet exemple ne répond pas à l'invite de l'utilisateur.

À l’exception du fait que l’ensemble de données source du modèle contenait des effets visuels basés sur des images de synthèse de style hollywoodien représentant le même événement ou un événement similaire, une telle représentation nécessiterait absolument qu’elle parvienne à une compréhension bien généralisée et ductile des lois physiques.

Contraintes physiques

Le nouveau document – une collaboration entre Bytedance, l’Université Tsinghua et Technion – suggère non seulement que des modèles tels que Sora mais Les chercheurs internalisent réellement les lois physiques déterministes de cette manière, mais la mise à l’échelle des données (une approche courante au cours des 18 derniers mois) semble, dans la plupart des cas, ne produire aucune amélioration réelle à cet égard.

L'article explore non seulement les limites de l'extrapolation de lois physiques spécifiques – telles que le comportement des objets en mouvement lorsqu'ils entrent en collision ou lorsque leur trajectoire est obstruée – mais aussi la capacité d'un modèle à généralisation combinatoire – cas où les représentations de deux principes physiques différents sont fusionnées en une seule sortie générative.

Un résumé vidéo du nouveau document. Source : https://x.com/bingyikang/status/1853635009611219019

Les trois lois physiques choisies pour l’étude par les chercheurs étaient mouvement parabolique; mouvement linéaire uniformeet collision parfaitement élastique.

Comme on peut le voir dans la vidéo ci-dessus, les résultats indiquent que les modèles tels que Sora n’internalisent pas vraiment les lois physiques, mais ont tendance à reproduire les données d’entraînement.

De plus, les auteurs ont découvert que des facettes telles que la couleur et la forme deviennent si étroitement liées au moment de l'inférence qu'une balle générée se transformerait probablement en carré, apparemment parce qu'un mouvement similaire dans un exemple d'ensemble de données présentait un carré et non une balle (voir l'exemple dans la vidéo intégrée ci-dessus).

Le document, qui a particulièrement engagé le secteur de la recherche sur les médias sociaux, conclut :

« Notre étude suggère que la mise à l'échelle seule ne suffit pas pour que les modèles de génération vidéo découvrent les lois physiques fondamentales, malgré son rôle dans le succès plus large de Sora…

« … [Les résultats] indiquent que la mise à l’échelle seule ne peut pas résoudre le problème OOD, même si elle améliore les performances dans d’autres scénarios.

« Notre analyse approfondie suggère que la généralisation du modèle vidéo repose davantage sur le référencement d'exemples de formation similaires plutôt que sur l'apprentissage de règles universelles. Nous avons observé un ordre de priorité couleur > taille > vitesse > forme dans ce comportement « basé sur des cas ».

« [Notre] étude suggère que la mise à l’échelle naïve est insuffisante pour que les modèles de génération vidéo découvrent les lois physiques fondamentales. »

Interrogé sur la question de savoir si l'équipe de recherche avait trouvé une solution au problème, l'un des auteurs de l'article commenté:

« Malheureusement, ce n'est pas le cas. En fait, c'est probablement la mission de toute la communauté de l'IA. »

Méthode et données

Les chercheurs ont utilisé un Autoencodeur variationnel (VAE) et DiT architectures pour générer des échantillons vidéo. Dans cette configuration, les fichiers compressés représentations latentes produit par le travail VAE en tandem avec la modélisation du DiT débruitage processus.

Les vidéos ont été formées sur le VAE Stable Diffusion V1.5. Le schéma est resté fondamentalement inchangé, avec seulement des améliorations architecturales de fin de processus :

« [Nous conservons] la majorité des mécanismes originaux de convolution 2D, de normalisation de groupe et d'attention sur les dimensions spatiales.

« Pour transformer cette structure en un auto-encodeur spatio-temporel, nous convertissons les derniers blocs de sous-échantillonnage 2D de l'encodeur et les premiers blocs de suréchantillonnage 2D du décodeur en blocs 3D, et utilisons plusieurs couches 1D supplémentaires pour améliorer la modélisation temporelle. »

Afin de permettre la modélisation vidéo, le VAE modifié a été formé conjointement avec des données d'image et de vidéo HQ, avec le composant 2D Generative Adversarial Network (GAN) natif de l'architecture SD1.5 augmenté pour la 3D.

L'ensemble de données d'images utilisé était la source originale de Stable Diffusion, LAION-Esthétique, avec filtrage, en plus de Compilation de donnéesPour les données vidéo, un sous-ensemble a été organisé à partir de la Vimeo-90K, Panda-70m HDVG jeux de données.

Les données ont été formées pour un million d'étapes, avec un recadrage redimensionné aléatoire et un retournement horizontal aléatoire appliqué comme augmentation des données procédés.

Péter les plombs

Comme indiqué ci-dessus, l'augmentation aléatoire des données de retournement horizontal processus peut être un handicap dans la formation d'un système conçu pour produire un mouvement authentique. En effet, la sortie du modèle formé peut prendre en compte tous les deux directions d'un objet et provoquent des inversions aléatoires alors qu'il tente de négocier ces données contradictoires (voir la vidéo intégrée ci-dessus).

Par contre, si l'on tourne le retournement horizontal de rabais, le modèle est alors plus susceptible de produire des résultats conformes à un seul sens appris à partir des données de formation.

Il n’existe donc pas de solution simple au problème, si ce n’est que le système assimile véritablement l’intégralité des possibilités de mouvement de la version native et inversée – une capacité que les enfants développent facilement, mais qui constitue apparemment un plus grand défi pour les modèles d’IA.

Tests

Pour la première série d'expériences, les chercheurs ont formulé un simulateur 2D pour produire des vidéos de mouvements d'objets et de collisions conformes aux lois de la mécanique classique, ce qui a fourni un ensemble de données à volume élevé et contrôlé excluant les ambiguïtés des vidéos du monde réel, pour l'évaluation des modèles. Boîte2D Un moteur de jeu physique a été utilisé pour créer ces vidéos.

Les trois scénarios fondamentaux énumérés ci-dessus ont été au centre des tests : mouvement linéaire uniforme, collisions parfaitement élastiques et mouvement parabolique.

Des ensembles de données de taille croissante (allant de 30,000 XNUMX à trois millions de vidéos) ont été utilisés pour former des modèles de différentes tailles et complexités (DiT-S à DiT-L), les trois premières images de chaque vidéo étant utilisées pour le conditionnement.

Détails des différents modèles formés dans la première série d’expériences. Source : https://arxiv.org/pdf/2411.02385

Les chercheurs ont constaté que les résultats de la distribution interne (ID) évoluaient bien avec l’augmentation des quantités de données, tandis que les générations OOD ne s’amélioraient pas, indiquant des lacunes dans la généralisation.

Résultats de la première série de tests.

Les auteurs notent:

« Ces résultats suggèrent l’incapacité de la mise à l’échelle à effectuer un raisonnement dans des scénarios OOD. »

Ensuite, les chercheurs ont testé et formé des systèmes conçus pour démontrer une compétence en matière de généralisation combinatoire, dans laquelle deux mouvements contrastés sont combinés pour (espérons-le) produire un mouvement cohérent qui est fidèle à la loi physique derrière chacun des mouvements séparés.

Pour cette phase des tests, les auteurs ont utilisé la PHYRE simulateur, créant un environnement 2D qui représente des objets multiples et de formes diverses en chute libre, entrant en collision les uns avec les autres dans une variété d'interactions complexes.

Les mesures d’évaluation pour ce deuxième test étaient Distance vidéo Fréchet (FVD); Indice de similarité structurelle (SSIM); Rapport signal/bruit maximal (PSNR); Mesures de similarité perceptuelle apprises (LPIPS) ; et une étude humaine (désignée comme « anormale » dans les résultats).

Trois échelles de données d'entraînement ont été créées, à 100,000 0.6 vidéos, 3 million de vidéos et 6 à XNUMX millions de vidéos. Les modèles DiT-B et DiT-XL ont été utilisés, en raison de la complexité accrue des vidéos, la première image étant utilisée pour le conditionnement.

Les modèles ont été entraînés pour un million d’étapes à une résolution de 256 × 256, avec 32 images par vidéo.

Résultats de la deuxième série de tests.

Les résultats de ce test suggèrent que la simple augmentation du volume de données est une approche inadéquate :

Le papier déclare:

« Ces résultats suggèrent que la capacité du modèle et la couverture de l'espace de combinaison sont cruciales pour la généralisation combinatoire. Cette idée implique que les lois d'échelle pour la génération vidéo devraient se concentrer sur l'augmentation de la diversité des combinaisons, plutôt que sur la simple augmentation du volume de données. »

Enfin, les chercheurs ont mené d’autres tests pour tenter de déterminer si un modèle de génération vidéo peut réellement assimiler les lois physiques, ou s’il mémorise et reproduit simplement les données d’entraînement au moment de l’inférence.

Ici, ils ont examiné le concept de généralisation « basée sur des cas », où les modèles ont tendance à imiter des exemples de formation spécifiques lorsqu'ils sont confrontés à des situations nouvelles, ainsi qu'à examiner des exemples de mouvement uniforme - en particulier, comment la direction du mouvement dans les données de formation influence les prédictions du modèle formé.

Deux ensembles de données de formation, pour Mouvement uniforme collision, ont été organisées, chacune composée de vidéos de mouvement uniformes représentant des vitesses comprises entre 2.5 et 4 unités, les trois premières images étant utilisées comme conditionnement. Des valeurs latentes telles que vitesse ont été omis et, après la formation, des tests ont été effectués sur des scénarios vus et invisibles.

Ci-dessous, nous voyons les résultats du test de génération de mouvement uniforme :

Résultats des tests de génération de mouvement uniforme, où la variable « vitesse » est omise pendant la formation.

Les auteurs déclarent:

« [Avec] un écart important dans l'ensemble d'entraînement, le modèle a tendance à générer des vidéos où la vitesse est soit élevée, soit faible pour ressembler aux données d'entraînement lorsque les images initiales montrent des vitesses moyennes. »

Pour les tests de collision, beaucoup plus de variables sont impliquées et le modèle doit apprendre une approche bidimensionnelle. fonction non linéaire.

Collision : résultats de la troisième et dernière série de tests.

Les auteurs observent que la présence d'exemples « trompeurs », comme un mouvement inversé (c'est-à-dire une balle qui rebondit sur une surface et inverse sa trajectoire), peut induire le modèle en erreur et l'amener à générer des prédictions physiquement incorrectes.

Conclusion

Si un algorithme non-IA (c'est-à-dire une méthode procédurale « cuite ») contient règles mathématiques pour le comportement des phénomènes physiques tels que les fluides, ou les objets sous gravité, ou sous pression, il existe un ensemble de constantes immuables disponibles pour un rendu précis.

Cependant, les résultats du nouveau document indiquent qu'aucune relation équivalente ou compréhension intrinsèque des lois physiques classiques n'est développée lors de la formation des modèles génératifs, et que des quantités croissantes de données ne résolvent pas le problème, mais l'obscurcissent plutôt - car un plus grand nombre de vidéos de formation sont disponibles pour que le système les imite au moment de l'inférence.

* Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le mardi 26 novembre 2024

Rubriques connexes:Création vidéo IA diffusion vidéo synthèse vidéo

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai