Intelligence artificielle
Même les modèles de langage les plus avancés ont du mal à comprendre la logique temporelle

Prévoir les états futurs est une mission critique dans la recherche en vision par ordinateur – notamment en robotique, où les situations du monde réel doivent être prises en compte. Les systèmes d’apprentissage automatique chargés de tâches critiques ont donc besoin d’une compréhension adéquate du monde physique.
Cependant, dans certains cas, une connaissance apparemment impressionnante de la réalité temporelle peut être trompeuse : un nouveau document des Émirats arabes unis a découvert que les modèles de langage multimodaux les plus avancés (MLLMs), notamment les leaders du secteur GPT-4o et Google Gemini, ont du mal à interpréter la façon dont le temps est représenté dans les images.
Des paires d’exemples séquentiels (voir image ci-dessous), qui seraient sans défis pour les humains même si elles sont dans le mauvais ordre, peuvent tromper les MLLMs avancés lorsqu’elles sont présentées dans des contextes ou des configurations inattendus (tels que deuxième image première, concaténées en une seule image, plusieurs images séquentielles qui peuvent ou non représenter l’ordre temporel correct, etc.).

Exemples à partir de l’un des jeux de données compilés pour la nouvelle étude, qui montrent des événements séquentiels sous la forme d’images ‘avant et après’. Les chercheurs ont rendu ces données disponibles à l’adresse https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer
Les chercheurs ont chargé les modèles de défis de raisonnement temporel de base, tels que la détermination de l’ordre des événements ou l’estimation des écarts de temps, et ont constaté que les sept MLLMs testés ont obtenu des résultats nettement inférieurs à la précision humaine :
« Dans l’ensemble, les [résultats] révèlent que tous les MLLMs actuels, y compris GPT-4o – le modèle le plus avancé dans notre évaluation – ont du mal avec le benchmark proposé. Malgré la performance supérieure de GPT-4o par rapport aux autres modèles, il ne parvient pas à démontrer de manière cohérente une compréhension temporelle précise dans différents contextes. »
« Les scores de précision cohérents sont nettement bas pour tous les modèles, indiquant des limites importantes dans leur capacité à comprendre et à interpréter les séquences temporelles à partir d’entrées visuelles. Ces déficiences sont évidentes même lorsque les modèles sont fournis avec des entrées d’images multiples ou des invites optimisées, suggérant que les architectures et les méthodes de formation actuelles sont insuffisantes pour une compréhension robuste de l’ordre temporel. »
Les systèmes d’apprentissage automatique sont conçus pour optimiser les résultats les plus précis, mais également les plus efficaces et les plus agréables pour les gens*. Puisqu’ils ne révèlent pas explicitement leur raisonnement, il peut être difficile de déterminer quand ils « trichent » ou utilisent des « raccourcis ».
Dans un tel cas, le MLLM peut arriver à la bonne réponse par la mauvaise méthode. Le fait que une telle réponse puisse être correcte peut inspirer une fausse confiance dans le modèle, qui pourrait produire des résultats incorrects par la même méthode dans les tâches ultérieures qui lui sont présentées.
Pire encore, cette mauvaise direction peut devenir encore plus profondément ancrée dans la chaîne de développement si les humains sont impressionnés par elle et fournissent des commentaires positifs lors des essais et des sessions d’annotation qui peuvent contribuer à la direction que les données et/ou le modèle pourraient prendre.
Dans ce cas, la suggestion est que les MLLMs « simulent » une véritable compréhension de la chronologie et des phénomènes temporels, en observant et en ancrant sur des indicateurs secondaires (tels que les horodatages, par exemple, dans les données vidéo, l’ordre des images dans une disposition, ou même – potentiellement – des noms de fichiers numérotés séquentiellement).
Cela indique en outre que les MLLMs actuels ne satisfont pas à une véritable définition de la généralisation d’un concept de phénomènes temporels – du moins, dans la mesure où les humains peuvent le faire.
Le nouvel article est intitulé Les modèles de langage multimodaux (MLLMs) peuvent-ils faire une compréhension et un raisonnement visuels temporels ? La réponse est Non !, et provient de trois chercheurs de l’Université Mohamed bin Zayed d’intelligence artificielle et d’Alibaba International Digital Commerce.
Données et tests
Les auteurs notent que les benchmarks et les études antérieures, tels que MMMU et TemporalBench, se concentrent sur des entrées d’images uniques ou formulent des questions pour les MLLMs qui peuvent être rather trop faciles à répondre, et peuvent ne pas révéler une tendance à un comportement de raccourci.
Par conséquent, les auteurs proposent deux approches mises à jour : Compréhension de l’ordre temporel (TOU) et Estimation de l’intervalle de temps (TLE). L’approche TOU teste les modèles sur leur capacité à déterminer la séquence correcte d’événements à partir de paires de cadres vidéo ; la méthode TLE évalue la capacité du MLLM à estimer la différence de temps entre deux images, allant de secondes à années.

À partir de l’article, les deux tâches principales du benchmark TemporalVQA : dans la compréhension de l’ordre temporel, le modèle décide laquelle des deux images montre un événement qui s’est produit en premier ; dans l’estimation de l’intervalle de temps, le modèle estime combien de temps s’est écoulé entre les deux images, en sélectionnant parmi les options incluant des secondes, des minutes, des jours ou des années. Ces tâches visent à tester comment bien les MLLMs peuvent raisonner sur le moment et la séquence d’événements visuels. Source : https://arxiv.org/pdf/2501.10674
Les chercheurs ont sélectionné 360 paires d’images pour le benchmark TOU, en utilisant des vidéos open source de Pixabay et Pexels, afin qu’il soit possible de rendre le jeu de données disponible via une interface graphique.
Les vidéos couvraient une gamme de sujets, allant de personnes dans des activités quotidiennes à du contenu non humain tel que des animaux et des plantes. À partir de ceux-ci, des paires de cadres ont été sélectionnées pour dépeindre une séquence d’événements avec une variation suffisante pour rendre le cadre de départ « évident ».
La sélection humaine a été utilisée pour garantir que les cadres pouvaient être définitivement ordonnés. Par exemple, l’une des paires sélectionnées montre une tasse de thé partiellement remplie dans un cadre, et la même tasse complètement remplie de thé dans le cadre suivant, rendant la logique de la séquence facile à identifier.

La logique temporelle de ces deux images ne peut pas être évitée, puisque le thé ne peut pas être aspiré à travers le bec.
De cette façon, 360 paires d’images ont été obtenues.
Pour l’approche TLE, des images libres de droits ont été choisies à partir de Google et Flickr, ainsi que des cadres sélectionnés à partir de vidéos libres de droits sur YouTube. Le sujet de ces vidéos présentait des scènes ou des objets dont l’intervalle de changement allait de secondes à jours à des saisons – par exemple, des fruits qui mûrissent, ou le changement de saisons dans les paysages.
Ainsi, 125 paires d’images ont été sélectionnées pour la méthode TLE.
Tous les MLLMs testés n’étaient pas en mesure de traiter plusieurs images ; les tests ont donc différé pour tenir compte des capacités de chaque modèle.
Des versions multiples des jeux de données sélectionnés ont été générées, dans lesquelles certaines des paires étaient concaténées verticalement, et d’autres horizontalement. D’autres variations ont échangé la séquence temporelle correcte des paires.
Deux types de invites ont été développés. Le premier a suivi ce modèle :
Est-ce que l'événement de l'(gauche / haut / premier) image s'est produit avant l'événement de l'(droite / bas / deuxième) image ? État vrai ou faux avec raisonnement.
Le second a suivi ce schéma :
Entre ces deux images, laquelle représente l'événement qui s'est produit en premier ? État (gauche ou droite / haut ou bas / premier ou deuxième) avec raisonnement.
Pour TLE, les questions étaient à choix multiple, demandant aux modèles d’évaluer l’intervalle de temps entre les deux images présentées, avec secondes, heures, minutes, jours, mois et années disponibles en tant qu’unités de temps. Dans cette configuration, l’image la plus récente était présentée sur la droite.
L’invite utilisée ici était :
Dans l'image donnée, estimez le temps qui s'est écoulé entre la première image (gauche) et la deuxième image (droite).
Choisissez l'une des options suivantes :
-
Moins de 15 secondes
B. Entre 2 minutes et 15 minutes
C. Entre 1 heure et 12 heures
D. Entre 2 jours et 30 jours
E. Entre 4 mois et 12 mois
F. Plus de 3 ans
Les MLLMs testés étaient ChatGPT-4o ; Gemini1.5-Pro ; LlaVa-NeXT ; InternVL ; Qwen-VL ; Llama-3-vision ; et LLaVA-CoT.
Compréhension de l’ordre temporel : Résultats

Résultats de la compréhension de l’ordre temporel pour différents modèles et dispositions d’entrée, montrant la précision et la cohérence pour divers paramètres et invites.
En ce qui concerne les résultats ci-dessus, les auteurs ont constaté que tous les MLLMs testés, y compris GPT-4o (qui a montré la meilleure performance globale), ont eu du mal de manière significative avec le benchmark TemporalVQA – et même GPT-4o n’a pas pu démontrer de manière cohérente une compréhension temporelle fiable dans différents contextes.
Les auteurs soutiennent que les scores de précision cohérents, nettement bas pour tous les modèles, mettent en évidence des limites importantes dans la capacité des modèles à interpréter et à raisonner sur les séquences temporelles à partir de données visuelles. Les chercheurs notent que ces défis persistent même avec l’utilisation d’entrées d’images multiples et d’invites optimisées, ce qui suggère des limites fondamentales dans les architectures et les méthodes de formation actuelles.
Les tests ont montré des variations importantes dans les performances en fonction des stratégies d’invites. Alors que GPT-4o s’est amélioré avec des invites optimisées (atteignant 4 % dans les paramètres d’image unique et 65,3 % dans les paramètres d’images multiples), les performances sont restées en dessous des niveaux acceptables.
Des modèles tels que LLaVA-NeXT et Qwen-VL étaient encore plus sensibles, avec des performances en baisse lorsque des invites alternatives étaient utilisées, suggérant que l’ingénierie d’invite seule ne peut pas surmonter les limites fondamentales des MLLMs en matière de raisonnement temporel.
Les tests ont également indiqué que la disposition des images (c’est-à-dire verticale par rapport à horizontale) a eu un impact significatif sur les performances du modèle. GPT-4o a amélioré sa cohérence avec les dispositions verticales, passant de 39,2 % à 52,8 % ; cependant, d’autres modèles, y compris les souches LLaVA, ont montré de fortes préférences directionnelles, excellent dans une orientation mais échouant dans l’autre.
L’article indique que ces incohérences suggèrent une dépendance à l’égard des indices spatiaux, plutôt qu’une véritable compréhension du raisonnement temporel, les MLLMs n’analysant pas réellement la séquence d’événements ou la compréhension de la progression dans le temps. Au lieu de cela, ils semblent s’appuyer sur des modèles ou des caractéristiques visuelles liées à la disposition des images, telles que leur position ou leur alignement, pour prendre des décisions.

Tests qualitatifs mettant en évidence les prédictions de GPT-4o lorsqu’il est confronté à différents ordres d’entrée. Dans le premier ordre, les paires d’images sont présentées dans leur séquence d’origine, tandis que dans le deuxième ordre, la séquence est inversée. Les classifications correctes sont marquées en vert, les fausses classifications en rouge, le raisonnement halluciné en orange et le raisonnement illogique ou « invalide » en marron, révélant les incohérences du modèle dans différents paramètres d’entrée.
Des tests de comparaison entre les entrées d’images uniques et multiples ont montré une amélioration limitée, GPT-4o performant légèrement mieux sur les entrées d’images multiples, passant de 31,0 % à 43,6 % (avec P1) et de 46,0 % à 65,3 % (avec P2).
D’autres modèles, tels que InternVL, ont montré une précision stable mais faible, tandis que Qwen-VL a vu des gains minimes. Les auteurs concluent que ces résultats indiquent que le contexte visuel supplémentaire n’améliore pas de manière significative les capacités de raisonnement temporel, les modèles ayant du mal à intégrer efficacement les informations temporelles.
Étude humaine
Dans une étude humaine, trois enquêtes ont été menées pour évaluer comment le meilleur MLLM multimodal performant s’est comporté par rapport à l’estimation humaine.
Les humains ont obtenu 90,3 % de précision, surpassant les 65,3 % de GPT-4o de 25 %. Le jeu de données s’est avéré fiable, avec des erreurs humaines minimales et un accord cohérent sur les réponses correctes.

Résultats de l’étude humaine pour le premier tour de tests.
Estimation de l’intervalle de temps : Résultats

Résultats pour TLE : l’estimation de l’intervalle de temps évalue la précision du modèle pour identifier les intervalles entre les paires d’images, à différentes échelles allant de secondes à années. La tâche évalue la capacité de chaque modèle à sélectionner l’échelle de temps correcte pour l’intervalle temporel.
Dans ces tests, les MLLMs n’ont performé qu’adéquatement sur l’estimation de l’intervalle de temps : GPT-4o a atteint 70 % de précision, mais les autres modèles ont performé nettement moins bien (voir tableau ci-dessus), et les performances ont également varié de manière notable à travers les différentes échelles de temps.
Les auteurs commentent :
« La tâche d’estimation de l’intervalle de temps teste la capacité des MLLMs à inférer les intervalles temporels entre les paires d’images. [Tous] les MLLMs, y compris les meilleurs performants comme GPT-4o et Gemini1.5-Pro, ont du mal avec cette tâche, atteignant seulement des niveaux de précision modérés de 60-70 %. GPT-4o montre des performances incohérentes, avec de fortes performances en secondes et en années, mais sous-performant en heures.
De même, LLaVA-CoT démontre des performances exceptionnelles dans les intervalles de temps de secondes et de jours, tout en montrant des performances nettement faibles dans les autres intervalles de temps.
Étude humaine
Dans l’étude humaine pour TLE, la performance humaine moyenne a amélioré celle de GPT-4o (le meilleur modèle performant dans cette catégorie également) de 12,3 %.
Les auteurs notent que certains des défis étaient particulièrement exigeants, et que dans un cas, tous les participants humains ont retourné une mauvaise réponse, ainsi que tous les participants à l’IA.
Les auteurs concluent que GPT-4o montre des capacités de raisonnement « raisonnablement robustes », nonobstant l’ordre des images qui lui sont présentées.
Conclusion
Si les MLLMs finissent par accumuler et absorber suffisamment de « raccourcis » de données pour couvrir même les défis les plus astucieux de ce type présentés par les auteurs dans cette étude, il pourrait devenir un point discutable de savoir s’ils peuvent être considérés comme ayant développé des capacités de généralisation de type humain dans ce domaine.
Il n’est pas non plus connu exactement par quel chemin nous obtenons nos propres capacités en raisonnement temporel – utilisons-nous également des « raccourcis » jusqu’à ce que la quantité de l’expérience apprise révèle un modèle qui fonctionne comme « instinct » en ce qui concerne ce type de test ?
* Depuis le point de vue que les modèles sont de plus en plus optimisés avec des fonctions de perte auxquelles les commentaires humains ont contribué, et effectivement optimisés par des essais humains et une triage ultérieure.
Publié pour la première fois lundi 27 janvier 2025












