Robotique

Meta V-JEPA 2 : Le Modèle d’Intelligence Artificielle qui Apporte le Bon Sens aux Robots

Publié le 17 juillet 2025

Mis à jour le 18 mai 2026

Par

Dr. Assad Abbas

Meta V-JEPA 2: The AI Model Bringing Common Sense to Robots

Le Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) de Meta est une avancée significative dans le domaine de l’intelligence artificielle (IA). Il aide les robots à comprendre et à prédire les interactions physiques. Le modèle est formé sur plus d’un million d’heures de vidéo. Cela permet aux robots d’apprendre et d’anticiper ce qui se passera ensuite. Il leur permet également de planifier des actions dans de nouveaux environnements, leur permettant d’interagir avec des objets inconnus de manière plus efficace.

V-JEPA 2 utilise l’apprentissage auto-supervisé. Il apprend directement à partir des données vidéo, sans nécessiter d’annotations humaines. Cela le différencie des autres modèles d’IA qui reposent sur des données étiquetées. Les robots peuvent prédire les résultats en fonction du contexte visuel. Ils peuvent s’adapter et planifier des actions en conséquence. Cela nous rapproche de la réalisation de l’intelligence machine avancée (AMI).

En s’appuyant sur l’architecture d’embedding prédictive conjointe (JEPA) de Meta, V-JEPA 2 améliore la prédiction d’actions et la modélisation du monde, permettant aux robots de gérer de nouvelles tâches dans des environnements inconnus. Meta partage ce modèle avec la communauté de recherche pour accélérer les progrès de l’IA et améliorer les capacités des robots.

Pourquoi le Bon Sens dans les Robots a Toujours Été Difficile

Le bon sens est la capacité de prendre des décisions de base. Par exemple, savoir qu’un verre va se renverser s’il est penché ou comprendre qu’une chaise peut bloquer un chemin. Pour les humains, ces connaissances viennent naturellement à travers l’expérience. Cependant, les robots rencontrent des défis pour développer cette même intuition.

La plupart des robots sont programmés pour des tâches spécifiques dans des environnements contrôlés. Ils font bien ces tâches. Mais lorsque les situations changent ou que des éléments inattendus apparaissent, les robots ont du mal. Ils ont souvent du mal à reconnaître la cause et l’effet ou à prédire les conséquences de leurs actions. Par exemple, un robot peut savoir comment placer un verre sur une surface plane. Cependant, il peut ne pas prévoir que pencher le verre pourrait le faire se renverser.

Les modèles d’IA actuels, tels que ceux basés sur l’apprentissage par renforcement (RL), rencontrent des limites. Le RL nécessite une grande quantité d’apprentissage par essais et erreurs. Cela rend le processus lent et gourmand en ressources. Les grands modèles de langage (LLM) excellent dans le langage mais manquent de fondement dans le monde physique. Ils ont souvent tendance à « halluciner » des réponses basées uniquement sur le texte, les rendant peu fiables dans des situations dynamiques. Les modèles de vision par ordinateur traditionnels sont également limités dans leurs capacités. Ces modèles sont spécifiques à une tâche et échouent à s’adapter à de nouvelles situations.

Pour résoudre ces problèmes, les experts recommandent d’utiliser des modèles de monde. Les modèles de monde permettent aux robots de simuler et de prédire des actions futures en fonction d’expériences passées. Ces modèles aident les robots à comprendre la dynamique physique du monde. Par exemple, prédire ce qui se passera lorsqu’un objet est déplacé ou lorsqu’il entre en collision avec un autre objet. Le V-JEPA 2 de Meta est le premier modèle à intégrer ces principes. Il apprend directement à partir de données vidéo brutes. Cela le rend adaptable à des environnements réels, permettant aux robots de raisonner et de planifier en fonction d’interactions physiques dynamiques.

Comprendre V-JEPA 2

V-JEPA 2 est un modèle d’apprentissage auto-supervisé créé par l’équipe de recherche en intelligence artificielle fondamentale (FAIR) de Meta. Contrairement aux modèles d’IA traditionnels qui nécessitent des données étiquetées, V-JEPA 2 apprend à partir de vidéos non étiquetées en prédissant les parties manquantes des séquences vidéo. Ce processus est appelé prédiction au niveau de la représentation. Au lieu de se concentrer sur chaque pixel, V-JEPA 2 travaille avec des représentations abstraites qui capturent les dynamiques clés et les relations entre les objets et les actions dans l’environnement.

Le modèle est construit sur l’architecture d’embedding prédictive conjointe (JEPA) de Meta, conçue pour comprendre la dynamique physique. Il comporte deux composants clés : un encodeur, qui traite les vidéos brutes pour créer des représentations utiles, et un prédicteur, qui utilise ces représentations pour prédire des événements futurs. V-JEPA 2 est formé sur plus d’un million d’heures de vidéo, lui permettant d’apprendre des modèles complexes dans le monde physique. En apprenant à partir de vidéos, le modèle peut prédire des actions et des interactions futures, améliorant la façon dont les robots planifient et prennent des décisions.

V-JEPA 2 aide les robots à effectuer une planification à zéro coup. Cela signifie que les robots peuvent gérer des tâches dans de nouveaux environnements même sans formation préalable. Au lieu de cela, les robots peuvent effectuer des tâches comme ramasser des objets et les placer à de nouvelles emplacements, même s’ils n’ont jamais vu ces tâches auparavant. Cela rend V-JEPA 2 une amélioration significative de la prédiction d’actions et de la modélisation du monde, rendant les robots plus adaptables à de nouvelles situations.

Le modèle apprend à partir de données vidéo brutes, permettant aux robots de prédire des événements futurs. Cela rend les robots plus capables dans des situations réelles. V-JEPA 2 nous rapproche de robots qui peuvent planifier et exécuter des tâches comme les humains. Meta partage V-JEPA 2 avec la communauté de recherche pour accélérer les progrès de l’IA. Les robots utilisant V-JEPA 2 peuvent opérer dans des environnements dynamiques, s’adapter rapidement et planifier des tâches de manière plus efficace.

Comment V-JEPA 2 Fonctionne : Le Processus en Deux Étapes

V-JEPA 2 fonctionne en deux étapes distinctes. Chaque étape permet au modèle d’apprendre à partir de données vidéo brutes et de subsequently appliquer ces connaissances pour prendre des décisions éclairées dans des tâches réelles.

Étape 1 : Apprentissage de Représentation sans Action

V-JEPA 2 commence par une formation préalable à grande échelle sur plus de 1 million d’heures de vidéo et 1 million d’images. Le modèle apprend en prédissant les parties manquantes des séquences vidéo. Il traite la vidéo sous forme de tubelets 3D, qui servent de jetons principaux pour le modèle. Le modèle utilise une architecture de Vision Transformer (ViT) avec des embeddings de position rotatifs 3D (3D-RoPE) pour capturer plus efficacement les informations spatiales et temporelles.

L’encodeur traite les tubelets pour créer des vecteurs de fonctionnalités à haute dimension. Ces vecteurs représentent à la fois la dynamique spatiale et temporelle de la vidéo. Le modèle utilise un objectif de débruitage de masque, où de grandes parties de la vidéo sont cachées. Le modèle tente de prédire le contenu caché en utilisant les parties visibles. Un encodeur cible de moyenne mobile exponentielle (EMA) aide le modèle à éviter les solutions triviales et assure un apprentissage stable. La fonction de perte minimise la distance L1 entre les prédictions et la sortie de l’encodeur cible EMA, en se concentrant sur des concepts de niveau supérieur tels que la persistance des objets et le mouvement, plutôt que sur des détails au niveau des pixels.

Étape 2 : Planification et Contrôle Conditionnés par l’Action

Dans la deuxième étape, le modèle passe à une formation conditionnée par l’action. Les poids de l’encodeur sont gelés, et un nouveau prédicteur est formé en utilisant des données d’interactions de robots. Ces données incluent des observations vidéo et les actions de contrôle correspondantes, généralement à partir de l’ensemble de données DROID (environ 62 heures de données de robot). Maintenant, le modèle peut prédire l’état futur d’un environnement en fonction de l’état actuel et de possibles actions.

V-JEPA 2 définit un problème de minimisation d’énergie à condition de but. Il encode à la fois l’observation actuelle et une image de but en cartes de fonctionnalités. Le modèle prédit ensuite comment l’état va changer avec différentes séquences d’actions. La séquence d’actions optimale est trouvée en minimisant la distance L1 entre l’état futur prédit et la représentation du but. La méthode d’optimisation de trajectoire par Cross-Entropy (CEM) est utilisée.

Seule la première action de la séquence optimale est exécutée, et le processus est répété dans une boucle de contrôle à horizon réduit. Cela permet une planification et une adaptation en temps réel. En utilisant le traitement de tubelets 3D, V-JEPA 2 capture à la fois les dépendances spatiales et temporelles, ce qui permet aux robots de raisonner sur le mouvement, les interactions d’objets et les conséquences de leurs actions dans des environnements complexes. Cela permet une planification et un contrôle à zéro coup, même dans de nouvelles situations, sans nécessité de démonstrations spécifiques à la tâche ou d’ingénierie de récompense.

Applications de V-JEPA 2 dans la Robotique

V-JEPA 2 change la façon dont les robots interagissent avec le monde. De nombreuses applications sont encore en développement, mais le modèle a démontré de fortes capacités dans des environnements contrôlés.

Manipulation de Prise et de Pose

Dans des environnements de laboratoire, V-JEPA 2 a permis aux robots d’effectuer des tâches de prise et de pose avec une formation minimale. En utilisant seulement 62 heures de données de l’ensemble de données DROID, les robots peuvent manipuler divers objets, y compris des objets rigides et déformables. Cette capacité est cruciale dans des domaines tels que la logistique, la fabrication et la robotique domestique, où les objets varient considérablement en taille et en complexité.

Navigation dans des Environnements Dynamiques

V-JEPA 2 peut modéliser la dynamique temporelle, ce qui le rend utile pour la navigation en temps réel dans des environnements avec des personnes, des animaux ou des obstacles en mouvement. Même s’il n’a pas encore été utilisé dans des véhicules autonomes ou des drones, ses capacités de prédiction peuvent aider les robots à anticiper les changements et à ajuster leurs trajectoires. Cela est essentiel pour la sécurité et l’efficacité dans des environnements animés.

Interaction Humain-Robot

En apprenant à prédire les actions humaines, V-JEPA 2 peut améliorer la collaboration humain-robot. Les robots peuvent répondre de manière plus naturelle et plus sûre dans des espaces partagés, tels que les hôpitaux, les maisons ou les sols industriels. Même si cela est encore en cours, cette capacité représente un pas vers des robots socialement conscients qui peuvent s’adapter à leur environnement.

Généralisation et Planification à Zéro Coup

V-JEPA 2 peut généraliser à travers les tâches et les environnements. Les robots peuvent utiliser des représentations apprises dans de nouvelles situations sans nécessité de formation supplémentaire. Cette planification à zéro coup permet aux robots de s’adapter rapidement à de nouvelles tâches, réduisant ainsi le besoin de collecte de nouvelles données ou de réentraînement.

Prise de Décision et Efficacité en Temps Réel

Grâce à sa conception efficace, V-JEPA 2 prend en charge la planification et le contrôle en temps réel. Meta rapporte que V-JEPA 2 est 30 fois plus rapide que le modèle Cosmos de Nvidia dans certaines références. Cette vitesse est essentielle pour les tâches nécessitant des décisions rapides, telles que la manipulation robotique ou la navigation dans des environnements changeants.

Défis Pratiques et Limitations

Bien que V-JEPA 2 ait fait des progrès significatifs dans l’apprentissage auto-supervisé et la planification robotique, il existe encore des défis à relever avant qu’il puisse être largement déployé. Voici les limitations clés :

Dépendance à des Données Visuelles Seules

V-JEPA 2 est formé uniquement sur des données vidéo et d’images. Cela le rend efficace pour les tâches visuelles, mais limite sa capacité à effectuer des tâches multi-sensorielles, telles que la manipulation tactile ou l’utilisation de signaux auditifs. Les robots du monde réel s’appuient sur plusieurs entrées sensorielles.

Sensibilité à la Position et à l’Étalonnage de la Caméra

Le modèle repose sur une entrée RGB monoculaire, ce qui peut dégrader les performances si la base du robot ou le cadre de référence n’est pas visible. Des ajustements manuels de la configuration de la caméra peuvent être nécessaires pour assurer des performances cohérentes.

Limitations dans la Planification à Long Terme et Multi-Étapes

V-JEPA 2 fonctionne bien avec des tâches à horizon court mais a du mal avec la planification à long terme. L’accumulation d’erreurs dans les prédictions et l’expansion des espaces d’action rendent les opérations complexes et multi-étapes difficiles.

Exigences Computationnelles Élevées

Même s’il est plus rapide que des modèles comme celui de Nvidia, V-JEPA 2 compte plus de 1,2 milliard de paramètres. Cela nécessite des ressources computationnelles significatives, ce qui peut poser un défi pour les laboratoires ou les organisations plus petits avec des infrastructures limitées.

Généralisation dans des Environnements Non Structurés

V-JEPA 2 fonctionne bien dans des environnements contrôlés mais peut rencontrer des difficultés dans des environnements inconnus ou non structurés. Son taux de réussite dans les tâches de prise et de pose est d’environ 80 %, mais il peut échouer dans des cas limite.

Intégration avec des Piles de Robotique Complètes

Pour être utile, V-JEPA 2 doit s’intégrer avec des contrôleurs de moteur, des capteurs en temps réel et des planificateurs de tâches. La réalisation d’une interopérabilité fluide dans des environnements dynamiques reste un défi.

Considérations Éthiques et de Biais

Comme tous les grands modèles, V-JEPA 2 peut hériter de biais de ses données de formation. Dans des applications réelles, en particulier celles impliquant l’interaction humaine, ces biais pourraient conduire à des résultats involontaires. Une surveillance éthique est essentielle.

En Résumé

V-JEPA 2 représente une avancée significative dans l’IA et la robotique. Il permet aux robots de comprendre et d’interagir avec le monde physique de la même manière que les humains. Même si le modèle a démontré de fortes performances dans la prédiction d’actions, la compréhension du monde et la planification sans formation préalable, il fait encore face à plusieurs défis.

V-JEPA 2 repose sur des données visuelles et présente certaines limitations dans les tâches multi-sensorielles, la planification à long terme et l’intégration avec des systèmes robotiques complets. Cependant, sa capacité à prendre des décisions en temps réel et à s’adapter à de nouveaux environnements le rend très utile pour des situations réelles complexes.

Meta continue d’affiner V-JEPA 2, ce qui contribuera à faire progresser l’IA et à rendre les robots plus intelligents. Ce progrès sera précieux pour des industries telles que les soins de santé, la logistique et les véhicules autonomes. V-JEPA 2 a un grand potentiel et jouera un rôle crucial dans l’avenir de la robotique.

Dr. Assad Abbas

Dr. Assad Abbas, un professeur associé titulaire à l'Université COMSATS d'Islamabad, au Pakistan, a obtenu son doctorat de l'Université d'État du Dakota du Nord, aux États-Unis. Ses recherches portent sur les technologies avancées, notamment le cloud, le fog et le edge computing, l'analyse de données massives et l'IA. Le Dr Abbas a apporté des contributions substantielles avec des publications dans des revues scientifiques et des conférences réputées. Il est également le fondateur de MyFastingBuddy.