AGI
La prochaine loi d’échelle de l’IA : pas plus de données, mais de meilleurs modèles de monde

Pendant des années, l’industrie de l’intelligence artificielle a suivi une règle simple et brutale : plus c’est grand, mieux c’est. Nous avons formé des modèles sur des jeux de données massifs, augmenté le nombre de paramètres et jeté une puissance de calcul immense sur le problème. Cette formule a fonctionné la plupart du temps. De GPT-3 à GPT-4, et des chatbots grossiers aux moteurs de raisonnement, la “loi d’échelle” suggérait que si nous continuions à alimenter la machine avec plus de texte, elle finirait par devenir intelligente.
Mais nous heurtons maintenant un mur. Internet est fini. Les données publiques de haute qualité s’épuisent et les rendements de la simple augmentation de la taille des modèles sont en diminution. Les principaux chercheurs en IA affirment que le prochain grand bond en avant de l’intelligence artificielle ne viendra pas de la lecture de plus de texte seul. Il viendra de la compréhension de la réalité derrière le texte. Cette croyance signale un changement fondamental dans l’orientation de l’IA, marquant l’avènement de l’ère du Modèle de monde.
Les limites de la prédiction du prochain jeton
Pour comprendre pourquoi nous avons besoin d’une nouvelle approche, nous devons d’abord regarder ce que les systèmes d’IA actuels font réellement. Malgré leurs capacités impressionnantes, des modèles comme ChatGPT ou Claude sont fondamentalement des moteurs statistiques. Ils prédisent le mot suivant dans une séquence en fonction de la probabilité de ce qui est venu avant. Ils ne comprennent pas qu’un verre lâché va se briser ; ils savent simplement que dans des millions d’histoires, le mot “se briser” suit souvent la phrase “verre lâché”.
Cette approche, connue sous le nom de modélisation autorégressive, a un défaut critique. Elle repose entièrement sur la corrélation, et non sur la causalité. Si vous formez un LLM sur mille descriptions d’un accident de voiture, il apprend le langage des accidents. Mais il n’apprend jamais la physique de l’élan, du frottement ou de la fragilité. Il est un spectateur, et non un participant.
Cette limitation devient le “Mur des données“. Nous avons presque entièrement scrapé l’internet public. Pour évoluer encore en utilisant la méthode actuelle, nous aurions besoin d’une quantité de données exponentiellement plus grande qu’il n’en existe. Les données synthétiques (c’est-à-dire le texte généré par l’IA) offrent une solution temporaire, mais elles mènent souvent à un “effondrement du modèle“, où le système amplifie ses propres biais et erreurs. Nous ne pouvons pas évoluer vers l’Intelligence Artificielle Générale (IAG) en utilisant uniquement le texte, car le texte est une compression de faible bande passante du monde. Il décrit la réalité, mais il n’est pas la réalité elle-même.
Pourquoi les Modèles de monde sont importants
Les leaders de l’IA comme Yann LeCun ont longtemps argumenté que les systèmes d’IA actuels manquent d’un aspect fondamental de la cognition humaine que même les jeunes enfants possèdent naturellement. C’est notre capacité à maintenir un modèle interne de la façon dont le monde fonctionne, qu’ils appellent couramment un Modèle de monde. Un Modèle de monde ne prédit pas seulement le mot suivant ; il construit une carte mentale interne de la façon dont l’environnement physique fonctionne. Lorsque nous voyons une balle rouler derrière un canapé, nous savons qu’elle est toujours là. Nous savons qu’elle apparaîtra de l’autre côté, à moins qu’elle ne soit arrêtée. Nous n’avons pas besoin de lire un manuel pour comprendre cela ; nous exécutons une simulation mentale basée sur notre “modèle de monde” interne de la physique et de la permanence des objets.
Pour que l’IA progresse, elle doit passer de l’imitation statistique à ce type de simulation interne. Elle doit comprendre les causes sous-jacentes des événements, et non seulement leurs descriptions textuelles.
Le Joint Embedding Predictive Architecture (JEPA) est un exemple parfait de ce changement de paradigme. Contrairement aux LLM, qui tentent de prédire chaque pixel ou chaque mot (un processus qui est coûteux en calcul et bruyant), le JEPA prédit des représentations abstraites. Il ignore les détails imprévisibles comme le mouvement des feuilles individuelles sur un arbre et se concentre sur les concepts de niveau supérieur tels que l’arbre, le vent et la saison. En apprenant à prédire comment ces états de niveau supérieur changent au fil du temps, l’IA apprend la structure du monde plutôt que les détails de surface.
De la prédiction à la simulation
Nous voyons déjà les premiers signes de cette transition dans les modèles de génération de vidéos. Lorsque OpenAI a publié Sora, ils l’ont décrit non seulement comme un outil de vidéo, mais comme un “simulateur de monde“.
Cette distinction est vitale. Un générateur de vidéos standard pourrait créer une vidéo d’une personne marchant en prédisant quels pixels colorés vont généralement se suivre. Un simulateur de monde, cependant, tente de maintenir une cohérence 3D, une éclairage et une permanence des objets au fil du temps. Il “comprend” que si la personne marche derrière un mur, elle ne devrait pas disparaître de l’existence.
Bien que les modèles de vidéos actuels soient encore loin de la perfection, ils représentent le nouveau terrain d’entraînement. Le monde physique contient nettement plus d’informations que le monde textuel. Une seule seconde de vidéo contient des millions de points de données visuels concernant la physique, la lumière et l’interaction. En formant des modèles sur cette réalité visuelle, nous pouvons enseigner à l’IA le “bon sens” qui manque actuellement aux LLM.
Cela crée une nouvelle loi d’échelle. Le succès ne sera plus mesuré par le nombre de billions de jetons que le modèle a lus. Il sera mesuré par la fidélité de sa simulation et sa capacité à prédire les états futurs de l’environnement. Un IA qui peut simuler avec précision les conséquences d’une action sans avoir à prendre cette action est un IA qui peut planifier, raisonner et agir en toute sécurité.
Efficacité et chemin vers l’IAG
Ce changement répond également aux coûts énergétiques insoutenables de l’IA actuelle. Les LLM sont inefficaces car ils doivent prédire chaque détail pour générer une sortie cohérente. Un Modèle de monde est plus efficace car il est sélectif. Tout comme un conducteur humain se concentre sur la route et ignore le motif des nuages dans le ciel, un Modèle de monde se concentre sur les facteurs causaux pertinents d’une tâche.
LeCun a argumenté que cette approche permet aux modèles d’apprendre beaucoup plus rapidement. Un système comme V-JEPA (Video-Joint Embedding Predictive Architecture) a montré qu’il peut converger vers une solution avec beaucoup moins d’itérations d’entraînement que les méthodes traditionnelles. En apprenant la “forme” des données plutôt que de mémoriser les données elles-mêmes, les Modèles de monde construisent une forme plus robuste d’intelligence qui se généralise mieux à de nouvelles situations inconnues.
C’est le maillon manquant pour l’IAG. La véritable intelligence nécessite la navigation. Elle nécessite qu’un agent regarde un objectif, simule différents chemins pour atteindre cet objectif en utilisant son modèle interne du monde, puis choisisse le chemin avec la plus grande probabilité de succès. Les générateurs de texte ne peuvent pas faire cela ; ils ne peuvent que rédiger un plan, ils ne peuvent pas comprendre les contraintes de sa mise en œuvre.
En résumé
L’industrie de l’IA est à un tournant. La stratégie de “juste ajouter plus de données” atteint sa fin logique. Nous passons de l’ère du Chatbot à l’ère du Simulateur.
La prochaine génération d’évolution de l’IA ne consistera pas à lire l’intégralité de l’internet. Elle consistera à regarder le monde, à comprendre ses règles et à construire une architecture interne qui reflète la réalité. Ce n’est pas seulement une mise à niveau technique ; c’est un changement fondamental dans ce que nous considérons comme “apprentissage”.
Pour les entreprises et les chercheurs, l’accent doit changer. Nous devons cesser d’obséder les comptes de paramètres et commencer à évaluer à quel point nos systèmes comprennent la cause et l’effet. L’IA de demain ne vous dira pas seulement ce qui s’est passé ; elle vous montrera ce qui pourrait se passer, et pourquoi. Telle est la promesse des Modèles de monde, et c’est le seul chemin à suivre.












