Intelligence artificielle

L’évolution de l’esprit de DeepMind : autonomisation des grands modèles de langage pour la résolution de problèmes du monde réel

Published February 6, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Ces dernières années, l’intelligence artificielle (IA) est devenue un outil pratique pour stimuler l’innovation dans diverses industries. À la pointe de ce progrès se trouvent les grands modèles de langage (LLM) connus pour leur capacité à comprendre et à générer le langage humain. Bien que les LLM performent bien dans des tâches telles que l’IA conversationnelle et la création de contenu, ils ont souvent du mal avec des défis du monde réel complexes qui nécessitent une raison et une planification structurées.

Par exemple, si vous demandez aux LLM de planifier un voyage d’affaires dans plusieurs villes qui implique la coordination des horaires de vol, des heures de réunion, des contraintes budgétaires et un repos adéquat, ils peuvent fournir des suggestions pour des aspects individuels. Cependant, ils ont souvent du mal à intégrer ces aspects pour équilibrer efficacement les priorités concurrentes. Cette limitation devient encore plus évidente à mesure que les LLM sont de plus en plus utilisés pour construire des agents IA capables de résoudre des problèmes du monde réel de manière autonome.

Google DeepMind a récemment développé une solution pour résoudre ce problème. Inspirée par la sélection naturelle, cette approche, connue sous le nom de Mind Evolution, affine les stratégies de résolution de problèmes par adaptation itérative. En guidant les LLM en temps réel, elle leur permet de traiter des tâches du monde réel complexes de manière efficace et de s’adapter à des scénarios dynamiques. Dans cet article, nous allons explorer comment cette méthode innovante fonctionne, ses applications potentielles et ce qu’elle signifie pour l’avenir de la résolution de problèmes basée sur l’IA.

Pourquoi les LLM ont du mal avec la raison et la planification complexes

Les LLM sont formés pour prédire le mot suivant dans une phrase en analysant les modèles dans de grands ensembles de données de texte, tels que des livres, des articles et du contenu en ligne. Cela leur permet de générer des réponses qui apparaissent logiques et contextuellement appropriées. Cependant, cette formation est basée sur la reconnaissance de modèles plutôt que sur la compréhension du sens. Par conséquent, les LLM peuvent produire du texte qui apparaît logique mais ont du mal avec les tâches qui nécessitent une raison ou une planification plus profondes.

La limitation fondamentale réside dans la façon dont les LLM traitent les informations. Ils se concentrent sur les probabilités ou les modèles plutôt que sur la logique, ce qui signifie qu’ils peuvent gérer des tâches isolées – comme suggérer des options de vol ou des recommandations d’hôtel – mais échouent lorsqu’elles doivent être intégrées dans un plan cohérent. Cela les empêche également de maintenir le contexte au fil du temps. Les tâches complexes nécessitent souvent de garder une trace des décisions précédentes et de s’adapter à mesure que de nouvelles informations apparaissent. Les LLM, cependant, ont tendance à perdre leur concentration dans les interactions prolongées, ce qui conduit à des sorties fragmentées ou incohérentes.

Comment fonctionne Mind Evolution

L’évolution de l’esprit de DeepMind remédie à ces lacunes en adoptant des principes de l’évolution naturelle. Au lieu de produire une seule réponse à une requête complexe, cette approche génère plusieurs solutions potentielles, les affine de manière itérative et sélectionne la meilleure issue à travers un processus d’évaluation structuré. Par exemple, considérez une équipe qui réfléchit à des idées pour un projet. Certaines idées sont excellentes, d’autres moins. L’équipe évalue toutes les idées, en gardant les meilleures et en rejetant le reste. Ils améliorent ensuite les meilleures idées, introduisent de nouvelles variations et répètent le processus jusqu’à ce qu’ils arrivent à la meilleure solution. L’évolution de l’esprit applique ce principe aux LLM.

Voici une description de son fonctionnement :

Génération : Le processus commence avec le LLM créant plusieurs réponses à une question donnée. Par exemple, dans une tâche de planification de voyage, le modèle peut établir divers itinéraires en fonction du budget, du temps et des préférences de l’utilisateur.
Évaluation : Chaque solution est évaluée par rapport à une fonction de fitness, une mesure de la façon dont elle satisfait aux exigences de la tâche. Les réponses de mauvaise qualité sont rejetées, tandis que les candidats les plus prometteurs passent à l’étape suivante.
Affinement : Une innovation unique de l’évolution de l’esprit est le dialogue entre deux personnages au sein du LLM : l’Auteur et le Critique. L’Auteur propose des solutions, tandis que le Critique identifie les défauts et offre des commentaires. Ce dialogue structuré reflète la façon dont les humains affinent les idées grâce à la critique et à la révision. Par exemple, si l’Auteur suggère un plan de voyage qui inclut une visite de restaurant dépassant le budget, le Critique le signale. L’Auteur révise ensuite le plan pour répondre aux préoccupations du Critique. Ce processus permet aux LLM de réaliser une analyse approfondie qu’ils ne pouvaient pas effectuer précédemment en utilisant d’autres techniques de rappel.
Optimisation itérative : Les solutions affinées subissent une évaluation et une recombinaison supplémentaires pour produire des solutions affinées.

En répétant ce cycle, l’évolution de l’esprit améliore de manière itérative la qualité des solutions, permettant aux LLM de traiter des défis complexes plus efficacement.

L’évolution de l’esprit en action

DeepMind a testé cette approche sur des benchmarks tels que TravelPlanner et Natural Plan. En utilisant cette approche, Gemini de Google a obtenu un taux de réussite de 95,2 % sur TravelPlanner, ce qui constitue une amélioration remarquable par rapport à une référence de 5,6 %. Avec le Gemini Pro plus avancé, les taux de réussite ont augmenté à près de 99,9 %. Cette performance transformative montre l’efficacité de l’évolution de l’esprit pour relever des défis pratiques.

Intéressant, l’efficacité du modèle augmente avec la complexité de la tâche. Par exemple, alors que les méthodes à passage unique ont du mal avec des itinéraires de plusieurs jours impliquant plusieurs villes, l’évolution de l’esprit a constamment surpassé, en maintenant des taux de réussite élevés même lorsque le nombre de contraintes a augmenté.

Défis et orientations futures

Malgré son succès, l’évolution de l’esprit n’est pas sans limites. L’approche nécessite des ressources computationnelles importantes en raison des processus d’évaluation et d’affinement itératifs. Par exemple, résoudre une tâche TravelPlanner avec l’évolution de l’esprit a consommé trois millions de jetons et 167 appels API, soit nettement plus que les méthodes conventionnelles. Cependant, l’approche reste plus efficace que les stratégies de force brute comme la recherche exhaustive.

En outre, concevoir des fonctions de fitness efficaces pour certaines tâches pourrait être une tâche difficile. Les recherches futures pourraient se concentrer sur l’optimisation de l’efficacité computationnelle et l’élargissement de l’applicabilité de la technique à un plus large éventail de problèmes, tels que la rédaction créative ou la prise de décision complexe.

Un autre domaine d’exploration intéressant est l’intégration d’évaluateurs spécifiques au domaine. Par exemple, dans le diagnostic médical, l’intégration de connaissances d’experts dans la fonction de fitness pourrait améliorer encore l’exactitude et la fiabilité du modèle.

Applications au-delà de la planification

Bien que l’évolution de l’esprit soit principalement évaluée sur des tâches de planification, elle pourrait être appliquée à divers domaines, notamment la rédaction créative, la découverte scientifique et même la génération de code. Par exemple, les chercheurs ont introduit un benchmark appelé StegPoet, qui défie le modèle d’encoder des messages cachés dans des poèmes. Bien que cette tâche reste difficile, l’évolution de l’esprit dépasse les méthodes traditionnelles en atteignant des taux de réussite allant jusqu’à 79,2 %.

La capacité d’adapter et d’évoluer des solutions en langage naturel ouvre de nouvelles possibilités pour résoudre des problèmes difficiles à formaliser, tels que l’amélioration des flux de travail ou la génération de conceptions de produits innovants. En exploitant le pouvoir des algorithmes évolutifs, l’évolution de l’esprit fournit un cadre flexible et évolutif pour améliorer les capacités de résolution de problèmes des LLM.

En résumé

L’évolution de l’esprit de DeepMind introduit un moyen pratique et efficace de surmonter les limitations clés des LLM. En utilisant l’affinement itératif inspiré de la sélection naturelle, elle améliore la capacité de ces modèles à gérer des tâches complexes et mult étapes qui nécessitent une raison et une planification structurées. L’approche a déjà montré un succès significatif dans des scénarios difficiles tels que la planification de voyage et montre des promesses dans divers domaines, notamment la rédaction créative, la recherche scientifique et la génération de code. Même si des défis tels que les coûts computationnels élevés et la nécessité de fonctions de fitness bien conçues subsistent, l’approche fournit un cadre évolutif pour améliorer les capacités de l’IA. L’évolution de l’esprit ouvre la voie à des systèmes IA plus puissants capables de raisonner et de planifier pour résoudre des défis du monde réel.

Dr. Tehseen Zia

Dr. Tehseen Zia est un professeur associé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en intelligence artificielle de l'Université technique de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté des contributions significatives avec des publications dans des revues scientifiques réputées. Dr. Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi en tant que consultant en intelligence artificielle.