Leaders d’opinion
Lorsque l’IA pense comme les humains : Explorer l’esprit des LLM et des agents

Aujourd’hui, les LLM et les agents apprennent, analysent et prennent des décisions de manière à brouiller la frontière entre leur “pensée” algorithmique et l’esprit humain. Les approches sur lesquelles ils sont construits imitent déjà nos processus cognitifs, et l’échelle de leur formation dépasse l’expérience humaine de plusieurs ordres de grandeur. Cela soulève la question : créons-nous un outil qui étend nos capacités, ou donnons-nous naissance à un nouveau type d’esprit dont les conséquences sont encore impossibles à prédire ?
Comment les modèles pensent
Il est important de distinguer les concepts de LLM et d’agents. Pour tirer une analogie avec un ordinateur, un LLM peut être comparé à l’un de ses composants, par exemple, le processeur. Un agent, cependant, est l’ensemble du système, une “carte mère” à laquelle sont connectés divers modules : mémoire, carte graphique et réseau. De même, un agent est un système complexe qui peut incorporer un ou plusieurs LLM, complétés par des mécanismes de prise de décision et des outils pour interagir avec l’environnement externe.
Si l’on considère le travail d’un seul LLM, tout se résume à la recherche de modèles. Cependant, lorsque l’agent enchaîne plusieurs LLM, on peut dire qu’il “pense”, bien que ce processus soit encore basé sur des modèles. L’agent construit la logique d’interaction entre les modèles : par exemple, un LLM analyse la tâche, et en fonction de cette analyse, l’agent détermine quelle action un autre LLM doit effectuer.
La pensée humaine fonctionne de manière similaire : nous nous appuyons sur les connaissances et les modèles accumulés, les sélectionnons au bon moment, les traitons et formons des conclusions. Ce processus s’appelle le raisonnement.
ChatGPT, comme un humain, a deux types de mémoire : à court terme et à long terme. La différence est que chez les humains, l’accès à ces niveaux de mémoire est plus complexe et pas toujours linéaire.
La mémoire à court terme est l’information avec laquelle nous travaillons actuellement. Pour une personne, il peut s’agir de ce que vous avez dit il y a cinq minutes : elle se souvient peut-être ou peut-être pas. GPT, cependant, prend toujours en compte tout ce qui se trouve dans sa “fenêtre de contexte” – il ne peut pas sauter ou ignorer ces données.
La mémoire à long terme chez les humains se compose de souvenirs qui ne sont pas toujours actifs et peuvent ne surgir qu’avec des déclencheurs spécifiques : un souvenir d’enfance, un traumatisme ou, par exemple, un travail avec un psychologue. GPT a une logique similaire : il ne “rappelle” pas d’informations à moins qu’il ne soit spécifiquement activé. Par exemple, une instruction comme “Ne me posez jamais cette question à nouveau” ou “Adressez-moi toujours de manière formelle” peut être stockée en mémoire à long terme et appliquée lors de chaque session.
Un autre exemple de mémoire à long terme est les documents sauvegardés. Supposons que vous ayez téléchargé sur GPT une instruction pour réaliser une étude de marché. Le modèle peut la stocker en mémoire, mais cela ne signifie pas qu’il fera référence à ce document pour chaque question. Si vous demandez : “Pouvez-vous éclairer la Lune avec une lampe de poche ?”, GPT ignorera l’instruction. Mais si la demande contient des mots clés correspondant au texte du document, le modèle peut “se souvenir” de celui-ci.
Ce mécanisme est mis en œuvre via RAG (Retrieval-Augmented Generation), une approche où le modèle accède à des informations stockées déclenchées par des indices pertinents via des bases de données vectorielles.
Ainsi, on peut dire que le modèle a vraiment une mémoire, mais qu’elle fonctionne selon une logique plus formalisée, distincte de la mémoire humaine.
Pourquoi une conversation avec l’IA peut parfois sembler thérapeutique, et d’autres fois froide et robotique ?
Les modèles de langage modernes sont extrêmement grands : ils stockent une quantité colossale de données, de connaissances et de contexte. Toutes ces informations sont organisées en des zones thématiques et sémantiques appelées “clusters”. Le modèle a été formé à partir de sources diverses, allant de la fiction et des articles scientifiques aux commentaires YouTube.
Lorsque vous interagissez avec l’IA, votre requête (invite) dirige effectivement le modèle vers un certain cluster.
Par exemple, si vous écrivez : “Vous êtes un avocat en droit immobilier à New York avec 20 ans d’expérience, aidez-moi à acheter un appartement”, le modèle active plusieurs clusters à la fois : avocat → New York → droit immobilier. En conséquence, vous recevez une réponse cohérente, pertinente et réaliste, comme si vous consultiez vraiment un professionnel expérimenté.
Si la requête concerne des sujets plus personnels ou philosophiques, tels que l’auto-amélioration ou les émotions, le modèle “se déplace” vers d’autres clusters, tels que la psychologie, la philosophie ou le travail intérieur. Dans ce cas, ses réponses peuvent sembler étonnamment humaines et même thérapeutiques.
Cependant, avec une formulation trop générale ou vague, le modèle “se perd” dans sa structure de cluster et donne une réponse par défaut, formelle, détachée et dépourvue de tonalité émotionnelle.
Le style et la profondeur de la réponse de l’IA dépendent du cluster vers lequel vous le dirigez avec votre invite.
La philosophie de la formation de modèle et RLHF
L’intelligence artificielle a différentes approches d’apprentissage. Ce n’est pas tant une philosophie qu’une stratégie.
L’option classique est l’apprentissage supervisé, où le modèle reçoit une question et la bonne réponse. Il apprend en observant ce qui est considéré comme correct et reproduit ensuite des solutions similaires à l’avenir.
Mais une autre approche est RLHF (Reinforcement Learning from Human Feedback). C’est un style différent : le modèle tente quelque chose, reçoit une “récompense” pour des actions réussies et ajuste son comportement. Progressivement, il développe une stratégie efficace.
Le RLHF peut être comparé au processus de transformation de la matière brute en produit fini. Pour créer un modèle pratique, un travail colossal avec des commentaires humains est nécessaire.
Imaginez que je vous montre un objet sans le nommer directement. Vous hésitez : “Est-ce un étui à cigarettes ? Un portefeuille de cartes ?” Je ne donne que des indices comme : “Plus près”, “Plus loin”, “60 % oui”. Après des centaines de telles itérations, vous devinez : “Ah, c’est un portefeuille”.
Les LLM sont formés de cette manière. Les humains, les annotateurs et les professionnels en général évaluent : cette réponse est bonne, celle-ci est mauvaise, et attribuent des scores. Des entreprises comme Keymakr, qui se spécialisent dans l’annotation et la validation de données de haute qualité, jouent un rôle clé dans ce processus. Les commentaires proviennent également des utilisateurs ordinaires : les likes, les plaintes et les réactions. Le modèle interprète ces signaux, formant des modèles de comportement.
Comment la formation de modèle se déroule dans la pratique
Un exemple vivant est l’expérience d’OpenAI en formation d’agents à l’aide d’un apprentissage par renforcement dans le jeu “Cache-cache”.
Deux équipes ont participé : les “chercheurs” (rouge) et les “cachés” (bleu). Les règles étaient simples : si un chercheur attrape un caché, il gagne un point ; sinon, il en perd un. Au début, les agents ne possédaient que des capacités physiques de base, courir et sauter, sans stratégie prédéfinie.
Au début, les chercheurs agissaient de manière chaotique, et la capture des adversaires se produisait par hasard. Mais après des millions d’itérations, leur comportement a évolué. Les cachés ont commencé à utiliser des objets environnants pour bloquer les portes et construire des barrières. Ces compétences sont apparues sans programmation directe, uniquement à travers des tentatives répétées et des récompenses pour les succès.
En réponse, les chercheurs ont commencé à utiliser le saut, une capacité disponible dès le début mais précédemment ignorée. Après une série d’échecs, l’utilisation aléatoire du saut a révélé sa valeur tactique. Ensuite, les cachés ont compliqué leur défense, en supprimant les objets de la ligne de mire des chercheurs et en construisant des abris plus fiables.
L’expérience a montré que, à travers des milliards de cycles d’essai, d’erreur, de récompenses et de pénalités, un comportement coopératif complexe peut se former sans intervention du développeur. De plus, les agents ont commencé à agir de manière coordonnée, même si les mécanismes de communication n’avaient pas été programmés, simplement parce que le travail d’équipe s’est avéré plus efficace.
C’est la même chose avec les grands modèles de langage. Il est impossible de programmer tous les scénarios : il y a trop de situations et trop de variabilité dans le monde. Par conséquent, nous n’enseignons pas au modèle des règles fixes ; nous lui enseignons comment apprendre.
C’est la valeur du RLHF. Sans cela, un LLM et des agents ne sont qu’une bibliothèque de textes. Avec cela, il devient un partenaire de conversation capable de s’adapter, de se corriger et, en substance, d’évoluer.
Qu’est-ce qui vient ensuite ?
Beaucoup se demandent si les développements de LLM et d’agents pourraient conduire à des conséquences indésirables ou même dangereuses.
Il est important de comprendre que ce que nous voyons aujourd’hui n’est même pas un MVP, mais simplement un prototype.
La véritable révolution ne consistera pas à aider à écrire une belle lettre ou à la traduire en français. Ce sont des choses mineures. La direction principale est l’automatisation des microtâches et des processus routiniers, laissant aux humains uniquement des tâches véritablement créatives, intellectuelles ou du temps pour se reposer.
Les véritables innovations sont axées sur les agents, les systèmes qui peuvent penser, agir et prendre des décisions de manière autonome, au lieu d’une personne. C’est précisément là que des entreprises comme OpenAI, Google, Meta et d’autres concentrent leurs efforts aujourd’hui.
Les grands modèles de langage ne sont que la base. L’avenir réel réside dans les agents formés pour vivre dans un monde dynamique, recevoir des commentaires et s’adapter aux changements.












