Suivez nous sur

Quand l'IA pense comme les humains : exploration de l'esprit des LLM et des agents

Des leaders d'opinion

Quand l'IA pense comme les humains : exploration de l'esprit des LLM et des agents

mm

Aujourd'hui, les LLM et les agents apprennent, analysent et prennent des décisions d'une manière qui brouille la frontière entre leur « pensée » algorithmique et l'esprit humain. Les approches sur lesquelles ils s'appuient imitent déjà nos processus cognitifs, et l'ampleur de leur formation dépasse de loin l'expérience humaine. Cela soulève la question : créons-nous un outil qui élargit nos capacités, ou donnons-nous naissance à un nouveau type d'esprit dont les conséquences sont encore impossibles à prévoir ?

Comment pensent les modèles

Il est important de distinguer les concepts de LLM et d'agent. Pour faire une analogie avec un ordinateur, un LLM peut être comparé à l'un de ses composants, par exemple le processeur. Un agent, quant à lui, est le système dans son ensemble, une « carte mère » à laquelle sont connectés différents modules : mémoire, carte graphique et réseau. De même, un agent est un système complexe pouvant intégrer un ou plusieurs LLM, complétés par des mécanismes de prise de décision et des outils d'interaction avec l'environnement externe.

Si l'on considère le travail d'un seul LLM, tout se résume à la recherche de motifs. Cependant, lorsqu'un agent enchaîne plusieurs LLM, on peut dire qu'il « réfléchit », bien que ce processus repose toujours sur des motifs. L'agent construit la logique d'interaction entre les modèles : par exemple, un LLM analyse la tâche et, sur la base de cette analyse, il détermine l'action qu'un autre LLM doit effectuer.

La pensée humaine fonctionne de manière similaire : nous nous appuyons sur des connaissances et des schémas accumulés, les sélectionnons au bon moment, les traitons et formulons des conclusions. Ce processus s'appelle le raisonnement.

ChatGPT, comme l'humain, possède deux types de mémoire : à court terme et à long terme. La différence réside dans le fait que, chez l'humain, l'accès à ces niveaux de mémoire est plus complexe et pas toujours linéaire.

La mémoire à court terme correspond aux informations sur lesquelles nous travaillons à l'instant présent. Pour une personne, cela peut être ce que vous avez dit il y a cinq minutes : elle peut s'en souvenir ou non. La mémoire à court terme, en revanche, prend toujours en compte tout ce qui se trouve dans sa « fenêtre contextuelle » ; elle ne peut ignorer ces données.

Chez l'humain, la mémoire à long terme est constituée de souvenirs qui ne sont pas toujours actifs et qui peuvent resurgir uniquement lors de déclencheurs spécifiques : un souvenir d'enfance, un traumatisme ou, par exemple, une consultation avec un psychologue. La TPG suit une logique similaire : elle ne se souvient pas d'informations d'elle-même, sauf activation spécifique. Par exemple, une instruction comme « Ne me pose plus jamais cette question » ou « Toujours m'adresser formellement » peut être stockée en mémoire à long terme et appliquée à chaque séance.

Un autre exemple de mémoire à long terme est celui des documents enregistrés. Imaginez que vous téléchargiez dans GPT une instruction pour réaliser une étude marketing. Le modèle peut la mémoriser, mais cela ne signifie pas qu'il s'y référera à chaque question. Si vous demandez : « Pouvez-vous éclairer la Lune avec une lampe de poche ? », GPT ignorera l'instruction. En revanche, si la requête contient des mots-clés correspondant au texte du document, le modèle peut la « rappeler ».

Ce mécanisme est mis en œuvre par le biais RAG (génération augmentée par récupération), une approche dans laquelle le modèle accède aux informations stockées déclenchées par des signaux pertinents via des bases de données vectorielles.

On peut donc dire que le modèle possède réellement une mémoire, mais qu’il fonctionne selon une logique différente, plus formalisée, distincte de la mémoire humaine.

Pourquoi une conversation avec l'IA semble-t-elle parfois thérapeutique, et d'autres fois froid et robotique ?

Les modèles de langage modernes sont extrêmement volumineux : ils stockent une quantité colossale de données, de connaissances et de contexte. Toutes ces informations sont organisées en « clusters », domaines thématiques et sémantiques. Le modèle a été entraîné sur des sources diverses, allant des articles de fiction et scientifiques aux commentaires YouTube.

Lorsque vous interagissez avec l’IA, votre requête (invite) dirige efficacement le modèle vers un certain cluster.

Par exemple, si vous écrivez : « Vous êtes avocat spécialisé en immobilier à New York et avez 20 ans d’expérience. Aidez-moi à acheter un appartement », le modèle active simultanément plusieurs groupes : avocat → New York → immobilier. Vous obtenez ainsi une réponse cohérente, pertinente et réaliste, comme si vous consultiez un professionnel expérimenté.

Si la question porte sur des sujets plus personnels ou philosophiques, comme le développement personnel ou les émotions, le modèle se déplace vers d'autres groupes, comme la psychologie, la philosophie ou le travail intérieur. Dans ce cas, ses réponses peuvent paraître étonnamment humaines, voire thérapeutiques.

Cependant, avec une formulation trop générale ou vague, le modèle «se perd" dans sa structure en cluster et donne une réponse par défaut, formelle, détachée et dépourvue de ton émotionnel.

Le style et la profondeur de la réponse de l’IA dépendent du groupe vers lequel vous la dirigez avec votre invite.

La philosophie de la formation des modèles et du RLHF

L'intelligence artificielle adopte différentes approches de l'apprentissage. Il ne s'agit pas tant d'une philosophie que d'une stratégie.

L'option classique est l'apprentissage supervisé : le modèle reçoit une question et la bonne réponse. Il apprend en observant ce qui est considéré comme correct, puis reproduit des solutions similaires ultérieurement.

Mais une autre approche est RLHF (Apprentissage par renforcement à partir de la rétroaction humaine)Il s'agit d'un style différent : le modèle tente quelque chose, reçoit une « récompense » pour ses actions réussies et ajuste son comportement. Progressivement, il développe une stratégie efficace.

Le RLHF peut être comparé au processus de transformation d'une matière première en produit fini. Créer un modèle facile à utiliser nécessite un travail colossal, basé sur le retour d'expérience.

Imaginez que je vous montre un objet sans le nommer directement. Vous hésitez : « Est-ce un étui à cigarettes ? Un porte-cartes ? » Je ne donne que des indices comme : « Plus près », « Plus loin », « 60 % oui ». Après des centaines d’itérations, vous devinez : « Ah, c’est un portefeuille. »

Les LLM sont formés de cette façon. Les humains, les annotateurs et les professionnels en général évaluent : telle réponse est bonne, telle autre est mauvaise, et attribuent des notes. Des entreprises comme Marqueur de clés, spécialisée dans l'annotation et la validation de données de haute qualité, joue un rôle clé dans ce processus. Les utilisateurs ordinaires reçoivent également des retours : mentions « J'aime », plaintes et réactions. Le modèle interprète ces signaux et crée des modèles comportementaux.

À quoi ressemble la formation des modèles dans la pratique

A L'expérience d'OpenAI est un exemple frappant formation d'agents utilisant l'apprentissage par renforcement dans le jeu « Cache-cache ».

Deux équipes y participaient : les « chercheurs » (rouges) et les « cacheurs » (bleus). Les règles étaient simples : si un chercheur attrape un cacheur, il gagne un point ; sinon, il en perd un. Au départ, les agents ne disposaient que de capacités physiques de base, comme la course et le saut, sans aucune stratégie prédéfinie.

Au début, les chercheurs agissaient de manière chaotique, et la capture des adversaires se faisait par hasard. Mais après des millions d'itérations, leur comportement a évolué. Les dissimulateurs ont commencé à utiliser les objets environnants pour bloquer les portes et construire des barrières. Ces compétences sont apparues sans programmation directe, uniquement grâce à des tentatives répétées et des récompenses en cas de réussite.

En réponse, les chercheurs commencèrent à utiliser le saut, une capacité disponible dès le début, mais jusque-là ignorée. Après une série d'échecs, l'utilisation aléatoire du saut révéla son intérêt tactique. Les dissimulateurs compliquèrent alors encore davantage leur défense, éliminant les objets de leur champ de vision et construisant des abris plus fiables.

L'expérience a montré qu'après des milliards de cycles d'essais, d'erreurs, de récompenses et de pénalités, un comportement coopératif complexe peut se former sans intervention du développeur. De plus, les agents ont commencé à agir de manière coordonnée, même si les mécanismes de communication n'étaient pas programmés, simplement parce que le travail d'équipe s'est avéré plus efficace.

Il en va de même pour les grands modèles linguistiques. Il est impossible d'écrire tous les scénarios : le monde est trop vaste et très variable. Par conséquent, nous n'enseignons pas au modèle des règles fixes ; nous lui apprenons à apprendre.

C'est là toute la valeur du RLHF. Sans lui, un LLM et ses agents ne restent qu'une simple bibliothèque de textes. Grâce à lui, il devient un interlocuteur capable de s'adapter, de se corriger et, par conséquent, d'évoluer.

Quel est le prochain?

Beaucoup se demandent si les LLM et les développements d’agents pourraient entraîner des conséquences indésirables, voire dangereuses.

Il est important de comprendre que ce que nous voyons aujourd’hui n’est même pas un MVP, mais simplement un prototype.

La véritable révolution ne consistera pas à aider à écrire une belle lettre ou à la traduire en français. Ce sont des détails mineurs. L'objectif principal est l'automatisation des microtâches et des processus routiniers, ne laissant aux humains que des tâches véritablement créatives et intellectuelles ou du temps pour se reposer.

Les véritables innovations se concentrent sur les agents, des systèmes capables de penser, d'agir et de prendre des décisions de manière autonome, plutôt que de recourir à une personne. C'est précisément sur ce point que des entreprises comme OpenAI, Google, Meta et d'autres concentrent leurs efforts aujourd'hui.

Les grands modèles linguistiques ne sont que la base. Le véritable avenir réside dans des agents formés pour vivre dans un monde dynamique, recevoir du feedback et s'adapter aux changements.

Michael Abramov est le fondateur et PDG de Introspecteur, apportant plus de 15 ans d'expérience en ingénierie logicielle et en systèmes d'IA de vision par ordinateur à la création d'outils d'étiquetage de niveau entreprise.

Michael a débuté sa carrière comme ingénieur logiciel et responsable R&D, concevant des systèmes de données évolutifs et gérant des équipes d'ingénierie pluridisciplinaires. Jusqu'en 2025, il a occupé le poste de PDG de Marqueur de clés, une société de services d'étiquetage de données, où il a été un pionnier des flux de travail avec intervention humaine, des systèmes d'assurance qualité avancés et des outils sur mesure pour répondre aux besoins en données de vision par ordinateur et d'autonomie à grande échelle.

Titulaire d'une licence en informatique et fort d'une expérience en ingénierie et en arts créatifs, il apporte une vision multidisciplinaire à la résolution de problèmes complexes. Michael évolue au carrefour de l'innovation technologique, du leadership stratégique en matière de produits et de l'impact concret, contribuant à repousser les frontières des systèmes autonomes et de l'automatisation intelligente.