Intelligence artificielle
Comment les LLMs nous obligent à réévaluer l’intelligence

Il existe un vieux dicton : Si cela ressemble à un canard, nage comme un canard et crie comme un canard, alors il s’agit probablement d’un canard. Cette façon simple de raisonner, souvent liée au poète de l’Indiana James Whitcomb Riley, a façonné notre façon de penser l’intelligence artificielle pendant des décennies. L’idée que le comportement suffit pour identifier l’intelligence a inspiré le célèbre “Jeu d’imitation” d’Alan Turing, maintenant appelé le test de Turing.
Turing a suggéré que si un humain ne peut pas déterminer s’il converse avec une machine ou un autre humain, alors la machine peut être considérée comme intelligente. À la fois le test du canard et le test de Turing suggèrent que ce qui compte, ce n’est pas ce qui se trouve à l’intérieur d’un système, mais comment il se comporte. Pendant des décennies, ce test a guidé les progrès de l’IA. Mais avec l’arrivée des grands modèles de langage (LLM), la situation a changé. Ces systèmes peuvent écrire du texte fluide, tenir des conversations et résoudre des tâches de manière remarquablement humaine. La question n’est plus de savoir si les machines peuvent imiter la conversation humaine, mais si cette imitation est une véritable intelligence. Si un système peut écrire comme nous, raisonner comme nous et même créer comme nous, devrions-nous l’appeler intelligent ? Ou le comportement seul ne suffit-il plus pour mesurer l’intelligence ?
L’évolution de l’intelligence des machines
Les grands modèles de langage ont changé notre façon de penser l’IA. Ces systèmes, autrefois limités à la génération de réponses textuelles de base, peuvent maintenant résoudre des problèmes logiques, écrire du code informatique, rédiger des histoires et même aider à des tâches créatives comme l’écriture de scénarios. Un développement clé dans cette progression est leur capacité à résoudre des problèmes complexes par un raisonnement étape par étape, appelé raisonnement en chaîne de pensées. En décomposant un problème en parties plus petites, un LLM peut résoudre des problèmes mathématiques complexes ou des puzzles logiques d’une manière qui ressemble à la résolution de problèmes humaine. Cette capacité leur a permis de correspondre ou même de dépasser les performances humaines sur des références avancées comme MATH ou GSM8K. Aujourd’hui, les LLM possèdent également des capacités multimodales. Ils peuvent travailler avec des images, interpréter des scans médicaux, expliquer des puzzles visuels et décrire des diagrammes complexes. Avec ces progrès, la question n’est plus de savoir si les LLM peuvent imiter le comportement humain, mais si ce comportement reflète une véritable compréhension.
Traces de pensée humaine
Le succès des LLM est en train de redéfinir notre compréhension de l’intelligence. L’accent est mis sur l’exploration de la façon dont les LLM reflètent la pensée humaine dans la façon dont ils traitent l’information (c’est-à-dire une véritable pensée humaine). Par exemple, dans une étude récente, les chercheurs ont comparé le fonctionnement interne des modèles d’IA avec l’activité cérébrale humaine. L’étude a constaté que les LLM avec plus de 70 milliards de paramètres, non seulement atteignaient un niveau de précision humain, mais organisaient également l’information de manière interne qui correspondait aux modèles cérébraux humains.
Lorsque les humains et les modèles d’IA ont travaillé sur des tâches de reconnaissance de motifs, les scans cérébraux ont montré des modèles d’activité similaires chez les participants humains et les modèles d’IA correspondants. Les modèles ont regroupé des concepts abstraits dans leurs couches internes de manière qui correspondait directement à l’activité des ondes cérébrales humaines. Cela suggère que la réussite du raisonnement pourrait nécessiter des structures organisationnelles similaires, que ce soit dans des systèmes biologiques ou artificiels.
Cependant, les chercheurs sont prudents à noter les limites de ce travail. L’étude a impliqué un nombre relativement faible de participants humains, et les humains et les machines ont abordé les tâches différemment. Les humains ont travaillé avec des motifs visuels tandis que les modèles d’IA ont traité des descriptions textuelles. La corrélation entre le traitement humain et machine est intrigante, mais elle ne prouve pas que les machines comprennent les concepts de la même manière que les humains.
Il existe également des différences de performance claires. Alors que les meilleurs modèles d’IA ont approché le niveau de précision humain sur des motifs simples, ils ont montré des baisses de performance plus dramatiques sur les tâches les plus complexes par rapport aux participants humains. Cela suggère que, malgré des similitudes dans l’organisation, il peut y avoir des différences fondamentales dans la façon dont les humains et les machines traitent des concepts abstraits difficiles.
La perspective sceptique
Malgré ces découvertes impressionnantes, un argument solide suggère que les LLM ne sont rien de plus qu’un très habile simulateur. Cette vue vient de l’expérience de pensée du philosophe John Searle, la “salle chinoise“, qui illustre pourquoi le comportement peut ne pas être égal à la compréhension.
Dans cette expérience de pensée, Searle nous demande d’imaginer une personne enfermée dans une pièce et qui ne parle que l’anglais. La personne reçoit des symboles chinois et utilise un livre de règles en anglais pour manipuler ces symboles et produire des réponses. De l’extérieur de la pièce, ses réponses ressemblent exactement à celles d’un locuteur chinois natif. Cependant, Searle soutient que la personne ne comprend rien au chinois. Il suit simplement des règles sans véritable compréhension.
Les critiques appliquent la même logique aux LLM. Ils soutiennent que ces systèmes sont des “perroquets stochastiques” qui génèrent des réponses en fonction de modèles statistiques dans leurs données d’entraînement, et non d’une véritable compréhension. Le terme “stochastique” fait référence à leur nature probabiliste, tandis que “perroquet” met l’accent sur leur comportement imitatif sans véritable compréhension.
Plusieurs limites techniques des LLM soutiennent également cet argument. Les LLM génèrent fréquemment des “hallucinations” ; des réponses qui semblent plausibles mais sont complètement incorrectes, trompeuses et sans sens. Cela se produit parce qu’ils sélectionnent des mots statistiquement plausibles plutôt que de consulter une base de connaissances interne ou de comprendre la vérité et la fausseté. Ces modèles reproduisent également des erreurs et des biais humains. Ils sont déconcertés par des informations non pertinentes que les humains ignoreront facilement. Ils présentent des stéréotypes raciaux et de genre parce qu’ils ont appris à partir de données contenant ces biais. Une autre limitation révélatrice est le “biais de position”, où les modèles surestiment l’information au début ou à la fin de longs documents tout en négligeant le contenu du milieu. Ce phénomène “perdu dans le milieu” suggère que ces systèmes traitent l’information très différemment des humains, qui peuvent maintenir leur attention sur l’ensemble des documents.
Ces limites mettent en évidence un défi central : même si les LLM excellent à reconnaître et à reproduire des modèles de langage, cela ne signifie pas qu’ils comprennent vraiment le sens ou le contexte du monde réel. Ils performent bien pour gérer la syntaxe mais restent limités lorsqu’il s’agit de la sémantique.
Qu’est-ce qui compte comme intelligence ?
Le débat se résume finalement à la façon dont nous définissons l’intelligence. Si l’intelligence est la capacité de générer un langage cohérent, de résoudre des problèmes et de s’adapter à de nouvelles situations, alors les LLM répondent déjà à cette norme. Cependant, si l’intelligence nécessite une conscience de soi, une véritable compréhension ou une expérience subjective, ces systèmes sont encore en deçà.
La difficulté est que nous manquons d’une façon claire ou objective de mesurer des qualités comme la compréhension ou la conscience. Chez les humains et les machines, nous les déduisons du comportement. Le test du canard et le test de Turing ont autrefois fourni des réponses élégantes, mais à l’ère des LLM, ils peuvent ne plus suffire. Leurs capacités nous obligent à reconsidérer ce qui compte vraiment comme intelligence et si nos définitions traditionnelles suivent le rythme de la réalité technologique.
Le point clé
Les grands modèles de langage remettent en question notre façon de définir l’intelligence artificielle. Ils peuvent imiter le raisonnement, générer des idées et effectuer des tâches autrefois considérées comme uniques aux humains. Pourtant, ils manquent de conscience et de fondement qui façonnent une véritable pensée humaine. Leur ascension nous oblige à nous demander non seulement si les machines agissent de manière intelligente, mais ce que signifie réellement l’intelligence.












