Connect with us

Intelligence artificielle

Les modèles d’IA fournissent des informations sur la façon dont le cerveau traite le langage

mm

De nouvelles recherches issues du Massachusetts Institute of Technology suggèrent que la fonction sous-jacente des modèles de prédiction de « prochain mot » ressemble à la fonction des centres de traitement du langage dans le cerveau humain.

Sens du langage

Les nouveaux modèles de langage prédictifs pourraient apprendre quelque chose sur le sens sous-jacent du langage, ce qui constituerait un énorme progrès dans le domaine. Les modèles prédisent le mot qui vient ensuite, mais ils effectuent également des tâches qui nécessitent un certain degré de compréhension réelle. Ces tâches incluent la réponse aux questions, la synthèse de documents et la complétion d’histoires.
Les modèles ont été conçus pour optimiser les performances pour prédire le texte sans essayer de reproduire quoi que ce soit concernant la façon dont le cerveau humain comprend le langage. Cependant, l’équipe de neuroscientifiques du MIT suggère que quelque chose se passe à cet égard.
L’une des découvertes les plus intéressantes de cette recherche est que les modèles informatiques qui fonctionnent bien sur d’autres types de tâches de langage ne montrent pas cette ressemblance avec le cerveau humain. Cela est considéré comme une preuve que le cerveau humain pourrait utiliser la prédiction du prochain mot pour effectuer le traitement du langage.
Nancy Kanwisher est professeur de neurosciences cognitives Walter A. Rosenblith. Elle est également membre de l’Institut de recherche sur le cerveau McGovern du MIT et du Centre pour les cerveaux, les esprits et les machines (CBMM), et auteur de l’étude.
“Plus le modèle est performant pour prédire le prochain mot, plus il correspond étroitement au cerveau humain”, déclare Kanwisher. “C’est incroyable que les modèles correspondent si bien, et cela suggère indirectement que peut-être ce que fait le système linguistique humain, c’est prédire ce qui va se passer ensuite.”
L’étude a été publiée dans les Proceedings of the National Academy of Sciences.
Elle comprenait également des auteurs seniors Joshue Tenenbaum, professeur de sciences cognitives au MIT et membre de CBMM et du CSAIL du MIT ; et Eveline Fedorenko, professeur associé de neurosciences Frederick A. et Carole J. Middleton et membre de l’Institut de recherche sur le cerveau McGovern. Le premier auteur de l’article était Martin Schrimpf, un étudiant diplômé du MIT.

L’étude

L’équipe du MIT a comparé les centres de traitement du langage dans le cerveau humain avec les modèles de traitement du langage. Ils ont analysé 43 modèles de langage différents, notamment ceux qui sont optimisés pour la prédiction du prochain mot, tels que GPT-3. D’autres modèles étaient conçus pour effectuer des tâches de langage différentes, telles que remplir un espace vide.
Chaque modèle a été présenté avec une chaîne de mots, et les chercheurs ont mesuré l’activité des nœuds qui composent le réseau. Les modèles ont ensuite été comparés à l’activité dans le cerveau, qui ont été mesurés chez des sujets effectuant trois tâches de langage : écouter des histoires, lire des phrases une à la fois et lire des phrases dont un mot est révélé à la fois.
Les ensembles de données humains comprenaient des données de résonance magnétique fonctionnelle (IRMf) et des mesures électrocorticographiques intracraniennes prises chez des personnes subissant une chirurgie du cerveau pour l’épilepsie.
Les chercheurs ont constaté que les modèles de prédiction du prochain mot les plus performants présentaient des modèles d’activité qui ressemblaient étroitement à ceux observés dans le cerveau humain. Ces mêmes modèles ont également présenté une activité fortement corrélée avec des mesures de comportement humain, telles que la vitesse à laquelle les gens peuvent lire le texte.
“Nous avons constaté que les modèles qui prédisent bien les réponses neuronales prédisent également le mieux les réponses comportementales humaines, sous forme de temps de lecture. Et les deux sont expliqués par les performances du modèle sur la prédiction du prochain mot. Ce triangle relie vraiment tout”, déclare Schrimpf.
Les chercheurs vont maintenant élaborer des variantes des modèles de traitement du langage, ce qui leur permettra de voir comment de petits changements dans leur architecture affectent les performances et leur capacité à correspondre aux données neuronales humaines.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.