Connect with us

Leaders d’opinion

Comment les LLM peuvent-ils vraiment raisonner à travers des problèmes compliqués ?

mm

L’introduction et l’évolution de l’intelligence artificielle générative ont été si soudaines et intenses qu’il est vraiment difficile d’apprécier pleinement à quel point cette technologie a changé notre vie.

Faites un zoom arrière à seulement trois ans. Oui, l’IA devenait plus omniprésente, au moins en théorie. Plus de gens connaissaient certaines des choses qu’elle pouvait faire, bien qu’il y ait eu de grandes malentendus sur les capacités de l’IA. D’une manière ou d’une autre, la technologie a été donnée simultanément pas assez et trop de crédit pour ce qu’elle pouvait réellement accomplir. Néanmoins, la personne moyenne pouvait pointer au moins une ou deux zones où l’IA était à l’œuvre, effectuant des tâches hautement spécialisées assez bien, dans des environnements hautement contrôlés. Tout au-delà de cela était soit encore dans un laboratoire de recherche, soit tout simplement n’existait pas.

Comparez cela à aujourd’hui. Avec zéro compétences autres que la capacité d’écrire une phrase ou de poser une question, le monde est à notre portée. Nous pouvons générer des images, de la musique et même des films qui sont vraiment uniques et incroyables, et ont la capacité de perturber des industries entières. Nous pouvons turbocharger notre processus de moteur de recherche, en posant une simple question qui, si elle est formulée correctement, peut générer des pages de contenu personnalisé suffisamment bon pour passer pour un universitaire formé ou un élève de troisième année moyenne si nous spécifions le point de vue. Alors qu’ils sont devenus, en un an ou deux, courants, ces capacités étaient considérées comme absolument impossibles il y a quelques années à peine. Le domaine de l’intelligence artificielle générative existait mais n’avait pas décollé d’aucune manière.

Aujourd’hui, de nombreuses personnes ont expérimenté l’intelligence artificielle générative telle que ChatGPT, Midjourney ou d’autres outils. D’autres les ont déjà intégrés dans leur vie quotidienne. La vitesse à laquelle ceux-ci ont évolué est dévorante au point d’être presque alarmante. Et étant donné les progrès des six derniers mois, nous allons sans doute être bluffés, encore et encore, dans les prochaines années.

Un outil spécifique en jeu au sein de l’intelligence artificielle générative a été la performance des systèmes de génération augmentée de récupération (RAG), et leur capacité à réfléchir à des requêtes particulièrement complexes. L’introduction du dataset FRAMES, expliqué en détail dans un article sur la façon dont le dataset d’évaluation fonctionne, montre à la fois où se situe l’état de l’art actuel et où il est dirigé. Même depuis l’introduction de FRAMES à la fin de 2024, un certain nombre de plateformes ont déjà battu de nouveaux records sur leur capacité à raisonner à travers des requêtes difficiles et complexes.

Plongeons dans ce que FRAMES est censé évaluer et comment les différents modèles d’intelligence artificielle générative se comportent. Nous pouvons voir comment la décentralisation et les plateformes open-source ne tiennent pas seulement leur terrain (notamment Sentient Chat), mais permettent également aux utilisateurs d’avoir un aperçu clair de la raison incroyable que certains modèles d’IA sont capables d’atteindre.

FRAMES comme une fenêtre dans le cerveau de la GenAI

Le dataset FRAMES et son processus d’évaluation se concentrent sur 824 questions « multi-hop » conçues pour nécessiter une inférence, des connecteurs logiques, l’utilisation de plusieurs sources pour récupérer des informations clés et la capacité de les relier logiquement pour répondre à la question. Les questions nécessitent entre deux et 15 documents pour y répondre correctement et incluent également des contraintes, des calculs mathématiques et des déductions, ainsi que la capacité de traiter la logique basée sur le temps. En d’autres termes, ces questions sont extrêmement difficiles et représentent réellement des tâches de recherche du monde réel que pourrait entreprendre un humain sur Internet. Nous rencontrons ces défis tout le temps et devons rechercher les pièces clés d’information éparpillées dans une mer de sources Internet, en reconstituant l’information en fonction de différents sites, en créant de nouvelles informations en calculant et en déduisant, et en comprenant comment consolider ces faits pour obtenir une réponse correcte à la question.

Ce que les chercheurs ont découvert lorsque le dataset a été publié et testé pour la première fois, c’est que les meilleurs modèles de GenAI étaient capables d’être assez précis (environ 40 %) lorsqu’ils devaient répondre en utilisant des méthodes à une seule étape, mais pouvaient atteindre une précision de 73 % s’ils étaient autorisés à collecter tous les documents nécessaires pour répondre à la question. Oui, 73 % peuvent ne pas sembler une révolution. Mais si vous comprenez exactement ce qui doit être répondu, le nombre devient beaucoup plus impressionnant.

Par exemple, une question particulière est : « Quelle année le chef d’orchestre du groupe qui a originellement interprété la chanson échantillonnée dans la chanson de Kanye West Power est-il né ? » Comment un humain irait-il résoudre ce problème ? La personne pourrait voir qu’elle a besoin de rassembler divers éléments d’information, tels que les paroles de la chanson de Kanye West appelée « Power », puis être capable de parcourir les paroles et d’identifier le point de la chanson qui échantillonne réellement une autre chanson. Nous, en tant qu’humains, pourrions probablement écouter la chanson (même si nous ne la connaissons pas) et être capable de dire quand une autre chanson est échantillonnée.

Mais réfléchissez-y : qu’est-ce qu’un modèle de GenAI devrait accomplir pour détecter une chanson autre que l’originale en « écoutant » ? C’est là qu’une question basique devient un excellent test d’IA vraiment intelligente. Et si nous étions capables de trouver la chanson, de l’écouter et d’identifier les paroles échantillonnées, ce n’est que l’étape 1. Nous devons encore découvrir le nom de la chanson, le nom du groupe, qui est le chef de ce groupe et quelle année cette personne est née.

FRAMES montre que pour répondre à des questions réalistes, un énorme traitement de pensée est nécessaire. Deux choses me viennent à l’esprit ici.

Premièrement, la capacité des modèles de GenAI décentralisés à ne pas seulement concurrencer, mais potentiellement dominer les résultats, est incroyable. Un nombre croissant d’entreprises utilisent la méthode décentralisée pour mettre à l’échelle leurs capacités de traitement tout en garantissant qu’une grande communauté possède le logiciel, et non une boîte noire centralisée qui ne partagera pas ses progrès. Des entreprises comme Perplexity et Sentient sont à la tête de cette tendance, chacune avec des modèles formidables performant au-dessus des premiers records d’exactitude lors de la publication de FRAMES.

Le deuxième élément est qu’un petit nombre de ces modèles d’IA ne sont pas seulement décentralisés, mais également open-source. Par exemple, Sentient Chat est les deux, et les premiers tests montrent à quel point sa réflexion peut être complexe, grâce à l’accès open-source inestimable. La question FRAMES ci-dessus est répondu en utilisant le même processus de pensée qu’un humain utiliserait, avec des détails de raisonnement disponibles pour examen. Peut-être encore plus intéressant, leur plateforme est structurée comme une série de modèles qui peuvent affiner une perspective et une performance données, même si le processus d’affinage dans certains modèles de GenAI entraîne une diminution de l’exactitude. Dans le cas de Sentient Chat, de nombreux modèles différents ont été développés. Par exemple, un modèle récent appelé « Dobby 8B » est capable de surpasser le benchmark FRAMES, mais également de développer une attitude distincte pro-crypto et pro-liberté, qui affecte la perspective du modèle lorsqu’il traite des pièces d’information et développe une réponse.

À l’horizon

La clé de toutes ces innovations étonnantes est la vitesse rapide qui nous a amenés ici. Nous devons reconnaître que, aussi vite que cette technologie a évolué, elle ne fera que continuer à évoluer encore plus vite dans un avenir proche. Nous allons être capables de voir, en particulier avec les modèles de GenAI décentralisés et open-source, ce seuil crucial où l’intelligence du système commence à dépasser de plus en plus la nôtre, et ce que cela signifie pour l’avenir.

David Balaban est un chercheur en sécurité informatique avec plus de 17 ans d'expérience dans l'analyse des logiciels malveillants et l'évaluation des logiciels antivirus. David dirige les projets MacSecurity.net et Privacy-PC.com qui présentent des opinions d'experts sur les questions de sécurité de l'information contemporaines, notamment l'ingénierie sociale, les logiciels malveillants, les tests de pénétration, l'intelligence des menaces, la vie privée en ligne et le piratage de chapeau blanc. David a une solide expérience de dépannage des logiciels malveillants, avec une récente concentration sur les contre-mesures contre les rançongiciels.