Des leaders d'opinion

Dans quelle mesure les LLM parviennent-ils réellement à résoudre des problèmes complexes ?

Publié 28 mars

David Balaban

L'introduction et l'évolution de IA générative Les changements ont été si soudains et intenses qu’il est en réalité assez difficile d’apprécier pleinement à quel point cette technologie a changé nos vies.

Il y a seulement trois ans, l'IA gagnait en popularité. Certes, l'IA devenait de plus en plus omniprésente, du moins en théorie. De plus en plus de gens connaissaient ses capacités, même si, malgré cela, de nombreuses incompréhensions subsistaient quant à ses capacités. On accordait à la technologie à la fois trop peu et trop peu de crédit pour ses véritables réalisations. Pourtant, le citoyen lambda pouvait identifier au moins un ou deux domaines où l'IA était à l'œuvre, réalisant des tâches hautement spécialisées. plutôt bien, dans des environnements hautement contrôlés. Tout ce qui allait au-delà se trouvait encore dans un laboratoire de recherche, ou n'existait tout simplement pas.

Comparez cela à aujourd'hui. Sans aucune compétence autre que celle d'écrire une phrase ou de poser une question, le monde est à portée de main. Nous pouvons générer des images, de la musique et même des films véritablement uniques et étonnants, capables de révolutionner des secteurs entiers. Nous pouvons optimiser notre moteur de recherche en posant une simple question qui, si elle est bien formulée, peut générer des pages de contenu personnalisé suffisamment pertinentes pour passer pour un universitaire… ou un élève de CE2 moyen si l'on précise le point de vue. Bien qu'elles soient devenues courantes en un an ou deux seulement, ces capacités étaient considérées comme absolument impossibles il y a quelques années à peine. Le domaine de l'IA générative existait, mais n'avait pas encore décollé.

Aujourd'hui, nombreux sont ceux qui ont expérimenté l'IA générative comme ChatGPT, Midjourney ou d'autres outils. D'autres les ont déjà intégrées à leur quotidien. La vitesse à laquelle elles ont évolué est fulgurante, voire alarmante. Et compte tenu des avancées des six derniers mois, nous serons sans aucun doute époustouflés, encore et encore, dans les années à venir.

Un outil spécifique utilisé dans l'IA générative est la performance des systèmes de génération augmentée par récupération (RAG) et leur capacité à traiter des requêtes particulièrement complexes. L'introduction de CADRES ensemble de données, expliqué en détail dans un article Le fonctionnement de l'ensemble de données d'évaluation montre l'état actuel de l'art et son évolution. Depuis l'introduction de FRAMES fin 2024, plusieurs plateformes ont déjà battu de nouveaux records de capacité à traiter des requêtes complexes et difficiles.

Examinons de plus près ce que FRAMES est censé évaluer et les performances des différents modèles d'IA générative. Nous constatons que la décentralisation et les plateformes open source non seulement résistent (notamment Chat sensible), ils permettent aux utilisateurs d’avoir un aperçu clair du raisonnement étonnant que certains modèles d’IA sont capables de réaliser.

FRAMES comme fenêtre sur le cerveau GenAI

L'ensemble de données FRAMES et son processus d'évaluation reposent sur 824 questions « multi-sauts » conçues pour exiger des inférences, des liens logiques, l'utilisation de plusieurs sources différentes pour extraire des informations clés et la capacité à les assembler logiquement pour répondre à la question. Ces questions nécessitent entre deux et quinze documents pour y répondre correctement, et incluent également volontairement des contraintes, des calculs et des déductions mathématiques, ainsi que la capacité à traiter une logique temporelle. Autrement dit, ces questions sont extrêmement difficiles et représentent des tâches de recherche très concrètes qu'un humain pourrait entreprendre sur Internet. Nous sommes confrontés à ces défis en permanence : nous devons rechercher des informations clés dispersées dans un océan de sources Internet, reconstituer des informations provenant de différents sites, créer de nouvelles informations par calcul et déduction, et comprendre comment consolider ces faits pour obtenir une réponse correcte à la question.

Ce que les chercheurs ont découvert lorsque l’ensemble de données a été publié et testé pour la première fois, c’est que le top Modèles GenAI Ils ont pu être relativement précis (environ 40 %) lorsqu'ils devaient répondre en une seule étape, mais ont pu atteindre 73 % d'exactitude s'ils avaient pu rassembler tous les documents nécessaires. Certes, 73 % ne semble pas être une révolution. Mais si l'on comprend précisément la question à laquelle il faut répondre, le chiffre devient bien plus impressionnant.

Par exemple, une question particulière est : « En quelle année est né le leader du groupe qui a interprété le morceau samplé dans « Power » de Kanye West ? » Comment un humain résoudrait-il ce problème ? Il pourrait comprendre qu'il doit rassembler diverses informations, comme les paroles du morceau « Power » de Kanye West, puis les parcourir et identifier le passage du morceau qui en échantillonne un autre. En tant qu'humains, nous pourrions probablement écouter le morceau (même sans le connaître) et savoir quand un autre morceau est samplé.

Mais réfléchissez-y : que devrait accomplir une GenAI pour détecter une chanson autre que l’originale en l’écoutant ? C’est là qu’une question simple devient un excellent test pour une IA véritablement intelligente. Et si nous pouvions trouver la chanson, l’écouter et identifier les paroles échantillonnées, ce ne serait que la première étape. Il nous reste à découvrir le nom de la chanson, le nom du groupe, l’identité du leader et enfin son année de naissance.

FRAMES montre que répondre à des questions réalistes nécessite un travail de réflexion considérable. Deux exemples me viennent à l'esprit.

Premièrement, la capacité de Décentralisé Les modèles GenAI, capables non seulement de rivaliser, mais aussi de dominer potentiellement les résultats, sont incroyables. De plus en plus d'entreprises utilisent la méthode décentralisée pour étendre leurs capacités de traitement tout en garantissant la propriété du logiciel à une large communauté, et non à une boîte noire centralisée qui refuse de partager ses avancées. Des entreprises comme Perplexity et Sentient sont à l'avant-garde de cette tendance, chacune proposant des modèles performants dépassant les premiers records de précision enregistrés lors de la sortie de FRAMES.

Le deuxième élément est qu'un nombre plus restreint de ces modèles d'IA sont non seulement décentralisés, mais aussi open source. Par exemple, Sentient Chat est les deux, et les premiers tests montrent la complexité de son raisonnement, grâce à son précieux accès open source. La réponse à la question FRAMES ci-dessus utilise un processus de réflexion similaire à celui d'un humain, les détails de son raisonnement étant consultables. Plus intéressant encore, leur plateforme est structurée autour de plusieurs modèles permettant d'affiner une perspective et des performances données, même si ce processus de réglage fin dans certains modèles GenAI entraîne une précision moindre. Dans le cas de Sentient Chat, de nombreux modèles différents ont été développés. Par exemple, un modèle récent appelé « Dobby 8B » est capable à la fois de surpasser le benchmark FRAMES, mais aussi de développer une attitude clairement pro-crypto et pro-liberté, ce qui affecte la perspective du modèle lorsqu'il traite des informations et élabore une réponse.

Sur l'horizon

La clé de toutes ces innovations étonnantes réside dans la rapidité avec laquelle nous en sommes arrivés là. Force est de constater que cette technologie a évolué à une vitesse fulgurante, et qu'elle ne fera qu'évoluer encore plus vite dans un avenir proche. Nous pourrons observer, notamment avec les modèles GenAI décentralisés et open source, ce seuil crucial où l'intelligence du système dépassera de plus en plus la nôtre, et ce que cela signifie pour l'avenir.

Rubriques connexes:David Balaban CADRES leaders d'opinion

David Balaban

David Balaban est un chercheur en sécurité informatique avec plus de 17 ans d'expérience dans l'analyse des logiciels malveillants et l'évaluation des logiciels antivirus. David court MacSecurity.net Confidentialité-PC.com des projets qui présentent des opinions d'experts sur des questions contemporaines de sécurité de l'information, y compris l'ingénierie sociale, les logiciels malveillants, les tests d'intrusion, les renseignements sur les menaces, la confidentialité en ligne et le piratage de chapeau blanc. David a une solide expérience dans le dépannage des logiciels malveillants, avec un accent récent sur les contre-mesures contre les ransomwares.

Unite.AI

Dans quelle mesure les LLM parviennent-ils réellement à résoudre des problèmes complexes ?

FRAMES comme fenêtre sur le cerveau GenAI

Sur l'horizon

Tu peux aimer