Intelligence Artificielle
Michelangelo Benchmark de DeepMind : révéler les limites des LLM à contexte long
As Intelligence artificielle (AI) L’IA continue de progresser, et la capacité à traiter et à comprendre de longues séquences d’informations devient de plus en plus vitale. Les systèmes d’IA sont désormais utilisés pour des tâches complexes comme l’analyse de longs documents, le suivi de conversations prolongées et le traitement de grandes quantités de données. Cependant, de nombreux modèles actuels ont du mal à raisonner sur de longs contextes. À mesure que les entrées deviennent plus longues, ils perdent souvent la trace de détails importants, ce qui conduit à des résultats moins précis ou moins cohérents.
Ce problème est particulièrement problématique dans les secteurs de la santé, des services juridiques et de la finance, où les outils d'IA doivent gérer des documents détaillés ou de longues discussions tout en fournissant des réponses précises et contextuelles. Le contexte est un défi courant dérive, où les modèles perdent de vue les informations antérieures lorsqu'ils traitent de nouvelles entrées, ce qui entraîne des résultats moins pertinents.
Pour remédier à ces limitations, DeepMind a développé le Référence MichelangeloCet outil teste rigoureusement la manière dont les modèles d'IA gèrent Raisonnement à long contexteInspiré par l'artiste Michel-Ange, connu pour avoir révélé des sculptures complexes à partir de blocs de marbre, le benchmark permet de découvrir dans quelle mesure les modèles d'IA peuvent extraire des modèles significatifs à partir de grands ensembles de données. En identifiant les points faibles des modèles actuels, le benchmark Michelangelo conduit à des améliorations futures de la capacité de l'IA à raisonner sur des contextes longs.
Comprendre le raisonnement Ă long contexte dans l'IA
Le raisonnement contextuel long concerne la capacité d'un modèle d'IA à rester cohérent et précis sur de longs textes, codes ou séquences de conversation. Des modèles comme GPT-4 et PaLM-2 fonctionnent bien avec des entrées courtes ou moyennement longues. Cependant, ils ont besoin d'aide pour les contextes plus longs. À mesure que la longueur des entrées augmente, ces modèles perdent souvent de vue des détails essentiels des parties précédentes. Cela entraîne des erreurs de compréhension, de synthèse ou de prise de décision. Ce problème est connu sous le nom de limitation de la fenêtre contextuelle. La capacité du modèle à retenir et à traiter l'information diminue à mesure que le contexte s'allonge.
Ce problème est important dans les applications concrètes. Par exemple, dans les services juridiques, les modèles d’IA analysent des contrats, des études de cas ou des réglementations qui peuvent compter des centaines de pages. Si ces modèles ne peuvent pas retenir et analyser efficacement des documents aussi longs, ils risquent de passer à côté de clauses essentielles ou de mal interpréter les termes juridiques. Cela peut conduire à des conseils ou des analyses inexacts. Dans le domaine de la santé, les systèmes d’IA doivent synthétiser les dossiers des patients, les antécédents médicaux et les plans de traitement qui s’étendent sur des années, voire des décennies. Si un modèle ne peut pas se souvenir avec précision d’informations critiques provenant de dossiers antérieurs, il risque de recommander des traitements inappropriés ou de mal diagnostiquer les patients.
Même si des efforts ont été faits pour améliorer les limites de jetons des modèles (comme la gestion GPT-4 jusqu'à Jetons 32,000, environ 50 pages de texte), le raisonnement à long contexte reste un défi. Le problème de la fenêtre de contexte limite la quantité d'entrées qu'un modèle peut gérer et affecte sa capacité à maintenir une compréhension précise tout au long de la séquence d'entrée. Cela conduit à une dérive du contexte, où le modèle forgues les détails antérieurs au fur et à mesure que de nouvelles informations sont introduites. Cela réduit sa capacité à générer des résultats cohérents et pertinents.
Le référentiel Michelangelo : concept et approche
Le benchmark Michelangelo s'attaque aux défis du raisonnement à long contexte en testant les LLM sur des tâches qui les obligent à retenir et à traiter des informations sur des séquences étendues. Contrairement aux benchmarks précédents, qui se concentrent sur des tâches à contexte court comme la complétion de phrases ou la réponse à des questions de base, le benchmark Michelangelo met l'accent sur des tâches qui obligent les modèles à raisonner sur de longues séquences de données, comprenant souvent des distractions ou des informations non pertinentes.
Le Michelangelo Benchmark défie les modèles d'IA en utilisant Cadre de requêtes de structure latente (LSQ)Cette méthode nécessite que les modèles identifient des schémas significatifs dans de grands ensembles de données tout en filtrant les informations non pertinentes, de la même manière que les humains analysent des données complexes pour se concentrer sur l'essentiel. Le benchmark se concentre sur deux domaines principaux : le langage naturel et le code, en introduisant des tâches qui testent plus que la simple récupération de données.
Une tâche importante est la tâche de liste latente. Dans cette tâche, le modèle reçoit une séquence d'opérations Python, comme l'ajout, la suppression ou le tri d'éléments, puis doit produire la liste finale correcte. Pour compliquer les choses, la tâche inclut des opérations non pertinentes, comme l'inversion de la liste ou l'annulation des étapes précédentes. Cela teste la capacité du modèle à se concentrer sur les opérations critiques, en simulant la façon dont les systèmes d'IA doivent gérer de grands ensembles de données à pertinence variable.
Une autre tâche essentielle est la résolution de co-références multi-tours (MRCR). Cette tâche mesure la capacité du modèle à suivre les références dans de longues conversations dont les sujets se chevauchent ou sont peu clairs. Le défi pour le modèle est de relier les références faites tard dans la conversation à des points antérieurs, même lorsque ces références sont cachées sous des détails non pertinents. Cette tâche reflète les discussions du monde réel, où les sujets changent souvent, et l'IA doit suivre et résoudre avec précision les références pour maintenir une communication cohérente.
De plus, Michelangelo propose la tâche IDK, qui teste la capacité d'un modèle à reconnaître qu'il ne dispose pas de suffisamment d'informations pour répondre à une question. Dans cette tâche, le modèle se voit présenter un texte qui peut ne pas contenir les informations pertinentes pour répondre à une requête spécifique. Le défi consiste pour le modèle à identifier les cas où la bonne réponse est « « ».Je ne sais pas" plutôt que de fournir une réponse plausible mais incorrecte. Cette tâche reflète un aspect essentiel de la fiabilité de l'IA : reconnaître l'incertitude.
Grâce à des tâches comme celles-ci, Michelangelo va au-delà de la simple récupération pour tester la capacité d'un modèle à raisonner, synthétiser et gérer des données contextuelles longues. Il introduit un référentiel évolutif, synthétique et non divulgué pour le raisonnement contextuel long, offrant une mesure plus précise de l'état actuel et du potentiel futur des LLM.
Conséquences pour la recherche et le développement en IA
Les résultats du Michelangelo Benchmark ont ​​des implications importantes sur la manière dont nous développons l'IA. Le benchmark montre que les LLM actuels ont besoin d'une meilleure architecture, en particulier dans mécanismes d'attention et les systèmes de mémoire. À l’heure actuelle, la plupart des LLM s’appuient sur des mécanismes d’auto-attention. Ceux-ci sont efficaces pour les tâches courtes, mais perdent de leur efficacité lorsque le contexte s’élargit. C’est là que se pose le problème de la dérive contextuelle, lorsque les modèles oublient ou mélangent des détails antérieurs. Pour résoudre ce problème, les chercheurs explorent des modèles à mémoire augmentée. Ces modèles peuvent stocker des informations importantes provenant de parties antérieures d’une conversation ou d’un document, ce qui permet à l’IA de les rappeler et de les utiliser en cas de besoin.
Une autre approche prometteuse est le traitement hiérarchique. Cette méthode permet à l’IA de décomposer les entrées longues en parties plus petites et plus faciles à gérer, ce qui l’aide à se concentrer sur les détails les plus pertinents à chaque étape. De cette façon, le modèle peut mieux gérer des tâches complexes sans être submergé par trop d’informations à la fois.
L'amélioration du raisonnement contextuel aura un impact considérable. Dans le secteur de la santé, cela pourrait se traduire par une meilleure analyse des dossiers médicaux, où l'IA pourrait suivre l'historique d'un patient au fil du temps et proposer des recommandations thérapeutiques plus précises. Dans le secteur juridique, ces avancées pourraient déboucher sur des systèmes d'IA capables d'analyser des contrats longs ou la jurisprudence avec une plus grande précision, fournissant ainsi des informations plus fiables aux avocats et aux professionnels du droit.
Ces avancées soulèvent toutefois des questions éthiques cruciales. À mesure que l’IA parvient à mieux retenir et à raisonner sur des contextes de longue durée, il existe un risque de révéler des informations sensibles ou privées. Il s’agit d’une véritable préoccupation pour des secteurs comme la santé et le service client, où la confidentialité est essentielle.
Si les modèles d’IA conservent trop d’informations issues d’interactions précédentes, ils risquent de révéler par inadvertance des informations personnelles lors de conversations ultérieures. De plus, à mesure que l’IA s’améliore pour générer des contenus longs et convaincants, elle risque d’être utilisée pour créer des informations erronées ou de la désinformation plus poussées, ce qui complique encore davantage les défis liés à la réglementation de l’IA.
En résumé
Le benchmark Michelangelo a permis de mieux comprendre la manière dont les modèles d’IA gèrent des tâches complexes et à long terme, en soulignant leurs points forts et leurs limites. Ce benchmark fait progresser l’innovation au fur et à mesure du développement de l’IA, en encourageant une meilleure architecture des modèles et des systèmes de mémoire améliorés. Le potentiel de transformation de secteurs tels que les services de santé et juridiques est passionnant, mais s’accompagne de responsabilités éthiques.
Les préoccupations en matière de confidentialité, de désinformation et d'équité doivent être prises en compte à mesure que l'IA devient plus apte à traiter de vastes quantités d'informations. La croissance de l'IA doit rester axée sur le bénéfice de la société, de manière réfléchie et responsable.










