Künstliche Intelligenz

DeepMinds Michelangelo-Benchmark: Die Grenzen von LLMs mit langer Kontextdauer aufdecken

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

Da künstliche Intelligenz (KI) weiter voranschreitet, wird die Fähigkeit, lange Sequenzen von Informationen zu verarbeiten und zu verstehen, immer wichtiger. KI-Systeme werden nun für komplexe Aufgaben wie die Analyse langer Dokumente, das Verfolgen von ausgedehnten Gesprächen und die Verarbeitung großer Datenmengen eingesetzt. Allerdings haben viele aktuelle Modelle Schwierigkeiten mit der logischen Schlussfolgerung in langen Kontexten. Wenn die Eingaben länger werden, verlieren sie oft wichtige Details aus den Augen, was zu weniger genauen oder kohärenten Ergebnissen führt.

Dieses Problem ist besonders problematisch in den Bereichen Gesundheitswesen, Rechtsdienstleistungen und Finanzen, wo KI-Tools detaillierte Dokumente oder lange Diskussionen bearbeiten und gleichzeitig genaue, kontextbewusste Antworten liefern müssen. Eine häufige Herausforderung ist der Kontext Drift, bei dem Modelle den Blick auf frühere Informationen verlieren, wenn sie neue Eingaben verarbeiten, was zu weniger relevanten Ergebnissen führt.

Um diese Einschränkungen zu überwinden, entwickelte DeepMind den Michelangelo-Benchmark. Dieses Tool testet rigoros, wie gut KI-Modelle die logische Schlussfolgerung in langen Kontexten bewältigen. Inspiriert von dem Künstler Michelangelo, der für die Enthüllung komplexer Skulpturen aus Marmorklötzchen bekannt ist, hilft der Benchmark dabei, herauszufinden, wie gut KI-Modelle sinnvolle Muster in großen Datenmengen extrahieren können. Durch die Identifizierung der Schwächen aktueller Modelle führt der Michelangelo-Benchmark zu zukünftigen Verbesserungen in der Fähigkeit von KI, über lange Kontexte zu schlussfolgern.

Verständnis von logischer Schlussfolgerung in langen Kontexten in KI

Die logische Schlussfolgerung in langen Kontexten bezieht sich auf die Fähigkeit eines KI-Modells, bei langen Text-, Code- oder Gesprächssequenzen kohärent und genau zu bleiben. Modelle wie GPT-4 und PaLM-2 funktionieren gut mit kurzen oder moderat langen Eingaben. Allerdings haben sie Schwierigkeiten mit längeren Kontexten. Wenn die Eingabelänge zunimmt, verlieren diese Modelle oft wichtige Details aus den früheren Teilen aus den Augen. Dies führt zu Fehlern bei der Verständnis, Zusammenfassung oder Entscheidungsfindung. Dieses Problem ist als Kontextfenster-Begrenzung bekannt. Die Fähigkeit des Modells, Informationen zu speichern und zu verarbeiten, nimmt ab, wenn der Kontext länger wird.

Dieses Problem ist in realen Anwendungen von Bedeutung. Zum Beispiel müssen in Rechtsdienstleistungen KI-Modelle Verträge, Fallstudien oder Vorschriften analysieren, die hundreds von Seiten lang sein können. Wenn diese Modelle nicht effektiv wichtige Klauseln oder Rechtsbegriffe erkennen und interpretieren können, können sie ungenaue Ratschläge oder Analysen liefern. Im Gesundheitswesen müssen KI-Systeme Patientenakten, medizinische Geschichten und Behandlungspläne synthetisieren, die über Jahre oder sogar Jahrzehnte reichen. Wenn ein Modell nicht kritische Informationen aus früheren Akten genau abrufen kann, kann es unangemessene Behandlungen empfehlen oder Patienten falsch diagnostizieren.

Obwohl Bemühungen unternommen wurden, um die Token-Begrenzung von Modellen zu verbessern (wie GPT-4, das bis zu 32.000 Token verarbeiten kann, etwa 50 Seiten Text), bleibt die logische Schlussfolgerung in langen Kontexten eine Herausforderung. Das Kontextfenster-Problem begrenzt die Menge an Eingaben, die ein Modell verarbeiten kann, und beeinträchtigt seine Fähigkeit, das Verständnis über die gesamte Eingabesequenz hinweg aufrechtzuerhalten. Dies führt zu Kontext-Drift, bei dem das Modell allmählich forget frühere Details, wenn neue Informationen eingeführt werden. Dies verringert seine Fähigkeit, kohärente und relevante Ausgaben zu generieren.

Der Michelangelo-Benchmark: Konzept und Ansatz

Der Michelangelo-Benchmark geht die Herausforderungen der logischen Schlussfolgerung in langen Kontexten an, indem er LLMs auf Aufgaben testet, die sie dazu zwingen, Informationen über ausgedehnte Sequenzen zu speichern und zu verarbeiten. Im Gegensatz zu früheren Benchmarks, die sich auf kurze Kontext-Aufgaben wie Satzvervollständigung oder grundlegende Fragebeantwortung konzentrieren, betont der Michelangelo-Benchmark Aufgaben, die Modelle dazu zwingen, über lange Datensequenzen zu schlussfolgern, oft einschließlich Ablenkungen oder irrelevanter Informationen.

Der Michelangelo-Benchmark fordert KI-Modelle mit dem Latent Structure Queries (LSQ)-Framework heraus. Diese Methode erfordert, dass Modelle sinnvolle Muster in großen Datenmengen finden, während sie irrelevante Informationen filtern, ähnlich wie Menschen komplexe Daten durchsuchen, um sich auf das Wichtige zu konzentrieren. Der Benchmark konzentriert sich auf zwei Hauptbereiche: natürliche Sprache und Code, und führt Aufgaben ein, die mehr als nur Datenabruf testen.

Eine wichtige Aufgabe ist die Latent List Task. Bei dieser Aufgabe erhält das Modell eine Sequenz von Python-Liste-Operationen, wie Hinzufügen, Entfernen oder Sortieren von Elementen, und muss dann die korrekte endgültige Liste produzieren. Um es schwieriger zu machen, enthält die Aufgabe irrelevante Operationen, wie das Umkehren der Liste oder das Abbrechen vorheriger Schritte. Dies testet die Fähigkeit des Modells, sich auf kritische Operationen zu konzentrieren, ähnlich wie KI-Systeme große Datenmengen mit gemischter Relevanz bewältigen müssen.

Eine weitere kritische Aufgabe ist die Multi-Round Co-Referenz-Auflösung (MRCR). Diese Aufgabe misst, wie gut das Modell Referenzen in langen Gesprächen mit überlappenden oder unklaren Themen verfolgen kann. Die Herausforderung besteht darin, dass das Modell Referenzen, die spät im Gespräch gemacht werden, mit früheren Punkten verbinden kann, auch wenn diese Referenzen unter irrelevante Details versteckt sind. Diese Aufgabe spiegelt reale Diskussionen wider, bei denen Themen oft wechseln und KI genau Referenzen verfolgen und auflösen muss, um kohärente Kommunikation aufrechtzuerhalten.

Darüber hinaus enthält Michelangelo die IDK-Aufgabe, die die Fähigkeit des Modells testet, zu erkennen, wenn es nicht genug Informationen hat, um eine Frage zu beantworten. Bei dieser Aufgabe wird dem Modell Text präsentiert, der möglicherweise nicht die relevanten Informationen enthält, um eine bestimmte Anfrage zu beantworten. Die Herausforderung besteht darin, dass das Modell Fälle identifizieren kann, in denen die korrekte Antwort “Ich weiß nicht” ist, anstatt eine plausibel, aber falsche Antwort zu liefern. Diese Aufgabe spiegelt einen kritischen Aspekt der KI-Zuverlässigkeit wider – die Erkennung von Unsicherheit.

Durch Aufgaben wie diese geht Michelangelo über den einfachen Abruf hinaus und testet die Fähigkeit des Modells, zu schlussfolgern, zu synthetisieren und lange Kontext-Eingaben zu bewältigen. Es führt einen skalierbaren, synthetischen und nicht veröffentlichten Benchmark für die logische Schlussfolgerung in langen Kontexten ein, der eine präzisere Messung des aktuellen Zustands und des zukünftigen Potenzials von LLMs bietet.

Auswirkungen auf KI-Forschung und -Entwicklung

Die Ergebnisse des Michelangelo-Benchmarks haben bedeutende Auswirkungen auf die Entwicklung von KI. Der Benchmark zeigt, dass aktuelle LLMs bessere Architekturen benötigen, insbesondere in Aufmerksamkeitsmechanismen und Speichersystemen. Derzeit verlassen sich die meisten LLMs auf Selbstaufmerksamkeitsmechanismen. Diese sind effektiv für kurze Aufgaben, aber sie haben Schwierigkeiten, wenn der Kontext länger wird. Hier sehen wir das Problem des Kontext-Drifts, bei dem Modelle frühere Details vergessen oder vermischt. Um dies zu lösen, erforschen Forscher Modelle mit erweitertem Speicher. Diese Modelle können wichtige Informationen aus früheren Teilen eines Gesprächs oder Dokuments speichern, sodass die KI sie abrufen und verwenden kann, wenn benötigt.

Ein weiterer vielversprechender Ansatz ist die hierarchische Verarbeitung. Diese Methode ermöglicht es der KI, lange Eingaben in kleinere, handhabbare Teile zu unterteilen, was ihr hilft, sich auf die wichtigsten Details bei jedem Schritt zu konzentrieren. Auf diese Weise kann das Modell komplexe Aufgaben besser bewältigen, ohne von zu viel Information auf einmal überfordert zu werden.

Die Verbesserung der logischen Schlussfolgerung in langen Kontexten wird einen erheblichen Einfluss haben. Im Gesundheitswesen könnte dies bedeuten, dass die Analyse von Patientenakten besser wird, sodass die KI die Geschichte eines Patienten über die Zeit hinweg verfolgen und genauere Behandlungsempfehlungen liefern kann. In Rechtsdienstleistungen könnten diese Fortschritte zu KI-Systemen führen, die lange Verträge oder Rechtsvorschriften mit größerer Genauigkeit analysieren und zuverlässigere Erkenntnisse für Anwälte und Rechtsfachleute liefern können.

Allerdings kommen mit diesen Fortschritten kritische ethische Bedenken. Wenn KI-Modelle zu gut darin werden, lange Kontexte zu speichern und zu verarbeiten, besteht das Risiko, dass sie sensible oder private Informationen preisgeben. Dies ist eine echte Sorge für Branchen wie Gesundheitswesen und Kundenservice, wo Vertraulichkeit von entscheidender Bedeutung ist.

Wenn KI-Modelle zu viel Information aus früheren Interaktionen speichern, könnten sie unbeabsichtigt persönliche Details in zukünftigen Gesprächen preisgeben. Darüber hinaus besteht, wenn KI besser darin wird, lange Form-Inhalte zu generieren, die Gefahr, dass sie zur Erstellung von fortgeschritteneren Fehlinformationen oder Desinformationen verwendet werden könnte, was die Herausforderungen um die KI-Regulierung weiter kompliziert.

Zusammenfassung

Der Michelangelo-Benchmark hat Erkenntnisse darüber geliefert, wie KI-Modelle komplexe, lange Kontext-Aufgaben bewältigen, und ihre Stärken und Schwächen aufgedeckt. Dieser Benchmark fördert die Innovation, während KI weiterentwickelt wird, und fördert bessere Modellarchitekturen und verbesserte Speichersysteme. Das Potenzial, Branchen wie Gesundheitswesen und Rechtsdienstleistungen zu verändern, ist aufregend, aber es kommt mit ethischen Verantwortungen.

Privatsphäre, Fehlinformationen und Fairness-Bedenken müssen angesprochen werden, während KI besser darin wird, große Informationsmengen zu bewältigen. Das Wachstum von KI muss sich auf eine sorgfältige und verantwortungsvolle Förderung der Gesellschaft konzentrieren.

Dr. Assad Abbas

Dr. Assad Abbas, ein ordentlicher Associate Professor an der COMSATS University Islamabad, Pakistan, hat seinen Ph.D. von der North Dakota State University, USA, erhalten. Seine Forschung konzentriert sich auf fortschrittliche Technologien, einschließlich Cloud-, Fog- und Edge-Computing, Big-Data-Analytics und KI. Dr. Abbas hat wesentliche Beiträge mit Veröffentlichungen in renommierten wissenschaftlichen Zeitschriften und Konferenzen geleistet. Er ist auch der Gründer von MyFastingBuddy.

Unite.AI

DeepMinds Michelangelo-Benchmark: Die Grenzen von LLMs mit langer Kontextdauer aufdecken

Verständnis von logischer Schlussfolgerung in langen Kontexten in KI

Der Michelangelo-Benchmark: Konzept und Ansatz

Auswirkungen auf KI-Forschung und -Entwicklung

Zusammenfassung

You may like