Künstliche Intelligenz
Top-KI-Modelle gehen in langen Dokumenten verloren

A neue Studie von Forschern der LMU München, des Munich Center for Machine Learning und von Adobe Research hat eine Schwachstelle in KI-Sprachmodelle: Sie haben auf eine Weise Schwierigkeiten, lange Dokumente zu verstehen, die Sie überraschen könnte. Die Ergebnisse des Forschungsteams zeigen, dass selbst die fortschrittlichsten KI-Modelle Probleme haben, Informationen zu verknüpfen, wenn sie sich nicht auf einfache Wortübereinstimmungen verlassen können.
Das versteckte Problem mit den Lesefähigkeiten der KI
Stellen Sie sich vor, Sie versuchen, ein bestimmtes Detail in einer langen Forschungsarbeit zu finden. Sie überfliegen die Arbeit vielleicht und stellen gedankliche Verbindungen zwischen den einzelnen Abschnitten her, um die benötigten Informationen zusammenzutragen. Viele KI-Modelle, so stellt sich heraus, funktionieren überhaupt nicht so. Stattdessen verlassen sie sich oft stark auf die Suche nach exakten Wortübereinstimmungen, ähnlich wie bei der Verwendung von Strg+F auf Ihrem Computer.
Das Forschungsteam entwickelte einen neuen Benchmark namens NOLIMA (No Literal Matching), um verschiedene KI-Modelle zu testen. Die Ergebnisse zeigten, dass die Leistung von KI-Modellen dramatisch abnimmt, wenn sie Texte mit mehr als 2,000 Wörtern verarbeiten. Bei 32,000 Wörtern – etwa der Länge eines kurzen Buches – ist die Leistung der meisten Modelle nur noch halb so hoch. Dazu gehörten Tests wichtiger Modelle wie GPT-4o, Gemini 1.5 Pro, und Llama 3.3 70B.
Stellen Sie sich einen medizinischen Forscher vor, der KI zur Analyse von Patientenakten verwendet, oder ein Anwaltsteam, das KI zur Überprüfung von Falldokumenten verwendet. Wenn die KI wichtige Zusammenhänge übersieht, weil die relevanten Informationen andere Wörter verwenden als die Suchanfrage, können die Folgen erheblich sein.
Warum Wortübereinstimmung nicht ausreicht
Aktuelle KI-Modelle verarbeiten Text mithilfe eines sogenannten Aufmerksamkeitsmechanismus. Dieses System hilft der KI, sich auf verschiedene Teile des Textes zu konzentrieren, um die Beziehungen zwischen Wörtern und Ideen zu verstehen. Bei der Arbeit mit kürzeren Texten funktioniert dies ausreichend gut. Die Forschung zeigt jedoch, dass dieser Mechanismus bei längeren Texten überfordert ist, insbesondere wenn er sich nicht auf exakte Wortübereinstimmungen verlassen kann.
Der NOLIMA-Test offenbarte diese Einschränkung, indem er KI-Modellen Fragen stellte, deren Antworten eher das Verstehen des Kontexts als das Finden passender Wörter erforderten. Die Ergebnisse waren aufschlussreich. Während die Modelle bei kurzen Texten gut abschnitten, nahm ihre Fähigkeit, diese Verbindungen herzustellen, mit zunehmender Textlänge deutlich ab. Selbst spezialisierte Modelle, die für Denkaufgaben entwickelt wurden, erreichten bei längeren Dokumenten eine Genauigkeit von unter 50 %.
Ohne die Krücke der Wortübereinstimmung hatten KI-Modelle Schwierigkeiten:
- Verbinden Sie verwandte Konzepte, die unterschiedliche Terminologie verwenden
- Folgen Sie mehrstufigen Argumentationspfaden
- Suchen Sie nach relevanten Informationen, wenn diese nach dem Schlüsselkontext erscheinen
- Ignorieren Sie irreführende Wortübereinstimmungen in irrelevanten Abschnitten
Die Zahlen erzählen die Geschichte
Die Forschungsergebnisse zeichnen ein klares Bild davon, wie KI-Modelle mit längeren Texten umgehen. GPT-4o zeigte die stärkste Leistung und behielt seine Effektivität bis zu etwa 8,000 Token (ungefähr 6,000 Wörter) bei. Doch selbst dieser Spitzenreiter zeigte bei längeren Texten einen deutlichen Leistungsabfall. Bei den meisten anderen Modellen, darunter Gemini 1.5 Pro und Llama 3.3 70B, kam es zwischen 2,000 und 8,000 Token zu starken Leistungseinbrüchen.
Der Leistungsrückgang wurde noch deutlicher, wenn die Aufgaben mehrere Denkschritte erforderten. Wenn ein Modell beispielsweise zwei logische Verbindungen herstellen musste – etwa zu verstehen, dass eine Figur in der Nähe eines Wahrzeichens wohnte und dass sich dieses Wahrzeichen in einer bestimmten Stadt befand – sank die Erfolgsrate erheblich. Die Forschung zeigte, dass diese Art des mehrstufigen Denkens bei Texten mit mehr als 16,000 Token besonders schwierig wurde, selbst wenn Techniken zur Verbesserung des Denkens verwendet wurden, wie z. B. Aufforderung zur Gedankenkette.
Besonders bemerkenswert an diesen Ergebnissen ist, dass sie die Annahmen über die Fähigkeit von KI-Modellen, lange Kontexte zu verarbeiten, in Frage stellen. Während viele Modelle mit der Unterstützung umfangreicher Kontextfenster werben, zeigt der NOLIMA-Benchmark, dass das effektive Verständnis schon lange vor Erreichen dieser theoretischen Grenzen abnimmt.

Quelle: Modarressi et al.
Wenn KI den Wald vor lauter Bäumen nicht sieht
Diese Einschränkungen haben gravierende Auswirkungen auf die Art und Weise, wie wir KI in realen Anwendungen einsetzen. Stellen Sie sich ein juristisches KI-System vor, das die Rechtsprechung durchsucht. Es könnte relevante Präzedenzfälle übersehen, einfach weil sie eine andere Terminologie verwenden als die Suchanfrage. Das System könnte sich stattdessen auf weniger relevante Fälle konzentrieren, die zufällig mehr Wörter mit den Suchbegriffen gemeinsam haben.
Besonders besorgniserregend sind die Auswirkungen auf die Suche und die Dokumentenanalyse. Aktuelle KI-gestützte Suchsysteme basieren häufig auf einer Technik namens Retrieval-Augmented Generation (RAG). Selbst wenn diese Systeme erfolgreich ein Dokument mit den richtigen Informationen abrufen, erkennt die KI dessen Relevanz möglicherweise nicht, wenn der Wortlaut von der Abfrage abweicht. Stattdessen tendiert die KI möglicherweise zu weniger relevanten Dokumenten, die oberflächliche Ähnlichkeiten mit den Suchbegriffen aufweisen.
Für KI-Anwender legen diese Erkenntnisse mehrere wichtige Überlegungen nahe:
Vorname, kürzere Abfragen und Dokumente werden wahrscheinlich zuverlässigere Ergebnisse liefern. Bei der Arbeit mit längeren Texten kann es hilfreich sein, diese in kleinere, fokussierte Segmente aufzuteilen, um die KI-Leistung aufrechtzuerhalten.
Sekunde, sollten Benutzer besonders vorsichtig sein, wenn sie KI bitten, Verbindungen zwischen verschiedenen Teilen eines langen Dokuments herzustellen. Die Forschung zeigt, dass KI-Modelle die größten Schwierigkeiten haben, wenn sie Informationen aus verschiedenen Abschnitten zusammenfügen müssen, insbesondere wenn die Verbindung nicht durch gemeinsames Vokabular offensichtlich ist.
EndlichDiese Einschränkungen unterstreichen die anhaltende Bedeutung menschlicher Kontrolle. KI kann zwar ein leistungsstarkes Werkzeug zur Verarbeitung und Analyse von Text sein, man sollte sich jedoch nicht darauf verlassen, dass sie das einzige Mittel ist, um wichtige Zusammenhänge in langen oder komplexen Dokumenten zu erkennen.
Die Ergebnisse erinnern daran, dass diese Systeme trotz der schnellen Fortschritte in der KI-Technologie Informationen immer noch ganz anders verarbeiten als Menschen. Das Verständnis dieser Einschränkungen ist entscheidend, um KI-Tools effektiv nutzen zu können und zu wissen, wann menschliches Urteilsvermögen weiterhin unverzichtbar ist.
Was kommt als nächstes
Das Verständnis der Einschränkungen aktueller KI-Modelle bei der Verarbeitung langer Texte wirft wichtige Fragen zur Zukunft der KI-Entwicklung auf. Die Forschung hinter dem NOLIMA-Benchmark hat gezeigt, dass unsere aktuellen Ansätze zur KI-Textverarbeitung möglicherweise erheblich verfeinert werden müssen, insbesondere im Hinblick auf die Verarbeitung von Informationen in längeren Textpassagen durch die Modelle.
Aktuelle Lösungen haben nur teilweisen Erfolg gezeigt. Chain-of-Thought-Prompting, das KI-Modelle dazu anhält, ihre Argumentation in Schritte zu unterteilen, trägt etwas zur Leistungssteigerung bei. Beispielsweise zeigte Llama 3.3 70B bei Verwendung dieser Technik eine bessere Fähigkeit, längere Kontexte zu verarbeiten. Allerdings greift dieser Ansatz bei Texten mit mehr als 16,000 Token immer noch zu kurz, was darauf hindeutet, dass wir grundlegendere Lösungen benötigen.
Der Aufmerksamkeitsmechanismus, der das Rückgrat der Textverarbeitung aktueller KI-Modelle bildet, muss überdacht werden. Man kann es sich wie den Versuch vorstellen, in einem überfüllten Raum ein Gespräch zu führen – je länger das Gespräch dauert, desto schwieriger wird es, alle wichtigen Punkte, die zuvor erwähnt wurden, im Auge zu behalten. Unsere aktuellen KI-Modelle stehen vor einer ähnlichen Herausforderung, allerdings in einem viel größeren Maßstab.
Mit Blick auf die Zukunft erforschen Forscher mehrere vielversprechende Richtungen. Ein Ansatz besteht darin, neue Wege zu entwickeln, wie KI Informationen in langen Texten organisieren und priorisieren kann. Dabei geht es über die einfache Wortübereinstimmung hinaus, um tiefere konzeptionelle Zusammenhänge zu verstehen. Dies könnte eher so funktionieren, wie Menschen mentale Karten von Informationen erstellen und Ideen auf der Grundlage von Bedeutungen und nicht nur auf der Grundlage gemeinsamer Vokabeln verknüpfen.
Ein weiterer Entwicklungsschwerpunkt liegt auf der Verbesserung der Art und Weise, wie KI-Modelle mit dem umgehen, was Forscher „latente Sprünge“ nennen – die logischen Schritte, die nötig sind, um verschiedene Informationen miteinander zu verknüpfen. Aktuelle Modelle haben mit diesen Verknüpfungen vor allem bei längeren Texten Probleme, aber neue Architekturen könnten helfen, diese Lücke zu schließen.
Für diejenigen, die heute mit KI-Tools arbeiten, legen diese Erkenntnisse mehrere praktische Ansätze nahe:
Erwägen Sie, längere Dokumente bei der Arbeit mit KI in sinnvolle Abschnitte aufzuteilen. Dies hilft dabei, logische Abschnitte zu erstellen, die den wichtigen Kontext bewahren. Wenn Sie beispielsweise eine Forschungsarbeit analysieren, können Sie die Abschnitte zur Methodik und zu den Ergebnissen zusammenfassen, da sie häufig verwandte Informationen enthalten.
Wenn Sie KI mit der Analyse längerer Texte beauftragen, sollten Sie die gewünschten Zusammenhänge genau beschreiben. Anstatt allgemeine Fragen zu stellen, lenken Sie die KI auf die spezifischen Zusammenhänge, die Sie untersuchen möchten. Dies hilft, die aktuellen Einschränkungen des Modells bei der eigenständigen Herstellung dieser Zusammenhänge auszugleichen.
Am wichtigsten ist es vielleicht, realistische Erwartungen an die Fähigkeiten von KI bei der Bearbeitung langer Texte zu haben. Obwohl diese Tools für viele Aufgaben unglaublich hilfreich sein können, sollten sie die menschliche Analyse komplexer Dokumente nicht vollständig ersetzen. Die menschliche Fähigkeit, Kontexte zu erkennen und konzeptionelle Zusammenhänge über lange Texte hinweg herzustellen, ist den aktuellen KI-Fähigkeiten nach wie vor überlegen.
Der Weg, der der KI-Entwicklung in diesem Bereich bevorsteht, ist herausfordernd und spannend zugleich. Wenn wir diese Einschränkungen besser verstehen, können wir auf KI-Systeme hinarbeiten, die lange Texte wirklich verstehen, anstatt sie nur zu verarbeiten. Bis dahin bedeutet der effektive Einsatz von KI, mit ihren aktuellen Einschränkungen zu arbeiten und gleichzeitig ihre Stärken zu schätzen.












