Vernetzen Sie sich mit uns

Andersons Blickwinkel

Warum Sprachmodelle in GesprĂ€chen „verloren gehen“

mm
ChatGPT-4o und Adobe Firefly.

Eine neue Studie von Microsoft Research und Salesforce kommt zu dem Schluss, dass selbst die fÀhigsten Large Language Models (LLMs) fallen auseinander, wenn Anweisungen gegeben werden in Stufen anstatt alles auf einmal. Die Autoren fanden heraus, dass die Leistung bei sechs Aufgaben um durchschnittlich 39 Prozent sinkt, wenn eine Eingabeaufforderung auf mehrere Runden aufgeteilt:

Ein einstufiges GesprÀch (links) erzielt die besten Ergebnisse. Bei einem mehrstufigen GesprÀch (rechts) verlieren selbst die am höchsten bewerteten und leistungsstÀrksten LLMs den effektiven Impuls. Quelle: https://arxiv.org/pdf/2505.06120

Eine Konversation mit einem einzigen Turn (links) erzielt die besten Ergebnisse, wirkt aber fĂŒr den Endbenutzer unnatĂŒrlich. Bei einer Konversation mit mehreren Turns (rechts) verlieren selbst die am höchsten bewerteten und leistungsstĂ€rksten LLMs den effektiven Impuls. Quelle: https://arxiv.org/pdf/2505.06120

Noch auffĂ€lliger ist die ZuverlĂ€ssigkeit der Antworten nimmt rapide ab, mit prestigetrĂ€chtigen Modellen wie CatGPT-4.1 und Gemini 2.5 Pro Je nachdem, wie dieselbe Aufgabe formuliert wird, schwanken die Ergebnisse zwischen nahezu perfekten Antworten und offensichtlichen Fehlern. DarĂŒber hinaus kann die Konsistenz der Ergebnisse im Laufe des Prozesses um mehr als die HĂ€lfte sinken.

Um dieses Verhalten zu untersuchen, stellt das Papier eine Methode vor, die genannt wird sharding*, das vollstÀndig angegebene Eingabeaufforderungen in kleinere Fragmente aufteilt und diese einzeln in eine Konversation freigibt.

Im Grunde genommen ist dies dasselbe, als wĂŒrde man in einem Restaurant eine zusammenhĂ€ngende und umfassende Einzelbestellung aufgeben und dem Kellner nichts anderes ĂŒbrig lassen, als die Bestellung zu bestĂ€tigen. Oder man beschließt, die Angelegenheit gemeinsam anzugehen:

Zwei extreme Versionen eines RestaurantgesprÀchs (nicht aus der neuen Zeitung, nur zur Veranschaulichung).

Zwei extreme Versionen eines RestaurantgesprÀchs (nicht aus der neuen Zeitung, nur zur Veranschaulichung).

Zur Verdeutlichung: Das obige Beispiel stellt den Kunden möglicherweise in ein negatives Licht. Die Kernidee der zweiten Spalte ist jedoch die eines transaktionalen Austauschs, der eine Problemstellung klĂ€rt, bevor sie angegangen wird – offenbar eine rationale und vernĂŒnftige Herangehensweise an eine Aufgabe.

Dieser Aufbau spiegelt sich in der tröpfchenweise zugefĂŒhrten, geschert Ansatz zur LLM-Interaktion. Die Autoren stellen fest, dass LLMs oft ĂŒbermĂ€ĂŸig lange Antworten generieren und sich dann weiterhin auf ihre eigenen Erkenntnisse verlassen selbst wenn sich diese Erkenntnisse als falsch oder irrelevant herausgestellt habenDiese Tendenz kann in Kombination mit anderen Faktoren dazu fĂŒhren, dass das System den Überblick ĂŒber den Austausch vollstĂ€ndig verliert.

TatsĂ€chlich stellen die Forscher fest, was viele von uns habe anekdotisch herausgefunden – dass der beste Weg, das GesprĂ€ch wieder in Gang zu bringen, darin besteht, ein neues GesprĂ€ch mit dem LLM zu beginnen.

„Wenn ein GesprĂ€ch mit einem LLM nicht zu den erwarteten Ergebnissen gefĂŒhrt hat, kann das Beginnen eines neuen GesprĂ€chs, in dem dieselben Informationen wiederholt werden, zu deutlich besseren Ergebnissen fĂŒhren, als die Fortsetzung eines laufenden GesprĂ€chs.“

„Der Grund hierfĂŒr ist, dass aktuelle LLMs im GesprĂ€ch verloren gehen können und unsere Experimente zeigen, dass es ineffektiv ist, in einem GesprĂ€ch mit dem Modell zu verharren. Da LLMs zudem zufĂ€lligen Text generieren, kann ein neues GesprĂ€ch zu besseren Ergebnissen fĂŒhren.“

Die Autoren erkennen an, dass agentische Systeme wie Autogen or LangChain kann die Ergebnisse möglicherweise verbessern, indem es als Interpretationsebene zwischen dem Endbenutzer und dem LLM fungiert und nur dann mit dem LLM kommuniziert, wenn genĂŒgend „geteilte“ Antworten gesammelt wurden, um sie zu einer einzigen zusammenhĂ€ngenden Abfrage zusammenzufassen (die dem Endbenutzer nicht angezeigt wird).

Die Autoren behaupten jedoch, dass eine separate Abstraktionsschicht nicht notwendig sein sollte oder direkt in das Quell-LLM integriert werden sollte:

Man könnte argumentieren, dass Multi-Turn-FĂ€higkeiten kein notwendiges Feature von LLMs sind, da sie auf das Agenten-Framework ausgelagert werden können. Mit anderen Worten: Brauchen wir native Multi-Turn-UnterstĂŒtzung in LLMs, wenn ein Agenten-Framework Interaktionen mit Benutzern orchestrieren und LLMs nur als Single-Turn-Operatoren nutzen kann? 
“

Doch nachdem sie die Aussage anhand ihrer zahlreichen Beispiele geprĂŒft haben, kommen sie zu dem Schluss:

„[Sich] bei der Informationsverarbeitung auf ein agentenĂ€hnliches Framework zu verlassen, könnte einschrĂ€nkend sein, und wir argumentieren, dass LLMs die Multi-Turn-Interaktion nativ unterstĂŒtzen sollten.“

Das ist interessant neues Papier ist betitelt LLMs verlieren sich in mehrstufigen GesprÀchenund stammt von vier Forschern aus MS Research und Salesforce.

Fragmentierte GesprÀche

Die neue Methode zerlegt zunĂ€chst herkömmliche Einzelanweisungen in kleinere Teile, die in SchlĂŒsselmomenten wĂ€hrend einer LLM-Interaktion eingefĂŒhrt werden sollen. Diese Struktur spiegelt den explorativen, hin- und hergehenden Interaktionsstil wider, der in Systemen wie ChatGPT oder Google Gemini zu sehen ist.

Jede ursprĂŒngliche Anweisung ist eine einzelne, in sich geschlossene Eingabeaufforderung, die die gesamte Aufgabe in einem Rutsch ausfĂŒhrt und dabei eine allgemeine Frage, den unterstĂŒtzenden Kontext und alle relevanten Bedingungen kombiniert. Die Shard-Version zerlegt dies in mehrere kleinere Teile, wobei jeder Shard nur eine Information hinzufĂŒgt:

Gepaarte Anweisungen zeigen (a) eine vollstĂ€ndige Eingabeaufforderung, die in einem Durchgang ĂŒbermittelt wird, und (b) deren fragmentierte Version, die zur Simulation einer unterspezifizierten, mehrstufigen Interaktion verwendet wird. Semantisch liefert jede Version die gleiche Informationsnutzlast.

Gepaarte Anweisungen zeigen (a) eine vollstĂ€ndige Eingabeaufforderung, die in einem Durchgang ĂŒbermittelt wird, und (b) deren fragmentierte Version, die zur Simulation einer unterspezifizierten, mehrstufigen Interaktion verwendet wird. Semantisch liefert jede Version die gleiche Informationsnutzlast.

Der erste Teil stellt immer das Hauptziel der Aufgabe vor, wĂ€hrend die ĂŒbrigen erlĂ€uternde Details liefern. Zusammen liefern sie den gleichen Inhalt wie die ursprĂŒngliche Aufforderung, verteilen sich aber auf natĂŒrliche Weise auf mehrere GesprĂ€chsrunden.

Jedes simulierte GesprĂ€ch findet zwischen drei Komponenten statt: dem Assistent, das zu bewertende Modell; die Benutzer, ein simulierter Agent mit Zugriff auf die vollstĂ€ndige Anweisung in Sharded-Form; und die fragst, das den Austausch ĂŒberwacht und bewertet.

Die Konversation beginnt damit, dass der Benutzer den ersten Shard enthĂŒllt und der Assistent frei antwortet. Das System ordnet diese Antwort dann einer von mehreren Kategorien zu, beispielsweise KlĂ€rungsanfrage oder einen vollstĂ€ndiger Antwortversuch.

Wenn das Modell die Beim Versuch einer Antwort extrahiert eine separate Komponente nur den relevanten Bereich zur Auswertung und ignoriert den umgebenden Text. Bei jedem neuen Zug deckt der Benutzer eine weitere Scherbe auf, was zu einer weiteren Antwort fĂŒhrt. Der Austausch wird fortgesetzt, bis das Modell entweder die richtige Antwort hat oder keine Scherben mehr zum Aufdecken ĂŒbrig sind:

Diagramm einer Sharded-Konversationssimulation, wobei das ausgewertete Modell rot hervorgehoben ist.

Diagramm einer Sharded-Konversationssimulation, wobei das ausgewertete Modell rot hervorgehoben ist.

FrĂŒhe Tests zeigten, dass die Modelle hĂ€ufig nach Informationen fragten, die noch nicht geteilt worden waren. Daher verwarfen die Autoren die Idee, Shards in einer festgelegten Reihenfolge zu enthĂŒllen. Stattdessen wurde ein Simulator verwendet, der je nach GesprĂ€chsverlauf entschied, welcher Shard als nĂ€chstes enthĂŒllt werden sollte.

Der mit GPT-4o-mini implementierte Benutzersimulator erhielt daher vollen Zugriff auf die gesamte Anweisung und den GesprÀchsverlauf und musste bei jedem Schritt basierend auf dem Verlauf des Austauschs entscheiden, welcher Shard als NÀchstes angezeigt werden sollte.

Der Benutzersimulator umformuliert Jeder Shard sorgte dafĂŒr, dass der GesprĂ€chsfluss erhalten blieb, ohne die Bedeutung zu verĂ€ndern. Dadurch konnte die Simulation das Geben und Nehmen eines echten Dialogs widerspiegeln und gleichzeitig die Kontrolle ĂŒber die Aufgabenstruktur bewahren.

Vor Beginn der Konversation erhĂ€lt der Assistent nur die grundlegenden Informationen, die er zur Erledigung der Aufgabe benötigt, wie beispielsweise ein Datenbankschema oder eine API-Referenz. Er wird nicht darĂŒber informiert, dass die Anweisungen aufgeteilt werden, und er erhĂ€lt auch keine konkrete Anleitung zur Konversationsabwicklung. Dies geschieht mit Absicht: In der Praxis werden Modelle fast nie darauf hingewiesen, dass eine Eingabeaufforderung unvollstĂ€ndig ist oder im Laufe der Zeit aktualisiert wird. Das Weglassen dieses Kontexts hilft der Simulation, das Verhalten des Modells in einem realistischeren Kontext widerzuspiegeln.

GPT-4o-mini wurde auch verwendet, um zu entscheiden, wie die Antworten des Modells klassifiziert werden sollten, und um daraus die endgĂŒltigen Antworten zu extrahieren. Dies trug dazu bei, die Simulation flexibel zu halten, fĂŒhrte aber gelegentlich zu Fehlern: Nach der manuellen ÜberprĂŒfung mehrerer hundert GesprĂ€che stellten die Autoren jedoch fest, dass weniger als fĂŒnf Prozent Probleme aufwiesen und weniger als zwei Prozent aufgrund der Probleme eine ErgebnisĂ€nderung zeigten. Sie hielten dies fĂŒr eine ausreichend niedrige Fehlerquote im Rahmen des Projekts.

Simulationsszenarien

Die Autoren verwendeten fĂŒnf Simulationsarten, um das Modellverhalten unter verschiedenen Bedingungen zu testen. Jede dieser Simulationsarten stellt eine Variation dar, wie und wann Teile der Anweisung offenbart werden.

Im VollstÀndiger Bei dieser Einstellung erhÀlt das Modell die gesamte Anweisung in einem Durchgang. Dies stellt das Standard-Benchmark-Format dar und dient als Leistungsbasis.

Die Scherbe Die Einstellung unterteilt die Anweisung in mehrere Teile und gibt diese einzeln aus. Dadurch wird eine realistischere, weniger spezifizierte Konversation simuliert. Dies ist die Haupteinstellung, mit der getestet wird, wie gut Modelle mit mehrstufigen Eingaben umgehen.

Im Konkat In dieser Einstellung werden die Shards wieder zu einer einzigen Liste zusammengefĂŒgt. Dabei bleibt der Wortlaut erhalten, die schrittweise Struktur wird jedoch entfernt. Dies hilft, die Auswirkungen der GesprĂ€chsfragmentierung durch Umformulierungen oder Inhaltsverlust zu isolieren.

Die Rekapitulieren Einstellung lĂ€uft wie Scherbe, fĂŒgt aber einen letzten Schritt hinzu, in dem alle vorherigen Shards erneut formuliert werden, bevor das Modell eine endgĂŒltige Antwort gibt. Dadurch wird getestet, ob eine Zusammenfassungsaufforderung dazu beitragen kann, verlorenen Kontext wiederherzustellen.

Schließlich haben Schneeball geht weiter, indem er wiederholt alle vorherigen Scherben in jeder Runde, wodurch die vollstĂ€ndige Anweisung im Verlauf des GesprĂ€chs sichtbar bleibt – und ein nachsichtigerer Test der Multiturn-FĂ€higkeit geboten wird.

Simulationstypen basierend auf Sharded-Anweisungen. Eine vollstÀndig spezifizierte Eingabeaufforderung wird in kleinere Teile zerlegt, die dann verwendet werden können, um entweder Single-Turn-Konversationen (Full, Concat) oder Multi-Turn-Konversationen (Sharded, Recap, Snowball) zu simulieren, je nachdem, wie schnell die Informationen preisgegeben werden.

Simulationstypen basierend auf Sharded-Anweisungen. Eine vollstÀndig spezifizierte Eingabeaufforderung wird in kleinere Teile zerlegt, die dann verwendet werden können, um entweder Single-Turn-Konversationen (Full, Concat) oder Multi-Turn-Konversationen (Sharded, Recap, Snowball) zu simulieren, je nachdem, wie schnell die Informationen preisgegeben werden.

Aufgaben und Metriken

Sechs Generierungsaufgaben wurden ausgewĂ€hlt, um sowohl Programmier- als auch natĂŒrliche SprachdomĂ€nen abzudecken: Codegenerierungsaufforderungen wurden ĂŒbernommen aus HumanEval und LiveCodeBench; Text-zu-SQL-Abfragen stammen von Spiders; API-Aufrufe wurden mithilfe von Daten aus dem Berkeley Funktionsaufruf-Bestenliste; elementare mathematische Probleme wurden bereitgestellt von GSM8K; tabellarische Untertitelungsaufgaben basierten auf ToTTo; und Zusammenfassungen mehrerer Dokumente wurden aus dem Zusammenfassung von „Ein Heuhaufen“ Datensatz.

Die Modellleistung wurde anhand von drei Kernmetriken gemessen: durchschnittliche Leistung, Eignung und UnzuverlÀssigkeit.

Durchschnittliche Leistung erfasst, wie gut ein Modell insgesamt ĂŒber mehrere Versuche hinweg abgeschnitten hat; Eignung spiegelten die besten Ergebnisse wider, die ein Modell auf der Grundlage seiner Ergebnisse mit der höchsten Punktzahl erreichen konnte; und UnzuverlĂ€ssigkeit gemessen, wie stark diese Ergebnisse variierten, wobei grĂ¶ĂŸere Unterschiede zwischen den besten und schlechtesten Ergebnissen auf ein weniger stabiles Verhalten hindeuteten.

Um die Konsistenz aller Aufgaben sicherzustellen, wurden alle Bewertungen auf einer Skala von 0 bis 100 angegeben. FĂŒr jede Anweisung wurden Metriken berechnet und anschließend der Durchschnitt ermittelt, um ein Gesamtbild der Modellleistung zu erhalten.

In den Experimenten wurden sechs Shard-Aufgaben verwendet, die sowohl Programmierung als auch natĂŒrliche Sprachgenerierung abdecken. Jede Aufgabe wird mit einer vollstĂ€ndig spezifizierten Anweisung und ihrer Shard-Version dargestellt. FĂŒr jede Aufgabe wurden zwischen 90 und 120 Anweisungen aus etablierten Benchmarks adaptiert.

In den Experimenten wurden sechs Shard-Aufgaben verwendet, die sowohl Programmierung als auch natĂŒrliche Sprachgenerierung abdecken. Jede Aufgabe wird mit einer vollstĂ€ndig spezifizierten Anweisung und ihrer Shard-Version dargestellt. FĂŒr jede Aufgabe wurden zwischen 90 und 120 Anweisungen aus etablierten Benchmarks adaptiert.

Kandidaten und Tests

In den ersten Simulationen (mit geschĂ€tzten Kosten von 5000 US-Dollar) wurden 600 Anweisungen, die sich ĂŒber sechs Aufgaben erstreckten, aufgeteilt und zur Simulation von drei Konversationstypen verwendet: voller, concat und geschertFĂŒr jede Kombination aus Modell, Anweisung und Simulationstyp wurden zehn GesprĂ€che gefĂŒhrt, die insgesamt ĂŒber 200,000 Simulationen ergaben – ein Schema, das es ermöglichte, sowohl die Gesamtleistung als auch tiefere MaßstĂ€be fĂŒr Eignung und ZuverlĂ€ssigkeit zu erfassen.

Getestet wurden 15 Modelle unterschiedlicher Anbieter und Architekturen: die OpenAI-Modelle GPT-4o (Version 2024-11-20), GPT-4o-mini (2024-07-18), GPT-4.1 (2025) und das Denkmodell o3 (2025-04-16).

Anthropologische Modelle waren Claude 3 Haiku (2024-03-07) und Claude 3.7 Sonett (2025), abgerufen ĂŒber Amazon Bedrock.

Google hat dazu beigetragen Gemini 2.5 Flash (Vorschau-04-17) und Gemini 2.5 Pro (Vorschau-03-25). Metamodelle wurden Lama 3.1-8B-Anweisung und Lama 3.3-70B-Anweisung, sowie Lama 4 Scout-17B-16E, ĂŒber Together AI.

Die anderen EintrĂ€ge waren OLMo 2 13B, Phi-4 und Befehl-A, alle lokal ĂŒber Ollama oder Cohere API zugĂ€nglich; und Deepseek-R1, Zugriff ĂŒber Amazon Bedrock.

FĂŒr die beiden 'Denken' Modelle (o3 und R1), Token-Grenzwerte wurden auf 10,000 erhöht, um lĂ€ngere Argumentationsketten zu ermöglichen:

Durchschnittliche Leistungswerte fĂŒr jedes Modell in sechs Aufgaben: Code, Datenbank, Aktionen, Daten-zu-Text, Mathematik und Zusammenfassung. Die Ergebnisse werden fĂŒr drei Simulationstypen angezeigt: Voll, Concat und Sharded. Die Modelle sind nach ihrem durchschnittlichen Wert in der Volleinstellung sortiert. Die Schattierung spiegelt den Leistungsabfall gegenĂŒber der Volleinstellung wider. Die letzten beiden Spalten zeigen den durchschnittlichen RĂŒckgang fĂŒr Concat und Sharded im Vergleich zur Volleinstellung.

Durchschnittliche Leistungswerte fĂŒr jedes Modell in sechs Aufgaben: Code, Datenbank, Aktionen, Daten-zu-Text, Mathematik und Zusammenfassung. Die Ergebnisse werden fĂŒr drei Simulationstypen angezeigt: Voll, Concat und Sharded. Die Modelle sind nach ihrem durchschnittlichen Wert in der Volleinstellung sortiert. Die Schattierung spiegelt den Leistungsabfall gegenĂŒber der Volleinstellung wider. Die letzten beiden Spalten zeigen den durchschnittlichen RĂŒckgang fĂŒr Concat und Sharded im Vergleich zur Volleinstellung.

Zu diesen Ergebnissen erklĂ€ren die Autoren†:

„Auf hohem Niveau, Jedes Modell weist bei jeder Aufgabe eine Leistungsminderung auf, wenn man die FULL- und SHARDED-Leistung vergleicht, mit einer durchschnittlichen Degradation von -39%. Wir nennen dieses PhĂ€nomen Im GesprĂ€ch verloren: Modelle, die in der laborĂ€hnlichen Umgebung eines vollstĂ€ndig spezifizierten, einstufigen GesprĂ€chs eine herausragende Leistung (90 %+) erzielen auf genau die gleichen Aufgaben in einem realistischeren Umfeld, wenn das GesprĂ€ch nicht spezifiziert ist und mehrere Wendungen umfasst.‘

Konkat Die Ergebnisse lagen im Durchschnitt bei 95 Prozent voller, was darauf hindeutet, dass der Leistungsabfall in der Sharded-Umgebung nicht durch Informationsverlust erklĂ€rt werden kann. Kleinere Modelle wie Llama3.1-8B-Instruct, OLMo-2-13B und Claude 3 Haiku zeigten eine stĂ€rkere Verschlechterung unter concat, was darauf hindeutet, dass kleinere Modelle im Allgemeinen weniger robust gegenĂŒber Umformulierungen sind als grĂ¶ĂŸere.

Die Autoren beobachten†:

'Überraschenderweise, leistungsstĂ€rkere Modelle (Claude 3.7 Sonnet, Gemini 2.5, GPT-4.1) verlieren sich im GesprĂ€ch ebenso wie kleinere Modelle (Llama3.1-8B-Instruct, Phi-4), mit durchschnittlichen Verschlechterungen von 30-40%. Dies ist teilweise auf metrische Definitionen zurĂŒckzufĂŒhren. Da kleinere Modelle niedrigere absolute Werte in FULL, sie haben weniger Spielraum fĂŒr Verschlechterungen als die besseren Modelle.

„Kurz gesagt: Egal, wie gut die Singleturn-Leistung eines LLM ist, wir beobachten große Leistungseinbußen im Multiturn-Modus.“

Der erste Test zeigt, dass einige Modelle bei bestimmten Aufgaben besser abschnitten: Command-A bei Aktionen, Claude 3.7 Sonnet und GPT-4.1 bei Code; und Gemini 2.5 Pro bei Daten-zu-Text. Dies deutet darauf hin, dass die Multiturn-FĂ€higkeit je nach DomĂ€ne variiert. Reasoning-Modelle wie o3 und Deepseek-R1 schnitten insgesamt nicht besser ab, möglicherweise weil ihre lĂ€ngeren Antworten mehr Annahmen einfĂŒhrten, was die Konversation eher verwirrend machte.

ZuverlÀssigkeit

Der Zusammenhang zwischen Eignung und ZuverlĂ€ssigkeit, der in Einzeldurchlaufsimulationen deutlich wurde, schien unter Mehrdurchlaufbedingungen auseinanderzufallen. WĂ€hrend die Eignung nur geringfĂŒgig abnahm, nahm die UnzuverlĂ€ssigkeit ab. verdoppelt im Durchschnitt. Modelle, die bei Vollformat-Eingabeaufforderungen stabil waren, wie GPT-4.1 und Gemini 2.5 Pro, wurden genauso unberechenbar wie schwĂ€chere Modelle wie Llama3.1-8B-Instruct oder OLMo-2-13B, sobald die Anweisung fragmentiert wurde.

Übersicht ĂŒber Eignung und UnzuverlĂ€ssigkeit, dargestellt in einem Boxplot (a), gefolgt von ZuverlĂ€ssigkeitsergebnissen aus Experimenten mit fĂŒnfzehn Modellen (b) und Ergebnissen aus dem schrittweisen Sharding-Test, bei dem Anweisungen in ein bis acht Shards aufgeteilt wurden (c).

Übersicht ĂŒber Eignung und UnzuverlĂ€ssigkeit, dargestellt in einem Boxplot (a), gefolgt von ZuverlĂ€ssigkeitsergebnissen aus Experimenten mit fĂŒnfzehn Modellen (b) und Ergebnissen aus dem schrittweisen Sharding-Test, bei dem Anweisungen in ein bis acht Shards aufgeteilt wurden (c).

Die Modellantworten variierten bei derselben Aufgabe oft um bis zu 50 Punkte, selbst wenn nichts Neues hinzugefĂŒgt wurde. Dies lĂ€sst darauf schließen, dass der Leistungsabfall nicht auf mangelnde FĂ€higkeiten zurĂŒckzufĂŒhren war, sondern darauf, dass das Modell zwischen den Runden zunehmend instabil wurde.

In dem Papier heißt es†:

[Obwohl] bessere Modelle tendenziell eine etwas höhere Multiturn-FĂ€higkeit aufweisen, weisen alle Modelle tendenziell ein Ă€hnliches Maß an UnzuverlĂ€ssigkeit auf. Mit anderen Worten: In unterspezifizierten Multiturn-Einstellungen weisen alle von uns getesteten Modelle eine sehr hohe UnzuverlĂ€ssigkeit auf, wobei die Leistung zwischen dem besten und dem schlechtesten simulierten Lauf fĂŒr eine feste Anweisung im Durchschnitt um 50 Prozentpunkte abnimmt. "

Um zu testen, ob die Leistungsverschlechterung mit der Anzahl der Runden zusammenhĂ€ngt, fĂŒhrten die Autoren ein Experiment zur schrittweisen Fragmentierung durch, bei dem jede Anweisung in ein bis acht Fragmente aufgeteilt wurde (siehe Spalte ganz rechts im Bild oben).

Mit der zunehmenden Anzahl an Shards stieg auch die UnzuverlĂ€ssigkeit stetig an, was bestĂ€tigte, dass selbst geringfĂŒgige Erhöhungen der Rundenzahl fĂŒhrten zu instabileren ModellenDie Eignung blieb weitgehend unverĂ€ndert, was bestĂ€tigt, dass das Problem in Konsistenz, nicht FĂ€higkeit.

Temperaturkontrolle

In einer separaten Versuchsreihe wurde geprĂŒft, ob die UnzuverlĂ€ssigkeit lediglich ein Nebenprodukt des Zufalls ist. Dazu variierten die Autoren die Temperatureinstellung sowohl des Assistenten als auch des Benutzersimulators um drei Werte: 1.0, 0.5 und 0.0.

In Singleturn-Formaten wie voller und concatDie Reduzierung der Temperatur des Assistenten verbesserte die ZuverlÀssigkeit deutlich und reduzierte die Abweichung um bis zu 80 Prozent. geschert In diesem Kontext hatte dieselbe Intervention nur geringe Auswirkungen:

UnzuverlĂ€ssigkeitswerte fĂŒr verschiedene Kombinationen von Assistenten- und Benutzertemperatur in den Einstellungen „VollstĂ€ndig“, „Concat“ und „Sharded“, wobei niedrigere Werte auf eine grĂ¶ĂŸere Reaktionskonsistenz hinweisen.

UnzuverlĂ€ssigkeitswerte fĂŒr verschiedene Kombinationen von Assistenten- und Benutzertemperatur in den Einstellungen „VollstĂ€ndig“, „Concat“ und „Sharded“, wobei niedrigere Werte auf eine grĂ¶ĂŸere Reaktionskonsistenz hinweisen.

Selbst wenn sowohl der Assistent als auch der Benutzer auf Nulltemperatur eingestellt waren, blieb die UnzuverlÀssigkeit hoch, wobei GPT-4o eine Abweichung von etwa 30 Prozent aufwies, was darauf hindeutet, dass die InstabilitÀt, die bei mehrstufigen GesprÀchen beobachtet wird, nicht nur stochastisches Rauschen, aber eine strukturelle SchwÀche in der Art und Weise, wie Modelle fragmentierte Eingaben verarbeiten.

Folgen

Die Autoren beschreiben die Auswirkungen ihrer Erkenntnisse am Ende des Artikels ungewöhnlich ausfĂŒhrlich. Sie argumentieren, dass eine starke Single-Turn-Leistung keine Garantie fĂŒr eine Multi-Turn-ZuverlĂ€ssigkeit ist, und warnen davor, sich bei der Bewertung der Einsatzbereitschaft in der realen Welt zu sehr auf vollstĂ€ndig spezifizierte Benchmarks zu verlassen (da solche Benchmarks die InstabilitĂ€t bei natĂŒrlicheren, fragmentierten Interaktionen verschleiern).

Sie legen auch nahe, dass UnzuverlĂ€ssigkeit nicht nur ein Stichprobenartefakt ist, sondern ein grundlegende EinschrĂ€nkung in der Art und Weise, wie aktuelle Modelle sich entwickelnde Eingaben verarbeiten, und sie weisen darauf hin, dass dies Bedenken hinsichtlich Agentenrahmen aufwirft, die auf anhaltendem Denken ĂŒber Runden hinweg beruhen.

Schließlich argumentieren sie, dass die Multiturn-FĂ€higkeit als KernfĂ€higkeit von LLMs behandelt werden sollte und nicht als etwas, das auf externe Systeme ausgelagert werden sollte.

Die Autoren weisen darauf hin, dass ihre Ergebnisse wahrscheinlich unterschĂ€tzen das wahre Ausmaß des Problems und lenken die Aufmerksamkeit auf die idealen Bedingungen des Tests: Der Benutzersimulator in ihrem Setup hatte vollen Zugriff auf die Anweisung und konnte Shards in optimaler Reihenfolge anzeigen, was dem Assistenten einen unrealistisch gĂŒnstigen Kontext verlieh (in der realen Welt geben Benutzer oft fragmentarische oder mehrdeutige Eingabeaufforderungen ein, ohne zu wissen, was das Modell als NĂ€chstes hören muss).

ZusĂ€tzlich wurde der Assistent bewertet sofort nach jedem GesprĂ€chsabschnitt, bevor das GesprĂ€ch vollstĂ€ndig begonnen hat. Dadurch wird verhindert, dass spĂ€tere Verwirrungen oder SelbstwidersprĂŒche bestraft werden, was sonst die Leistung verschlechtern wĂŒrde. Diese Auswahlmöglichkeiten sind zwar fĂŒr die experimentelle Kontrolle notwendig, bedeuten aber, dass die in der Praxis beobachteten ZuverlĂ€ssigkeitslĂŒcken wahrscheinlich noch grĂ¶ĂŸer sind als die berichteten.

Sie schließen daraus:

„[Wir] glauben, dass durchgefĂŒhrte Simulationen ein gutes Testfeld fĂŒr die Multiturn-FĂ€higkeiten von LLM darstellen.“ Aufgrund der stark vereinfachten Simulationsbedingungen gehen wir davon aus, dass die in den Experimenten beobachtete Verschlechterung höchstwahrscheinlich auf einer UnterschĂ€tzung der UnzuverlĂ€ssigkeit von LLMs und der HĂ€ufigkeit beruht, mit der LLMs in realen Situationen in GesprĂ€chen verloren gehen.'

Fazit

Jeder, der lĂ€ngere Zeit mit einem LLM verbracht hat, wird die hier angesprochenen Probleme wahrscheinlich aus praktischer Erfahrung wiedererkennen; und ich stelle mir vor, dass die meisten von uns „verlorene“ LLM-GesprĂ€che intuitiv aufgegeben und neue aufgenommen haben, in der Hoffnung, dass der LLM vielleicht „von vorne beginnt“ und aufhört, sich mit dem Material zu beschĂ€ftigen, das in einem langen, verschlungenen und zunehmend Ă€rgerlichen Austausch zur Sprache kam.

Es ist interessant festzustellen, dass das Problem nicht unbedingt gelöst werden kann, wenn man es in einen umfassenderen Kontext stellt. Und tatsÀchlich ist zu beobachten, dass das Dokument mehr Fragen aufwirft als es Antworten liefert (mit Ausnahme der Möglichkeiten, das Problem zu umgehen).

 

* Verwirrenderweise hat dies nichts mit die konventionelle Bedeutung von „Sharding“ in der KI.

† Eigene, krĂ€ftige Hervorhebungen des Autors.

Erstveröffentlichung: Montag, 12. Mai 2025

Autor zum Thema maschinelles Lernen, Fachspezialist fĂŒr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂŒr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂŒtzt]
Twitter: @manders_ai