Künstliche Intelligenz

Forschung zeigt, dass LLMs auf einfache Argumentation zurückgreifen, wenn die Komplexität zunimmt

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Ein Team von Forschern veröffentlichte eine umfassende Studie am 20. November, in der über 192.000 Argumentationsverläufe von großen Sprachmodellen (LLMs) analysiert wurden, und zeigte, dass KI-Systeme auf flache, lineare Strategien zurückgreifen, anstatt auf die hierarchischen kognitiven Prozesse, die Menschen natürlicherweise anwenden.

Das Forschungsteam untersuchte 18 verschiedene Modelle bei Aufgaben zur Text-, Bild- und Audioargumentation und verglich ihre Ansätze mit 54 menschlichen Denkprozessen, die speziell für die Studie gesammelt wurden. Die Analyse etablierte eine Taxonomie von 28 kognitiven Elementen, die computationale Einschränkungen, meta-kognitive Kontrollen, Wissensrepräsentationen und Transformationsoperationen umfassen – und bietet einen Rahmen, um nicht nur zu bewerten, ob Modelle korrekte Antworten liefern, sondern auch, wie sie zu diesen Schlussfolgerungen gelangen.

Grundlegende Unterschiede in der kognitiven Architektur

Menschliches Argumentieren zeigt konsistent hierarchisches Nesting und meta-kognitives Monitoring – die Fähigkeit, über eigene Denkprozesse nachzudenken und sie zu regulieren. Menschen organisieren Informationen flüssig in verschachtelte Strukturen, während sie aktiv ihre Fortschritte bei komplexen Problemen verfolgen.

LLMs verwenden überwiegend flache Vorwärtsverkettung, indem sie schrittweise durch Probleme gehen, ohne die hierarchische Organisation oder Selbstreflexion, die menschliches Denken auszeichnet. Diese Divergenz wird am deutlichsten, wenn Aufgaben unstrukturiert oder mehrdeutig sind, wo menschliche Anpassungsfähigkeit erheblich besser ist als KI-Ansätze.

Die Studie fand heraus, dass Sprachmodelle die Verhaltenskomponenten besitzen, die mit erfolgreichem Argumentieren verbunden sind, aber oft nicht in der Lage sind, sie spontan einzusetzen. Die Leistung variiert dramatisch je nach Problemart: Dilemmargumentation zeigte die höchste Varianz, wobei kleinere Modelle erheblich kämpften, während logisches Argumentieren moderate Leistung zeigte, wobei größere Modelle im Allgemeinen besser abschnitten als kleinere. Modelle zeigen kontraintuitive Schwächen, indem sie bei komplexen Aufgaben erfolgreich sind, aber bei einfacheren Varianten scheitern.

Leistungsverbesserungen durch geleitetes Argumentieren

Das Forschungsteam entwickelte eine Testzeit-Argumentationsanleitung, die erfolgreiche kognitive Strukturen automatisch aufbaut, und zeigte Leistungsverbesserungen von bis zu 66,7 % bei komplexen Problemen, wenn Modelle angeregt werden, menschlichere Argumentationsansätze zu verwenden. Diese Erkenntnis legt nahe, dass LLMs latente Fähigkeiten für komplexeres Argumentieren besitzen, aber explizite Anleitung benötigen, um sie effektiv einzusetzen.

Die Lücke zwischen menschlichem und KI-Argumentieren wird größer, wenn die Aufgabenkomplexität zunimmt. Während Modelle einfache Probleme durch Vorwärtsverkettung allein lösen können, kämpfen sie mit den rekursiven, selbstüberwachenden Strategien, die Menschen natürlicherweise bei unklaren oder mehrschichtigen Herausforderungen einsetzen.

Die öffentlich verfügbare Datenmenge der Studie bietet eine Grundlage für zukünftige Forschung zum Vergleich von künstlicher und menschlicher Intelligenz. Durch die Abbildung von 28 verschiedenen kognitiven Elementen ermöglicht das Framework Forschern, genau zu bestimmen, wo KI-Argumentieren versagt, anstatt einfach Genauigkeitswerte zu messen.

Auswirkungen auf die KI-Entwicklung

Die Ergebnisse heben eine grundlegende Einschränkung in aktuellen KI-Systemen hervor: die Lücke zwischen Rechenleistung und echter kognitiver Raffinesse. Modelle, die auf großen Datenmengen trainiert wurden, können ihre Antworten durch Mustererkennung finden, aber fehlen die reflektierenden, hierarchischen Denkprozesse, die menschliches Problemlösen auszeichnen.

Diese Forschung baut auf wachsenden Bedenken hinsichtlich Einschränkungen des KI-Argumentierens auf, die in verschiedenen Bereichen identifiziert wurden. Die Leistungsverbesserung durch geleitetes Argumentieren legt nahe, dass bessere Prompting-Strategien und architektonische Modifikationen helfen können, Modelle ihre latenten Argumentationsfähigkeiten effektiver zu nutzen.

Die wichtigste Beiträge der Studie könnte ihre detaillierte Taxonomie kognitiver Elemente sein, die Forschern und Entwicklern spezifische Ziele für die Verbesserung bietet. Anstatt Argumentieren als monolithische Fähigkeit zu behandeln, zerlegt das Framework es in messbare Komponenten, die durch Trainingsmodifikationen oder Prompting-Techniken einzeln angegangen werden können.