Künstliche Intelligenz
Das Ende von Chain-of-Thought? CoreThink und Forscher der University of California schlagen einen Paradigmenwechsel in der AI-Reasoning vor

Seit Jahren ist der Wettlauf in der künstlichen Intelligenz von Skalierung geprägt. Größere Modelle, mehr GPUs, längere Prompts. OpenAI, Anthropic und Google haben mit massiven großen Sprachmodellen (LLMs), Verstärkungs-Lernalgorithmen und Chain-of-Thought-Prompts die Führung übernommen – Techniken, die darauf ausgelegt sind, Reasoning zu simulieren, indem sie schrittweise Antworten erstellen.
Ein neues technisches Whitepaper mit dem Titel CoreThink: Eine symbolische Reasoning-Layer zur Bearbeitung von langfristigen Aufgaben mit LLMs von CoreThink AI und Forschern der University of California argumentiert, dass dieses Paradigma möglicherweise an seine Grenzen stößt. Die Autoren machen eine provokative Behauptung: LLMs sind leistungsfähige statistische Textgeneratoren, aber sie sind keine Reasoning-Engines. Und Chain-of-Thought, die Methode, die am häufigsten verwendet wird, um das Gegenteil zu behaupten, ist mehr ein Theaterstück als echte Logik.
Als Reaktion darauf stellen das Team General Symbolics vor, eine neuro-symbolische Reasoning-Layer, die in bestehende Modelle integriert werden kann. Ihre Bewertungen zeigen dramatische Verbesserungen in einer breiten Palette von Reasoning-Benchmarks – ohne erneutes Training oder zusätzliche GPU-Kosten. Wenn diese Methode validiert wird, könnte sie einen Wendepunkt in der Gestaltung von KI-Systemen für Logik und Entscheidungsfindung markieren.
Was ist Chain-of-Thought — und warum ist es wichtig
Chain-of-Thought (CoT)-Prompts sind zu einer der am häufigsten verwendeten Techniken in der modernen KI geworden. Indem man ein Modell auffordert, seine Reasoning-Schritte vor der Ausgabe einer Antwort zu schreiben, fanden Forscher heraus, dass sie oft die Benchmark-Ergebnisse in Bereichen wie Mathematik, Codierung und Planung verbessern konnten. Auf den ersten Blick schien es wie ein Durchbruch.
Das Bericht hebt jedoch die Einschränkungen dieses Ansatzes hervor. CoT-Erklärungen können überzeugend aussehen, aber Studien zeigen, dass sie oft untreu gegenüber dem sind, was das Modell tatsächlich berechnet hat, und stattdessen nachträglich Rechtfertigungen für die Ausgaben liefern, anstatt echte Logik zu offenbaren. Dies birgt reale Risiken. In der Medizin kann eine plausible Erzählung die Abhängigkeit von spurious Korrelationen verbergen, was zu gefährlichen Fehldiagnosen führen kann. Im Recht können erfundene Rechtfertigungen für echte Rechtfertigungen gehalten werden, was die Rechtsstaatlichkeit und Rechenschaftspflicht gefährden kann.
Der Bericht hebt auch die Ineffizienz hervor: CoT-Ketten können auf einfache Probleme extrem lang werden, während sie auf komplexe Probleme in flache Reasoning zusammenbrechen. Das Ergebnis ist verschwendete Rechenleistung und in vielen Fällen verringerte Genauigkeit. Die Autoren kommen zu dem Schluss, dass Chain-of-Thought “performative, nicht mechanistisch” ist – eine oberflächliche Darstellung, die die Illusion von Interpretierbarkeit erzeugt, ohne sie tatsächlich zu liefern.
Symbolische KI: Von frühen Träumen zu neuen Wiederbelebungen
Die Kritik an CoT lädt zu einem Blick in die Geschichte der symbolischen KI ein. In ihren frühen Jahrzehnten drehte sich die KI-Forschung um regelbasierte Systeme, die Wissen in expliziter logischer Form kodierten. Expertensysteme wie MYCIN versuchten, Krankheiten durch die Anwendung von handgefertigten Regeln zu diagnostizieren, und Betrugsbekämpfungssysteme verließen sich auf umfangreiche Logiksets, um Anomalien zu erkennen.
Symbolische KI hatte unbestreitbare Stärken: Jeder Schritt ihrer Reasoning war transparent und nachvollziehbar. Aber diese Systeme waren spröde. Die Kodierung von Zehntausenden von Regeln erforderte immense Arbeitskraft, und sie hatten Schwierigkeiten, wenn sie mit neuen Situationen konfrontiert wurden. Kritiker wie Hubert Dreyfus argumentierten, dass menschliche Intelligenz von stillschweigendem, kontextgetriebenem Know-how abhängt, das keine Regelmenge erfassen kann. In den 1990er Jahren gaben symbolische Ansätze den Weg für datengetriebene neuronale Netze auf.
In den letzten Jahren gab es eine erneute Anstrengung, die Stärken beider Welten durch neuro-symbolische KI zu kombinieren. Die Idee ist einfach: Neuronale Netze sollten sich um die Verarbeitung von unstrukturierten, wahrnehmungsorientierten Eingaben wie Bildern oder Texten kümmern, während symbolische Module strukturiertes Reasoning und logische Garantien liefern. Aber die meisten dieser Hybriden hatten Schwierigkeiten bei der Integration. Symbolische Rückgrate waren zu starr, während neuronale Module oft die Konsistenz untergruben. Das Ergebnis waren komplexe, schwere Systeme, die die versprochene Interpretierbarkeit nicht lieferten.
General Symbolics: Eine neue Reasoning-Layer
CoreThink’s General Symbolics Reasoner (GSR) zielt darauf ab, diese Einschränkungen mit einem anderen Ansatz zu überwinden. Anstatt Sprache in starre formale Strukturen oder hochdimensionale Einbettungen zu übersetzen, operiert GSR vollständig innerhalb der natürlichen Sprache selbst. Jeder Schritt der Reasoning wird in Wörtern ausgedrückt, wodurch Kontext, Nuancen und Modalität erhalten bleiben. Dies bedeutet, dass Unterschiede wie “muss” versus “sollte” durch den Reasoning-Prozess getragen werden, anstatt abstrahiert zu werden.
Das Framework funktioniert, indem es Eingaben nativ in natürlicher Sprache parsen, logische Einschränkungen durch linguistische Transformationen anwendet und wörtliche Reasoning-Spuren produziert, die vollständig lesbar bleiben. Wenn Widersprüche oder Fehler auftreten, werden sie direkt im Reasoning-Pfad aufgedeckt, wodurch Transparenz und Fehlersuche ermöglicht werden. Um effizient zu bleiben, schneidet das System unnötige Schritte, wodurch stabiles langfristiges Reasoning ohne GPU-Skalierung ermöglicht wird.
Da es als Layer und nicht als erneutes Training fungiert, kann GSR auf bestehende Basismodelle angewendet werden. In Bewertungen lieferte es konsistent Genauigkeitsverbesserungen von 30 bis 60 Prozent bei Reasoning-Aufgaben, ohne die Trainingskosten zu erhöhen.
Benchmark-Ergebnisse
Die Verbesserungen werden am besten durch Benchmarks veranschaulicht. Auf LiveCodeBench v6, das Wettbewerbs-Grade-Coding-Probleme bewertet, erzielte CoreThink eine Passrate von 66,6 Prozent – wesentlich höher als führende Modelle in dieser Kategorie. In SWE-Bench Lite, einem Benchmark für die Fehlerbehebung in der realen Welt, der aus GitHub-Repositorys gezogen wird, erreichte das System eine Genauigkeit von 62,3 Prozent, das höchste Ergebnis, das bisher gemeldet wurde. Und auf ARC-AGI-2, einem der anspruchsvollsten Tests für abstraktes Reasoning, erreichte es 24,4 Prozent, weit über die Grenze von Frontier-Modellen wie Claude und Gemini, die unter 6 Prozent bleiben.
Diese Zahlen spiegeln mehr als nur die rohe Genauigkeit wider. In detaillierten Fallstudien ermöglichte die symbolische Layer es Modellen, anders zu handeln. In scikit-learn’s ColumnTransformer zum Beispiel schlug ein Basismodell einen oberflächlichen Patch vor, der den Fehler verdeckte. Das CoreThink-erweiterte System identifizierte hingegen das Synchronisationsproblem an der Wurzel und behebte es umfassend. Bei einer schwierigen LeetCode-Herausforderung wendete das Basismodell dynamisches Programmieren an und scheiterte vollständig, während die symbolische Reasoning-Layer die fehlerhafte Zustandsdarstellung korrigierte und eine funktionierende Lösung produzierte.
Wie es in die symbolische Wiederbelebung passt
General Symbolics ist Teil einer wachsenden Bewegung, die versucht, Struktur zurück in die KI-Reasoning zu bringen. Klassische symbolische KI zeigte den Wert von Transparenz, konnte aber nicht auf Neuheit reagieren. Traditionelle neuro-symbolische Hybriden versprachen ein Gleichgewicht, aber oft wurden sie zu schwerfällig. Planner-Stacks, die Suche auf LLMs montierten, boten anfangs Hoffnung, aber brachen unter Komplexität zusammen, als Aufgaben skalierten.
Jüngste Fortschritte deuten auf das Potenzial neuer Hybriden hin. DeepMind’s AlphaGeometry zum Beispiel hat gezeigt, dass symbolische Strukturen reine neuronale Modelle bei Geometrie-Problemen überbieten können. CoreThink’s Ansatz erweitert diese Tendenz. In seiner ARC-AGI-Pipeline werden deterministische Objekterkennung und symbolische Musterabstraktion mit neuronaler Ausführung kombiniert, wodurch Ergebnisse erzielt werden, die weit über denen von LLM-Systemen liegen. Bei der Werkzeugnutzung hilft die symbolische Layer, Kontext zu bewahren und Einschränkungen durchzusetzen, wodurch zuverlässigere Multi-Turn-Planung ermöglicht wird.
Der Schlüsselunterschied besteht darin, dass General Symbolics nicht auf starre Logik oder massive Neuschulung angewiesen ist. Durch Reasoning direkt in der Sprache bleibt es flexibel, während es Interpretierbarkeit bewahrt. Dies macht es leichter als frühere Hybriden und, was entscheidend ist, praktisch für die Integration in Unternehmensanwendungen.
Warum es wichtig ist
Wenn Chain-of-Thought eine Illusion von Reasoning ist, dann steht die KI-Industrie vor einer dringenden Herausforderung. Unternehmen können sich nicht auf Systeme verlassen, die nur scheinbar Reasoning betreiben, insbesondere in Hochrisikoumgebungen wie Medizin, Recht und Finanzen. Das Papier legt nahe, dass echter Fortschritt nicht durch die Skalierung von Modellen, sondern durch die Neukonzeption der Grundlagen des Reasoning selbst erzielt wird.
General Symbolics ist eine solche Grundlage. Es bietet eine leichte, interpretierbare Layer, die bestehende Modelle ohne Neuschulung verbessern kann, wodurch echte Reasoning-Verbesserungen anstelle von oberflächlichen Erzählungen produziert werden. Für die breitere KI-Gemeinschaft markiert es einen möglichen Paradigmenwechsel: eine Rückkehr symbolischer Reasoning, nicht als spröde Regelsets, sondern als flexibler Begleiter neuronaler Lernprozesse.
Wie die Autoren es ausdrücken: “Wir müssen nicht mehr Parameter hinzufügen, um besseres Reasoning zu erzielen – wir müssen die Grundlagen neu denken.”












