Vordenker
Die Claude-“Nerfing”-Debatte geht nicht um Claude. Es geht um das, was passiert, wenn Ihre Operationen auf Entscheidungen anderer basieren.

Anfang dieses Jahres veröffentlichte Stella Laurenzo, Senior Director of AI bei AMD, Telemetriedaten von fast 7.000 Claude-Code-Sitzungen, die etwas dokumentierten, was Ingenieure bereits gespürt, aber nicht artikulieren konnten: Zwischen Januar und März sank die sichtbare Denktiefe um 73 %, die API-Aufrufe pro Aufgabe erhöhten sich um das Achtfache, und das Modell las vor der Bearbeitung viel weniger Dateien. Die Zahlen verbreiteten sich schnell. Die Interpretation verbreitete sich noch schneller.
Anthropic bestreitet die Darstellung. Das Unternehmen sagt, dass die Änderungen bewusste Produktentscheidungen widerspiegeln, einschließlich eines neuen adaptiven Denkmechanismus und einer Verschiebung zu mittlerem Aufwand als Standard. Unabhängige Analysten haben auch Teile der Methodik in Frage gestellt. Die Debatte ist noch im Gange, und vernünftige Menschen stimmen nicht darin überein, was tatsächlich passiert ist.
Aber hier ist der Teil, der wichtig ist, wenn Sie ein Unternehmen auf diesen Systemen betreiben: Ob dies eine Verschlechterung oder eine bewusste Feinabstimmung war, ändert nichts daran, was die Unternehmensbetreiber erlebt haben. Sie konnten es nicht vorhersagen. Sie konnten es nicht kontrollieren. Und einige von ihnen spürten es in der Produktion, bevor sie verstanden, was passierte. Das ist die wahre Geschichte, und sie hat nichts mit Anthropic speziell zu tun.
Dies ist ein Abhängigkeitsproblem, kein Modellproblem.
Was wir beschreiben, hat einen Namen: Modellbrüchigkeit. Es ist der Zustand, in dem mission-kritische Operationen eng an das Verhalten eines einzelnen Modells gekoppelt sind, so dass jede Änderung in der Modellschicht, sei es eine Feinabstimmungsentscheidung, ein neuer Standard, eine kapazitätsgetriebene Routing-Änderung oder eine stille Entfernung, das Unternehmen direkt trifft, ohne Puffer und ohne Warnung.
Dies ist kein neues Muster. GPT-4 ging 2023 durch eine Version davon. Claude 3.5 ging 2024 durch eine davon. Claude Opus geht gerade durch eine davon. Es wird wieder passieren mit dem nächsten Frontier-Modell und dem nächsten. Nicht weil ein Anbieter in schlechter Absicht handelt, sondern weil die Optimierung eines Frontier-Modells für Kosten, Latenz und Skalierbarkeit bei globalem Volumen genau das ist, was Frontier-Anbieter tun müssen. Ihre Anreize und die Anreize eines Unternehmens, das Produktionsoperationen darauf betreibt, sind verwandt. Sie sind nicht identisch. Sie werden es nie sein.
Wir haben Qurrent 2023 gegründet und haben das historische Wissen, um zu wissen, wie Unternehmenssoftware-Zyklen ablaufen: Ein Unternehmen investiert in KI. Das Demo funktioniert. Der Pilot funktioniert. Dann geht es live, etwas ändert sich in der Modellschicht, und plötzlich besitzt der Kunde das Problem. Sie sind diejenigen, die die Workflows warten, die Regressionsfehler verfolgen, die Unterbrechung absorbieren. Das hat mir nie als nachhaltiges Modell für Unternehmensoperationen Sinn gemacht.
Die Unternehmensversion dieser Geschichte ist operativ, nicht technisch.
Für Entwickler ist die aktuelle Situation unangenehm. Token-Budgets verbrennen schneller. Codiersitzungen stagnieren. Benchmarks enttäuschen. Das ist ein reales Problem, aber es ist ein wiederherstellbares.
Für Unternehmen, die Finanzoperationen, Compliance-Workflows, Forderungen und Verbindlichkeiten sowie komplexe Backoffice-Prozesse betreiben, sind die Einsätze anders. Diese Workflows können eine schlechte Woche nicht absorbieren. Fehler kumulieren. Volumen kumuliert. SLAs sind Verpflichtungen gegenüber tatsächlichen Kunden, nicht interne Präferenzen. Im Moment, in dem ein Modell in einem hochriskanten Prozess unterperformt, kumuliert der Schaden, ob jemand es bemerkt hat oder nicht.
Was dies schwieriger macht, ist, dass die meisten Unternehmen, die versucht haben, mit der Konstruktion interner Agenten auf einem einzelnen Modell voranzukommen, jetzt entdecken, wie unvollständig diese Grundlage war. Der erste Agent war der einfache Teil. Was nicht gebaut wurde, war die umgebende Infrastruktur: Bewertungsrahmen, die Verhaltensdrift erkennen, bevor sie einen Kunden erreicht, Failover-Logik, die Arbeit automatisch umleitet, wenn ein Modell unterperformt, und laufende Governance, die mit einer Landschaft Schritt halten kann, die sich jedes Quartal ändert. Diese drei Lücken bleiben nicht handhabbar. Sie wachsen zu einer permanenten Ingenieursfunktion, für die niemand budgetiert hat, besetzt von Menschen, deren Job es im Wesentlichen ist, mit Entscheidungen Schritt zu halten, die von Anbietern getroffen werden, auf die sie keinen Einfluss haben.
Was Resilienz in der Produktion wirklich aussieht.
Bei Qurrent haben wir die digitale Arbeitskraft von Anfang an modellunabhängig aufgebaut, nicht als Marketingposition, sondern als architektonische Anforderung. Jede Aufgabe wird an das am besten performende Modell für diese Aufgabe geroutet, kontinuierlich bewertet. Wenn ein besseres Modell ausgeliefert wird, erhalten Kunden es automatisch. Wenn ein aktuelles Modell in einem bestimmten Workflow unterperformt, leitet die Orchestrierungsschicht diese Arbeit in Sekunden um, ohne menschliche Intervention und ohne dass jemand um 2 Uhr morgens aufwacht, um einen Slack-Thread zu lesen.
Unterhalb davon laufen automatisierte Simulationen gegen Produktionsworkflows rund um die Uhr, um zu messen, ob die Ausgaben dem erwarteten Verhalten entsprechen. Drift wird auf der Infrastrukturebene erkannt, bevor das Operationsteam es spürt und lange bevor ein Kunde es tut. Und jede Entscheidung, die jeder digitale Arbeiter trifft, wird protokolliert und kann überprüft werden, ein vollständiges Glas, weil man nicht steuern kann, was man nicht sehen kann.
Diese sind keine Premiumfunktionen. Sie sind der Eintrittspreis für das Betreiben von KI in der Produktion im Unternehmensmaßstab. Die meisten Unternehmen lernen das mitten in einem Nachrichtenzyklus, was der teure Weg ist, es herauszufinden.
Die Frage, die sich in diesem Quartal stellen lässt.
Wenn das Modell, auf das Ihre Operationen am meisten angewiesen sind, nächstes Quartal eine schlechte Woche hat, wie viele Ihrer Workflows würden es spüren? Wie würden Sie es wissen? Und wie schnell könnten Sie daran vorbeirouten?
Wenn die Antwort auf die zweite Frage “wir würden es von einem Kunden hören” ist, ist die Operation nicht produktionsreif. Es ist ein Pilot, der im großen Maßstab läuft, und die Unterscheidung ist wichtiger, als die meisten Führungskräfte realisieren, bis es nicht mehr der Fall ist.
Die aktuelle Debatte ist auf eine hinterhältige Weise nützlich. Jeder CFO und COO, der dies beobachtet, hat gerade eine kostenlose Vorschau darauf erhalten, wie Modellbrüchigkeit unter realer operativer Last aussieht, ohne dafür selbst zu bezahlen. Die richtige Reaktion ist nicht, das Modell zu wechseln. Es ist, Operationen aufzubauen, die nicht von einem einzelnen abhängig sind.
Technologie wird weiterhin sich ändern. Das ist die einzige Gewissheit in diesem Markt. Die Unternehmen, die aus diesem Jahrzehnt als Stärkste hervorgehen, werden nicht diejenigen sein, die das richtige Modell gewählt haben. Sie werden diejenigen sein, deren Operationen nie auf ein einzelnes angewiesen waren.












