Künstliche Intelligenz

Nein, sie haben Claude nicht gedrosselt – es war eigentlich schlimmer

mm

Lassen Sie uns über das sprechen, was mit Claude passiert ist, weil Sie, wenn Sie es in den letzten vier Wochen verwendet haben, wahrscheinlich bemerkt haben, dass etwas nicht stimmte.

Für die letzten sechs Wochen haben Claude-Benutzer den Verstand verloren. Ab Anfang August kamen Beschwerden auf Reddit, X und Entwicklerforen. Die Probleme waren überall:

  • Code, der früher perfekt funktioniert hat, war plötzlich kaputt
  • Claude behauptete, er hätte Änderungen an Dateien vorgenommen, obwohl er es nicht getan hatte
  • Zufällige thailändische oder chinesische Zeichen erschienen in englischen Antworten
  • Anweisungen wurden vollständig ignoriert
  • Die gleiche Aufforderung ergab völlig unterschiedliche Antworten
  • Claude-Code-Benutzer sagten, es fühle sich “lobotomisiert” im Vergleich zu früher an

Die Beschwerden wurden so schlimm, dass die Leute bis Ende August davon überzeugt waren, dass Anthropic Claude heimlich drosselte, um Geld zu sparen. Verschwörungstheorien waren überall – vielleicht reduzierten sie die Qualität während der Spitzenzeiten, vielleicht hatten sie heimlich ein billigeres Modell eingebaut, vielleicht war dies eine absichtliche Verschlechterung, um Serverkosten zu verwalten.

Benutzer zahlten für Claude Pro und erhielten, was sich wie Claude Lite anfühlte. Entwickler, die Workflows um Claude herum aufgebaut hatten, sahen plötzlich, wie ihre Produktivität tankte. Mit all dem sagte jedoch ein Teil der Benutzer, sie hätten überhaupt keine Probleme.

Anthropic gibt endlich zu: Ja, wir hatten Probleme

Nach Wochen von Benutzerbeschwerden und wachsender Frustration hat Anthropic gerade ein massives technisches Post-Mortem veröffentlicht, das im Wesentlichen sagt: “Sie hatten Recht. Claude war kaputt. Hier ist, was passiert ist.”

Und die Antwort ist interessant.

Es stellte sich heraus, dass es nicht ein Problem war. Es waren drei völlig separate Infrastruktur-Fehler, alle gleichzeitig aufgetreten, und sie schufen einen perfekten Sturm der AI-Verschlechterung. Sie drosselten nicht. Sie haben keine Abstriche gemacht. Sie hatten einfach drei verschiedene Dinge, die gleichzeitig kaputt gingen, und es dauerte sechs Wochen, um sie vollständig zu verstehen und zu beheben.

Lassen Sie mich genau erklären, was schief gelaufen ist, denn dies ist tatsächlich ein nützlicher Blick darauf, wie diese KI-Systeme auf unerwartete Weise versagen können.

Der Dreifach-Bug-Zusammenbruch: Eine Zeitleiste des Chaos

Quelle: Anthropic

Fehler #1: Das falsche Server-Problem

Dies ist fast lustig, wenn man nicht derjenige war, der es erlebt hat. Claude Sonnet 4 war dafür ausgelegt, 200.000 Token-Kontexte zu verarbeiten. Aber ab dem 5. August wurden einige Anfragen an Server weitergeleitet, die für 1 Million Token-Kontexte konfiguriert waren.

Anfangs waren nur 0,8 % der Anfragen betroffen. Kein großes Problem, oder? Falsch.

Am 29. August verwandelte ein routinemäßiger Load-Balancer-Update dieses kleine Problem in ein großes. Plötzlich wurden bei Spitzenlast 16 % der Sonnet-4-Anfragen an die falschen Server weitergeleitet. Und die Weiterleitung war “klebrig”. Sobald man falsch weitergeleitet wurde, blieb man falsch weitergeleitet.

Die Auswirkungen:

  • Etwa 30 % der aktiven Claude-Code-Benutzer hatten mindestens eine Anfrage, die falsch weitergeleitet wurde
  • Die Antwortzeiten für betroffene Benutzer brachen ein
  • Der gleiche Benutzer erlebte das Problem wiederholt, während andere überhaupt keine Probleme hatten

Fehler #2: Der zufällige Zeichengenerator

Am 25. August hat Anthropic eine Fehlkonfiguration auf ihren TPU-Servern bereitgestellt. Das Ergebnis war, dass Claude plötzlich thailändische und chinesische Zeichen in englische Antworten einfügte.

Stellen Sie sich vor, Sie bitten Claude, Ihren Python-Code zu debuggen und erhalten dies:

def calculate_total(items):

total = 0

for item in items:

總計 += item.price # <- Was?

return ผลรวม

Dies betraf:

  • Opus 4.1 und Opus 4: 25. bis 28. August
  • Sonnet 4: 25. August bis 2. September

Die technische Ursache war ein Token-Generierungsfehler, der eine hohe Wahrscheinlichkeit für Zeichen zuweiste, die dort nichts zu suchen hatten. Er brach buchstäblich den grundlegenden Mechanismus, wie Claude das nächste Wort auswählt.

Fehler #3: Der unsichtbare Compiler-Fehler

Dies ist der beunruhigende Teil aus ingenieurtechnischer Sicht. Es gab einen latenten Fehler im XLA-Compiler von Google, der untätig geblieben war. Als Anthropic am 25. August Code bereitstellte, um die Token-Auswahl zu verbessern, lösten sie ihn versehentlich aus.

Was dieser Fehler tat, war wirklich seltsam – er verursachte, dass Claude unbeabsichtigt den wahrscheinlichsten Token ausschloss, wenn er Text generierte. Claude wusste die richtige Antwort, aber es wurde ihm physisch unmöglich gemacht, sie zu sagen.

Der wirklich verrückte Teil? Sie hatten bereits im Dezember 2024 daran gearbeitet, ohne es zu merken. Als sie im August das vermeintliche Ursachenproblem “behebten”, entfernten sie die Umgehung und ließen das eigentliche Problem aufkommen.

Warum es sechs Wochen dauerte, es zu beheben

Sie fragen sich vielleicht: Wie kann ein Unternehmen wie Anthropic mit weltklasse-Technikern sechs Wochen brauchen, um das zu lösen?

Die Antwort zeigt, wie komplex diese Systeme wirklich sind:

1. Datenschutzkontrollen behinderten die Fehlersuche

“Unsere internen Datenschutz- und Sicherheitskontrollen beschränken, wie und wann Ingenieure auf Benutzerinteraktionen mit Claude zugreifen können, insbesondere wenn diese Interaktionen nicht als Feedback an uns gemeldet werden.”

Sie konnten buchstäblich nicht sehen, was kaputt war, es sei denn, Benutzer meldeten es explizit mit Feedback. Gut für den Datenschutz, schrecklich für die Fehlersuche.

2. Die Fehler versteckten sich selbst

Claude erholte sich oft von einzelnen Fehlern, was die Verschlechterung wie normale Varianz und nicht wie systematisches Versagen aussehen ließ. Ihre Benchmarks und Evaluierungen haben es nicht erfasst, weil das Modell sich selbst korrigierte, um Tests zu bestehen.

3. Multi-Plattform-Chaos

Claude läuft auf AWS Trainium, NVIDIA-GPUs und Google-TPUs – drei völlig unterschiedliche Hardware-Plattformen. Jeder Fehler manifestierte sich unterschiedlich auf jeder Plattform:

  • AWS Bedrock: 0,18 % der Sonnet-4-Anfragen waren auf dem Höhepunkt betroffen
  • Google Vertex AI: Weniger als 0,0004 % betroffen
  • Direkte API: Bis zu 16 % betroffen

Dies ließ es wie mehrere unabhängige Probleme aussehen und nicht wie drei bestimmte Fehler.

4. Überlappende Symptome

Mit drei Fehlern, die gleichzeitig aktiv waren, waren die Symptome überall. Ein Benutzer könnte thailändische Zeichen erhalten, ein anderer könnte verschlechterte Antworten sehen, ein dritter könnte perfomante Leistung sehen. Es gab kein klares Muster, dem man folgen konnte.

Was dies eigentlich für die Zuverlässigkeit von KI bedeutet

Diese ganze Saga zeigt etwas Wichtiges über den aktuellen Zustand von KI-Systemen: Sie sind viel zerbrechlicher, als sie erscheinen.

Wir sprechen nicht nur über das KI-Modell selbst. Wir sprechen über:

  • Routing-Infrastruktur, die Anfragen an die falsche Stelle senden kann
  • Hardware-spezifische Implementierungen, die sich unterschiedlich verhalten
  • Compiler-Fehler, die monatelang untätig bleiben können
  • Lastenausgleich, die kleine Probleme in große Ausfälle umwandeln können

Ein Missverständnis, ein Compiler-Fehler, ein Routing-Fehler – und plötzlich vergisst Ihr KI-Assistent, wie man codiert, oder beginnt, Sprachen zu sprechen, die es nicht sollte.

Ist es tatsächlich behoben?

Anthropic sagt, sie hätten alle drei Probleme bis zum 16. September behoben. Sie haben:

  • Die Routing-Logik behoben
  • Die problematischen Konfigurationen zurückgesetzt
  • Von approximativen zu exakten Top-k-Operationen gewechselt (und dabei eine Leistungsverschlechterung für Genauigkeit in Kauf genommen)
  • Kontinuierliche Produktionsüberwachung hinzugefügt

Aber Benutzer melden immer noch Probleme. Einige Entwickler behaupten, Claude Code fühle sich immer noch verschlechtert im Vergleich zu seiner früheren Leistung an. Ob dies:

  • Verbleibende Auswirkungen der Fehler
  • Neue Probleme, die noch nicht identifiziert wurden
  • Psychologische Verzerrung nach Wochen von Problemen
  • Oder tatsächliche anhaltende Verschlechterung

… wissen wir noch nicht.

Das Fazit

Diese Situation ist ein perfektes Fallbeispiel dafür, wie komplexe KI-Systeme auf völlig unerwartete Weise versagen können. Drei separate Fehler, alle innerhalb von Wochen ausgelöst, schufen eine Wahrnehmung massiver Qualitätsverschlechterung, die sechs Wochen dauerte, um diagnostiziert und behoben zu werden.

Wir können Anthropic für die Transparenz Anerkennung zollen. Die Veröffentlichung eines detaillierten technischen Post-Mortems ist mehr, als die meisten Unternehmen tun würden. Aber es zeigt auch, wie viel schiefgehen kann unter der Haube dieser Systeme, auf die wir immer mehr angewiesen sind.

Für jeden, der auf Claude oder ein anderes LLM aufbaut: Sie benötigen Redundanz, Validierung und Notfallpläne. Denn wie wir gerade gesehen haben, können sogar die besten KI-Systeme drei verschiedene Probleme gleichzeitig haben, und es kann Wochen dauern, bevor jemand herausfindet, was tatsächlich passiert.

Die Infrastruktur, die diese KI-Modelle unterstützt, ist ebenso wichtig wie die Modelle selbst. Und im Moment zeigt diese Infrastruktur einige ernsthafte Wachstumsschmerzen.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.