Sztuczna inteligencja

Nie, Nie Ograniczali Claude’a – Było To Coś Gorszego

mm

W porządku, porozmawiajmy o tym, co działo się z Claude, ponieważ jeśli używałeś go przez ostatni miesiąc, prawdopodobnie zauważyłeś, że coś było nie tak.

Przez sześć tygodni użytkownicy Claude’a byli szaleni. Na początku sierpnia skargi zaczęły napływać na Reddit, X i fora deweloperskie. Problemy były wszędzie:

  • Kod, który wcześniej działał idealnie, nagle uległ awarii
  • Claude twierdził, że wprowadził zmiany w plikach, gdy tak nie było
  • Losowe tajskie lub chińskie znaki pojawiały się w odpowiedziach w języku angielskim
  • Instrukcje były całkowicie ignorowane
  • Ta sama instrukcja dawała dzikie różnice w jakości odpowiedzi
  • Użytkownicy Claude Code mówili, że czuło się “obcięte” w porównaniu z poprzednio

Skargi były tak złe, że pod koniec sierpnia ludzie byli przekonani, że Anthropic potajemnie ograniczał Claude’a, aby zaoszczędzić pieniądze. Teorie spiskowe były wszędzie – może redukowali jakość w godzinach szczytu, może cichcem wymienili na tańszy model, może to była celowa degradacja, aby zarządzać kosztami serwerów.

Użytkownicy płacili za Claude Pro i otrzymywali coś, co czuło się jak Claude Lite. Deweloperzy, którzy zbudowali swoje przepływy pracy wokół Claude, nagle widzieli, jak ich produktywność spada. Z drugiej strony, niektórzy użytkownicy nie doświadczali żadnych problemów, co wszystko jeszcze bardziej komplikowało.

Anthropic Wreszcie Przyznaje: Tak, Mieliśmy Problemy

Po tygodniach skarg użytkowników i rosnącej frustracji, Anthropic opublikował ogromny techniczny post-mortem, który podstawie mówi: “Mieliście rację. Claude był uszkodzony. Oto, co się stało.”

I odpowiedź jest interesująca.

Okazuje się, że nie było to jeden problem. Były to trzy całkowicie oddzielne błędy infrastruktury, wszystkie występujące w tym samym czasie, tworząc idealną burzę degradacji AI. Nie ograniczali. Nie cięli kosztów. Po prostu mieli trzy różne rzeczy, które złamały się jednocześnie w sposób, który zajęło im sześć tygodni, aby w pełni zrozumieć i naprawić.

Pozwól, że wyjaśnię dokładnie, co poszło nie tak, bo to jest naprawdę pomocne spojrzenie na to, jak te systemy AI mogą awariować w sposób, który nikt nie przewiduje.

Trój-Bugowy Kollaps: Kronika Chaosu

Źródło: Anthropic

Błąd #1: Problem Z Źle Skonfigurowanym Serwerem

To jest prawie zabawne, gdyby nie to, że nie byłeś tym, kto doświadczył tego. Claude Sonnet 4 został zaprojektowany do obsługi 200 000 kontekstów tokenów. Ale od 5 sierpnia niektóre żądania były kierowane do serwerów skonfigurowanych dla 1 miliona kontekstów tokenów.

Początkowo tylko 0,8% żądań było dotkniętych. Nie jest to wielka sprawa, prawda? Żle.

29 sierpnia rutynowa aktualizacja balansera obciążenia zamieniła ten niewielki problem w duży problem. Nagle, w szczytowych godzinach, 16% żądań Sonnet 4 było kierowanych do niewłaściwych serwerów. A routing był “lepkim”. Raz gdy zostałeś źle skierowany, pozostałeś źle skierowany.

Wpływ:

  • Około 30% użytkowników Claude Code, którzy byli aktywni w tym czasie, miało co najmniej jedną źle skierowaną prośbę
  • Czasy odpowiedzi spadły dla dotkniętych użytkowników
  • Ten sam użytkownik doświadczył problemu wielokrotnie, podczas gdy inni nie mieli żadnych problemów

Błąd #2: Losowy Generator Znaków

25 sierpnia Anthropic wdrożył nieprawidłową konfigurację na swoich serwerach TPU. Wynikiem było to, że Claude zaczął losowo wstawiać tajskie i chińskie znaki do odpowiedzi w języku angielskim.

Wyobraź sobie, że prosisz Claude’a o debugowanie twojego kodu Python i otrzymujesz to:

def calculate_total(items):

total = 0

for item in items:

總計 += item.price # <- Co?

return ผลรวม

To dotknęło:

  • Opus 4.1 i Opus 4: 25-28 sierpnia
  • Sonnet 4: 25 sierpnia – 2 września

Przyczyna techniczna była błędem generowania tokenów, który przypisał wysokie prawdopodobieństwo znakom, które nie powinny tam być. To dosłownie złamało podstawowy mechanizm, jak Claude wybiera następne słowo do powiedzenia.

Błąd #3: Niewidzialny Błąd Kompilatora

To jest najbardziej przerażające z punktu widzenia inżynierskiego. Był ukryty błąd w kompilatorze XLA Google, który siedział uśpiony. Gdy Anthropic wdrożył kod, aby poprawić wybór tokenów 25 sierpnia, przypadkowo wywołał go.

To, co ten błąd zrobił, było naprawdę dziwne – powodował, że Claude nieumyślnie wykluczał najbardziej prawdopodobny token podczas generowania tekstu. Claude wiedział, jaka była prawidłowa odpowiedź, ale był fizycznie uniemożliwiony jej powiedzenia.

Naprawdę skomplikowana część? W grudniu 2024 roku pracowali wokół tego błędu bez zrozumienia go. Gdy “naprawili” to, co uważali za przyczynę w sierpniu, usunęli rozwiązanie i uwolnili prawdziwy problem.

Dlaczego Zajęło To Sześć Tygodni, By To Naprawić

Możesz się zastanawiać: jak to się stało, że firma jak Anthropic, z wyśmienitymi inżynierami, potrzebowała sześciu tygodni, aby to zrozumieć?

Odpowiedź ujawnia, jak złożone są te systemy:

1. Kontrole Prywatności Blokowały Debugowanie

“Nasze wewnętrzne kontrole prywatności i bezpieczeństwa ograniczają, w jaki sposób i kiedy inżynierowie mogą uzyskać dostęp do interakcji użytkowników z Claude, w szczególności gdy te interakcje nie są zgłaszane do nas jako opinie.”

Dosłownie nie mogli zobaczyć, co się psuło, chyba że użytkownicy wyraźnie zgłosili to wraz z opinią. Dobre dla prywatności, okropne dla debugowania.

2. Błędy Ukrywały Się

Claude często odzyskiwał się z indywidualnych błędów, sprawiając, że degradacja wyglądała jak normalna zmienność, a nie systematyczna awaria. Ich benchmarki i oceny nie wykrywały tego, ponieważ model samodzielnie poprawiał się wystarczająco, aby przejść testy.

3. Chaos Wieloplatformowy

Claude działa na AWS Trainium, NVIDIA GPU i Google TPUs – trzy całkowicie różne platformy sprzętowe. Każdy błąd manifestował się inaczej na każdej platformie:

  • AWS Bedrock: 0,18% żądań Sonnet 4 dotkniętych w szczytowych godzinach
  • Google Vertex AI: poniżej 0,0004% dotkniętych
  • Bezpośredni API: do 16% dotkniętych

To sprawiło, że wyglądało to jak wiele niepowiązanych problemów, a nie trzy konkretnych błędów.

4. Nachodzące Się Objawy

Z trzema błędami aktywnymi jednocześnie, objawy były wszędzie. Jeden użytkownik mógł dostać tajskie znaki, inny mógł dostać zdegradowane odpowiedzi, a trzeci mógł zobaczyć idealną wydajność. Nie było żadnego jasnego wzorca do naśladowania.

Co To Oznacza Naprawdę Dla Niezawodności AI

Cała ta saga ujawnia coś kluczowego o obecnym stanie systemów AI: są o wiele bardziej kruche, niż się wydają.

Nie mówimy tylko o samym modelu AI. Mówimy o:

  • Infrastrukturze routingu, która może kierować żądania do niewłaściwego miejsca
  • Wdrożeniach sprzętowych, które zachowują się inaczej
  • Błędach kompilatora, które mogą leżeć uśpione przez miesiące
  • Balanserach obciążenia, które mogą powiększać drobne problemy w duże awarie

Jeden błąd konfiguracji, jeden błąd kompilatora, jeden błąd routingu – i nagle twój asystent AI zapomina, jak pisać kod lub zaczyna mówić językami, których nie powinien.

Czy To Naprawdę Jest Naprawione?

Anthropic mówi, że rozwiązał wszystkie trzy problemy do 16 września. Zrobili:

  • Naprawili logikę routingu
  • Cofnęli problematyczne konfiguracje
  • Przeszli z przybliżonych do dokładnych operacji top-k (pobierając uderzenie w wydajność dla dokładności)
  • Dodali ciągłe monitorowanie produkcji

Ale użytkownicy wciąż zgłaszają problemy. Niektórzy deweloperzy twierdzą, że Claude Code wciąż czuje się zdegradowany w porównaniu z jego wcześniejszą wydajnością. Czy to:

  • Utajone skutki błędów
  • Nowe problemy, które nie zostały jeszcze zidentyfikowane
  • Psychologiczna predyspozycja po tygodniach problemów
  • Rzeczywista kontynuacja degradacji

…nie wiemy jeszcze.

Podsumowanie

Ta sytuacja jest idealnym studium przypadku, jak złożone systemy AI mogą awariować w sposób, który nikt nie przewiduje. Trzy oddzielne błędy, wszystkie wywołane w ciągu kilku tygodni, stworzyły percepcję ogromnej degradacji jakości, która zajęła sześć tygodni, aby ją zdiagnozować i naprawić.

Możemy przyznać Anthropicowi zaufanie za przejrzystość. Publikowanie szczegółowego technicznego post-mortem jest więcej, niż zrobiłaby większość firm. Ale pokazuje to również, jak wiele może się nie udać pod maską tych systemów, na które coraz bardziej polegamy.

Dla każdego, kto buduje na podstawie Claude lub dowolnego LLM: potrzebujesz redundancji, walidacji i planów awaryjnych. Ponieważ, jak właśnie widzieliśmy, nawet najlepsze systemy AI mogą mieć trzy różne problemy jednocześnie, i może to potrwać tygodnie, zanim ktokolwiek zrozumie, co się naprawdę dzieje.

Infrastruktura wspierająca te modele AI jest równie ważna jak same modele. I teraz ta infrastruktura pokazuje pewne poważne bóle wzrostu.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.