Искусственный интеллект

Нет, Они Не Тормозили Claude – Это Было Хуже

mm

Хорошо, давайте поговорим о том, что происходит с Claude, потому что если вы использовали его в течение последнего месяца, вы, вероятно, заметили, что что-то не так.

В течение шести недель пользователи Claude сходили с ума. Начиная с начала августа, жалобы начали поступать на Reddit, X и форумы разработчиков. Проблемы были повсюду:

  • Код, который ранее работал идеально, внезапно стал неработоспособным
  • Claude утверждал, что он внес изменения в файлы, когда на самом деле не делал этого
  • Случайные тайские или китайские символы появлялись в английских ответах
  • Инструкции полностью игнорировались
  • Одна и та же подсказка давала совершенно разные ответы
  • Пользователи Claude Code говорили, что он чувствовался “лоботомированным” по сравнению с предыдущим

Жалобы стали настолько серьезными, что к концу августа люди были убеждены, что Anthropic тайно тормозит Claude, чтобы сэкономить деньги. Теории заговора были повсюду – может быть, они снижали качество во время пиковых часов, может быть, они тихо заменили его на более дешевую модель, может быть, это было намеренное ухудшение, чтобы управлять затратами на серверы.

Пользователи платили за Claude Pro и получали то, что чувствовалось как Claude Lite. Разработчики, которые построили рабочие процессы вокруг Claude, внезапно смотрели, как их производительность падает. С другой стороны, некоторые пользователи не испытывали никаких проблем, что делало все еще более запутанным.

Anthropic Наконец Признал: Да, У Нас Были Проблемы

После недель жалоб пользователей и растущей фрустрации, Anthropic опубликовал огромный технический пост-мортем, который по сути говорит: “Вы были правы. Claude был сломан. Вот, что произошло.”

И ответ интересен.

Оказалось, что это не была одна проблема. Это были три совершенно отдельных ошибки инфраструктуры, все произошедшие одновременно, создавая идеальный шторм ухудшения ИИ. Они не тормозили. Они не экономили. Они просто имели три разных вещи, сломанных одновременно, что заняло им шесть недель, чтобы полностью понять и исправить.

Давайте разберемся, что именно пошло не так, потому что это на самом деле полезный взгляд на то, как эти системы ИИ могут выйти из строя способами, которые никто не ожидает.

Тройная Ошибка: Хронология Хаоса

Источник: Anthropic

Ошибка #1: Проблема С Неправильным Сервером

Это почти смешно, если бы вы не были тем, кто испытывал это. Claude Sonnet 4 был разработан для обработки 200 000 контекстов токенов. Но начиная с 5 августа, некоторые запросы были направлены на серверы, настроенные для 1 миллиона контекстов токенов.

Первоначально только 0,8% запросов были затронуты. Не большая проблема, верно? Нет.

29 августа обновление балансировщика нагрузки превратило эту незначительную проблему в серьезную. Внезапно, на пике, 16% запросов Sonnet 4 были направлены на неправильные серверы. И маршрутизация была “липкой”. Как только вы были неправильно направлены, вы продолжали быть неправильно направлены.

Воздействие:

  • Около 30% пользователей Claude Code, которые были активны в течение этого периода, имели хотя бы один запрос, направленный неправильно
  • Время ответа упало для затронутых пользователей
  • Один и тот же пользователь испытывал проблему повторно, в то время как другие не испытывали никаких проблем

Ошибка #2: Случайный Генератор Символов

25 августа Anthropic развернул неправильную конфигурацию на своих серверах TPU. Результатом было то, что Claude начал случайно вставлять тайские и китайские символы в английские ответы.

Представьте, что вы просите Claude отладить ваш код на Python и получаете это:

def calculate_total(items)

total = 0

for item in items

總計 += item.price # <- Что?

return ผลรวม

Это затронуло:

  • Opus 4.1 и Opus 4: 25-28 августа
  • Sonnet 4: 25 августа – 2 сентября

Техническая причина заключалась в ошибке генерации токенов, которая присваивала высокую вероятность символам, которые не имели права быть там. Это буквально сломало фундаментальный механизм того, как Claude выбирает следующее слово для ответа.

Ошибка #3: Невидимая Ошибка Компилятора

Это самый страшный момент с точки зрения инженерии. Была латентная ошибка в компиляторе XLA от Google, которая находилась в спящем состоянии. Когда Anthropic развернул код для улучшения выбора токенов 25 августа, они случайно спровоцировали ее.

Эта ошибка делала что-то действительно странное – она вызывала у Claude непреднамеренное исключение самого вероятного токена при генерации текста. Claude знал правильный ответ, но был физически предотвращен от его высказывания.

Самая странная часть? Они фактически обошли эту ошибку в декабре 2024 года, не осознав этого. Когда они “исправили” то, что они считали основной причиной в августе, они удалили обход и выпустили реальную проблему.

Почему Это Заняло Шесть Недель, Чтобы Исправить

Вы можете задаться вопросом: как компания вроде Anthropic, с мировыми инженерами, может потратить шесть недель, чтобы понять это?

Ответ показывает, насколько эти системы на самом деле сложны:

1. Контроли Приватности Блокировали Отладку

“Наши внутренние контроли приватности и безопасности ограничивают, как и когда инженеры могут получить доступ к взаимодействиям пользователей с Claude, в частности, когда эти взаимодействия не сообщаются нам как обратная связь.”

Они буквально не могли увидеть, что ломалось, если пользователи не сообщали об этом явно с помощью обратной связи. Хорошо для приватности, ужасно для отладки.

2. Ошибки Скрывались

Claude часто восстанавливался от отдельных ошибок, делая ухудшение похожим на нормальную вариацию, а не системную неисправность. Их оценки и тесты не обнаруживали этого, потому что модель сама корректировалась достаточно, чтобы пройти тесты.

3. Хаос Мультиплатформы

Claude работает на AWS Trainium, NVIDIA GPU и Google TPUs – три совершенно разных аппаратных платформы. Каждая ошибка проявлялась по-разному на каждой платформе:

  • AWS Bedrock: 0,18% запросов Sonnet 4 были затронуты на пике
  • Google Vertex AI: ниже 0,0004% затронутых
  • Прямой API: до 16% затронутых

Это сделало так, что казалось множеством не связанных между собой проблем.

4. Перекрывающиеся Симптомы

С тремя ошибками, активными одновременно, симптомы были повсюду. Один пользователь мог получить тайские символы, другой мог получить ухудшенные ответы, третий мог видеть идеальную производительность. Не было четкой закономерности, которую можно было бы следовать.

Что Это Значит для Надежности ИИ

Эта целая история показывает что-то важное о текущем состоянии систем ИИ: они намного более хрупкие, чем кажутся.

Мы не говорим только об самой модели ИИ. Мы говорим о:

  • Инфраструктуре маршрутизации, которая может отправить запросы в неправильное место
  • Реализациях, специфичных для аппаратного обеспечения, которые ведут себя по-разному
  • Ошибках компилятора, которые могут лежать в спящем состоянии в течение месяцев
  • Балансировщиках нагрузки, которые могут усилить незначительные проблемы в крупные сбои

Одна неправильная конфигурация, одна ошибка компилятора, одна ошибка маршрутизации – и вдруг ваш помощник ИИ забывает, как кодировать или начинает говорить на языках, которых он не должен.

Исправлено Ли Это?

Anthropic говорит, что они решили все три проблемы к 16 сентября. Они:

  • Исправили логику маршрутизации
  • Отменили проблемные конфигурации
  • Переключились с приближенных на точные операции top-k (принимая удар по производительности ради точности)
  • Добавили непрерывный мониторинг производства

Но пользователи все еще сообщают о проблемах. Некоторые разработчики утверждают, что Claude Code все еще чувствуется ухудшенным по сравнению с его предыдущими показателями. Будет ли это:

  • Остаточные эффекты от ошибок
  • Новые проблемы, которые еще не были выявлены
  • Психологическая предвзятость после недель проблем
  • Или фактическое продолжение ухудшения

…мы еще не знаем.

Итог

Эта ситуация является идеальным случаем изучения того, как сложные системы ИИ могут выйти из строя совершенно неожиданными способами. Три отдельные ошибки, все спровоцированные в течение нескольких недель, создали впечатление значительного ухудшения качества, которое заняло шесть недель, чтобы диагностировать и исправить.

Мы можем дать Anthropic кредит за прозрачность. Публикация подробного технического пост-мортема – это больше, чем многие компании сделали бы. Но это также показывает, сколько может пойти не так под капотом этих систем, на которые мы все больше полагаемся.

Для всех, кто строит на основе Claude или любого другого большого языкового моделирования: вам нужна избыточность, проверка и запасные планы. Потому что, как мы только что увидели, даже лучшие системы ИИ могут иметь три разных проблемы одновременно, и может потребоваться недели, прежде чем кто-то поймет, что на самом деле происходит.

Инфраструктура, поддерживающая эти модели ИИ, столь же важна, как и сами модели. И сейчас эта инфраструктура показывает некоторые серьезные проблемы роста.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.