Лидеры мнений
Дебаты о “Нерфинге” Клода Не о Клоде. Это о Того, Что Происходит, Когда Ваши Операции Работают на Решениях Других Людей.

Ранее в этом году Стелла Лоренцо, Старший Директор по ИИ в AMD, опубликовала телеметрию почти 7 000 сессий кода Клода, документирующую то, что инженеры чувствовали, но не могли сформулировать: между январем и мартом видимая глубина рассуждений, казалось, снизилась на 73%, вызовы API на задачу увеличилось в 80 раз, и модель читала гораздо меньше файлов, прежде чем вносить правки. Цифры быстро распространились. Интерпретация распространилась еще быстрее.
Anthropic оспаривает формулировку. Компания утверждает, что изменения отражают преднамеренные решения по продукту, включая новый адаптивный механизм мышления и переход на среднюю нагрузку в качестве значения по умолчанию. Независимые аналитики также оспорили части методологии. Дебаты продолжаются, и разумные люди не согласны с тем, что на самом деле произошло.
Но вот часть, которая имеет значение, если вы управляете бизнесом на основе этих систем: независимо от того, было ли это ухудшением или преднамеренной настройкой, это не меняет того, что операторы предприятия испытали. Они не могли предсказать это. Они не могли контролировать это. И некоторые из них почувствовали это в производстве, прежде чем поняли, что происходит. Это и есть настоящая история, и она не имеет отношения к Anthropic в частности.
Это проблема зависимости, а не проблема модели.
То, что мы описываем, имеет название: хрупкость модели. Это состояние, при котором критически важные операции тесно связаны с поведением единственной модели, так что любое изменение на уровне модели, будь то решение о настройке, новое значение по умолчанию, сдвиг маршрутизации, обусловленный емкостью, или тихое устаревание, напрямую влияет на бизнес, без буфера и без предупреждения.
Это не новый шаблон. GPT-4 прошла через подобное в 2023 году. Claude 3.5 прошла через это в 2024 году. Claude Opus проходит через это сейчас. Это произойдет снова с следующей моделью на переднем крае, и с той, что после нее. Не потому, что какой-либо поставщик действует в плохой вере, а потому, что оптимизация модели на переднем крае для стоимости, задержки и масштаба на глобальном объеме является именно тем, что поставщики на переднем крае должны делать. Их стимулы и стимулы предприятия, работающего в производстве на основе них, связаны. Они не идентичны. Они никогда не будут.
Мы начали Qurrent в 2023 году и имеем исторические знания, чтобы знать, как играют циклы программного обеспечения для предприятия: компания инвестирует в ИИ. Демо работает. Пилот работает. Затем он запускается, что-то сдвигается на уровне модели, и внезапно клиент владеет проблемой. Они являются теми, кто поддерживает рабочие процессы, преследует регрессии, поглощает срыв. Это никогда не имело смысла для меня как устойчивая модель для операций предприятия.
Версия этой истории для предприятия операционна, а не техническа.
Для разработчиков текущая ситуация неудобна. Бюджеты токенов горят быстрее. Сессии кодирования застревают. Бенчмарки разочаровывают. Это реальная проблема, но это проблема, которую можно восстановить.
Для предприятий, работающих финансовыми операциями, рабочими процессами соблюдения, счетами к получению и оплате, а также сложными процессами бэк-офиса, ставки khácы. Эти рабочие процессы не могут поглотить плохую неделю. Ошибки накапливаются. Объем накапливается. SLA – это обязательства перед реальными клиентами, а не внутренние предпочтения. В момент, когда модель начинает работать хуже на высоко ставшем процессе, ущерб накапливается, независимо от того, заметили ли это кто-то или нет.
То, что делает это сложнее, заключается в том, что большинство компаний, которые пытались опередить ИИ, построив внутренних агентов на единственной модели, теперь обнаруживают, насколько неполной была эта основа. Первый агент был легкой частью. То, что не было построено, – это окружающая инфраструктура: оценочные рамки, которые обнаруживают дрейф поведения до того, как он достигнет клиента, логика отключения, которая автоматически перенаправляет работу, когда модель начинает работать хуже, и постоянное управление, способное идти в ногу с ландшафтом, который меняется каждым кварталом. Эти три пробела не остаются управляемыми. Они растут в постоянную функцию инженерии, которую никто не запланировал, укомплектованную людьми, чья работа по сути заключается в том, чтобы идти в ногу с решениями, принимаемыми поставщиками, на которых они не влияют.
Что такое реальная устойчивость в производстве.
В Qurrent мы построили цифровую рабочую силу, чтобы она была независимой от модели с самого начала, не как маркетинговую позицию, а как архитектурное требование. Каждая задача маршрутизируется к модели, которая лучше всего выполняет эту задачу, оцениваемая непрерывно. Когда появляется лучшая модель, клиенты получают ее автоматически. Когда текущая модель регрессирует на конкретном рабочем процессе, слой оркестровки перенаправляет эту работу за секунды, без вмешательства человека и без того, чтобы кто-то проснулся от слака в 2 часа ночи.
Под этим автоматические симуляции запускаются против производственных рабочих процессов круглосуточно, измеряя, соответствуют ли выходные данные ожидаемому поведению. Дрейф обнаруживается на уровне инфраструктуры, прежде чем команда операций почувствует это, и задолго до того, как клиент это заметит. И каждое решение, принятое каждым цифровым работником, регистрируется и просматривается, полная прозрачная коробка, потому что вы не можете управлять тем, что не видите.
Эти функции не являются премиум-функциями. Они являются ценой входа для запуска ИИ в производстве в масштабе предприятия. Большинство компаний учатся этому посреди новостного цикла, что является дорогим способом узнать.
Вопрос, который стоит задать в этом квартале.
Если модель, от которой зависят ваши операции, имела плохую неделю в следующем квартале, сколько ваших рабочих процессов почувствовало бы это? Как бы вы узнали? И как быстро вы могли бы обойти это?
Если ответ на второй вопрос – “мы услышали бы от клиента”, операция не готова к производству. Это пилот, запущенный в масштабе, и это различие имеет значение больше, чем большинство лидеров осознают, пока это не имеет значения.
Текущие дебаты, в косвенной форме, полезны. Каждый финансовый директор и операционный директор, наблюдающий за этим, только что получил бесплатный просмотр того, как выглядит хрупкость модели под реальной операционной нагрузкой, не заплатив за это самим.
Правильный ответ не состоит в том, чтобы переключиться на другую модель. Это построение операций, которые не зависят от какой-либо единственной модели.
Технологии будут продолжать меняться. Это единственная определенность на этом рынке. Предприятия, которые выйдут из этого десятилетия сильнее, не будут теми, кто выбрал правильную модель. Они будут теми, чьи операции никогда не имели необходимости заботиться.












