Connect with us

Líderes de pensamento

O Debate “Nerfing” do Claude Não é Sobre o Claude. É Sobre o que Acontece Quando suas Operações Dependem das Decisões de Outra Pessoa.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

No início deste ano, Stella Laurenzo, Diretora Sênior de IA da AMD, publicou telemetria de quase 7.000 sessões de código Claude documentando algo que os engenheiros estavam sentindo, mas lutando para articular: entre janeiro e março, a profundidade de raciocínio visível pareceu cair 73%, as chamadas de API por tarefa aumentaram oitenta vezes, e o modelo estava lendo muito menos arquivos antes de fazer edições. Os números se espalharam rapidamente. A interpretação se espalhou ainda mais rápido.

A Anthropic discorda do enquadramento. A empresa afirma que as mudanças refletem decisões de produto deliberadas, incluindo um novo mecanismo de pensamento adaptativo e uma mudança para esforço médio como padrão. Analistas independentes também rejeitaram partes da metodologia. O debate está em andamento, e pessoas razoáveis discordam sobre o que realmente aconteceu.

Mas aqui está a parte que importa se você está executando um negócio em cima desses sistemas: se isso foi degradação ou ajuste deliberado, não muda o que os operadores de empresas experimentaram. Eles não puderam prever. Eles não puderam controlar. E alguns deles sentiram em produção antes de entender o que estava acontecendo. Essa é a história real, e não tem nada a ver com a Anthropic especificamente.

Isso é um problema de dependência, não um problema de modelo.

O que estamos descrevendo tem um nome: fragilidade do modelo. É a condição em que operações críticas de missão estão fortemente acopladas ao comportamento de um único modelo, de modo que qualquer mudança na camada do modelo, seja uma decisão de ajuste, um novo padrão, uma mudança de roteamento impulsionada pela capacidade ou uma descontinuação silenciosa, atinge o negócio diretamente, sem buffer e sem aviso.

Isso não é um padrão novo. O GPT-4 passou por uma versão disso em 2023. O Claude 3.5 passou por uma em 2024. O Claude Opus está passando por uma agora. Isso acontecerá novamente com o próximo modelo de fronteira, e o próximo. Não porque algum fornecedor esteja agindo de má-fé, mas porque otimizar um modelo de fronteira para custo, latência e escala em volume global é exatamente o que os fornecedores de fronteira têm que fazer. Seus incentivos e os incentivos de uma empresa que executa operações de produção em cima deles são relacionados. Eles não são idênticos. Eles nunca serão.

Nós começamos o Qurrent em 2023 e temos o conhecimento histórico para saber como os ciclos de software de empresa se desenrolam: uma empresa investe em IA. O demonstrativo funciona. O piloto funciona. Então ele vai ao vivo, algo muda na camada do modelo, e de repente o cliente é dono do problema. Eles são os que mantêm os fluxos de trabalho, perseguem as regressões, absorvem a interrupção. Isso nunca fez sentido para mim como um modelo sustentável para operações de empresa.

A versão da empresa dessa história é operacional, não técnica.

Para os desenvolvedores, a situação atual é inconveniente. Os orçamentos de tokens queimam mais rápido. As sessões de codificação travam. Os benchmarks desapontam. Esse é um problema real, mas é um problema recuperável.

Para as empresas que executam operações financeiras, fluxos de trabalho de conformidade, contas a receber e a pagar, e processos de back-office complexos, as apostas são diferentes. Esses fluxos de trabalho não podem absorver uma semana ruim. Erros se acumulam. Volume se acumula. Os SLAs são compromissos com clientes reais, não preferências internas. No momento em que um modelo começa a ter um desempenho ruim em um processo de alto risco, o dano está se acumulando, independentemente de alguém ter notado ou não.

O que torna isso mais difícil é que a maioria das empresas que tentaram se adiantar à IA construindo agentes internos em um único modelo agora está descobrindo como essa base foi incompleta. O primeiro agente foi a parte fácil. O que não foi construído foi a infraestrutura circundante: quadros de avaliação que detectam a deriva comportamental antes que ela atinja um cliente, lógica de failover que redireciona o trabalho automaticamente quando um modelo começa a ter um desempenho ruim, e governança contínua capaz de manter o ritmo com um cenário que muda a cada trimestre. Essas três lacunas não permanecem gerenciáveis. Elas crescem em uma função de engenharia permanente que ninguém orçou, composta por pessoas cujo trabalho é basicamente manter o ritmo com decisões sendo tomadas por fornecedores sobre os quais elas não têm influência.

O que a resiliência realmente parece em produção.

No Qurrent, construímos a força de trabalho digital para ser agnóstica de modelo desde o início, não como uma posição de marketing, mas como um requisito arquitetônico. Cada tarefa é roteada para o modelo de melhor desempenho para aquela tarefa, avaliado continuamente. Quando um modelo melhor é enviado, os clientes o recebem automaticamente. Quando um modelo atual regride em um fluxo de trabalho específico, a camada de orquestração redireciona esse trabalho em segundos, sem intervenção humana e sem que ninguém acorde para uma thread no Slack às 2h da manhã.

Abaixo disso, simulações automatizadas são executadas contra fluxos de trabalho de produção 24 horas por dia, medindo se as saídas correspondem ao comportamento esperado. A deriva é detectada na camada de infraestrutura, antes que a equipe de operações a sinta e muito antes que um cliente a sinta. E cada decisão tomada por cada trabalhador digital é registrada e revisável, uma caixa de vidro completa, porque você não pode governar o que não pode ver.

Esses não são recursos premium. São o preço da admissão para executar IA em produção em escala de empresa. A maioria das empresas está aprendendo isso no meio de um ciclo de notícias, o que é a maneira cara de descobrir.

A pergunta vale a pena fazer este trimestre.

Se o modelo em que suas operações dependem mais tivesse uma semana ruim no próximo trimestre, quantos de seus fluxos de trabalho sentiriam? Como você saberia? E como rapidamente você poderia rotear em torno disso?

Se a resposta para a segunda pergunta for “nós ouviríamos de um cliente”, a operação não está pronta para produção. É um piloto executado em escala, e a distinção importa mais do que a maioria dos líderes percebe até que não percebe.

O debate atual é, de uma forma indireta, útil. Cada CFO e COO que assiste a isso se desenrolar acaba de ter uma prévia gratuita do que a fragilidade do modelo parece sob carga operacional real, sem pagar por isso eles mesmos. A resposta certa não é mudar de modelo. É construir operações que não dependam de nenhum modelo único.

A tecnologia continuará mudando. Essa é a única certeza neste mercado. As empresas que sairão desta década mais fortes não serão as que escolheram o modelo certo. Serão as que cujas operações nunca tiveram que se importar.

Colin Wiel, CEO e Co-Fundador da Qurrent, é um empreendedor experiente que trabalha profundamente com AI desde a década de 1990. As ventures anteriores de Colin incluem Mynd, uma plataforma de tecnologia habilitada para investimentos em aluguel de família única nomeada a empresa de crescimento mais rápido da Área da Baía em 2020, e Waypoint Homes, que arrecadou mais de $3,5 bilhões e gerenciou 17.000 casas antes de ser negociada publicamente na NYSE em 2014. Reconhecido por suas inovações em AI, Colin detém várias patentes, conquistou um lugar na lista dos 100 Empreendedores Mais Inovadores da Goldman Sachs e foi nomeado Empreendedor do Ano da Ernst & Young.