Connect with us

Não, Eles Não Estavam Limitando Claude – Na Verdade, Era Pior

Inteligência artificial

Não, Eles Não Estavam Limitando Claude – Na Verdade, Era Pior

mm

Tudo bem, vamos falar sobre o que tem acontecido com Claude, porque se você estiver usando desde o mês passado, provavelmente notou que algo estava errado.

Durante as seis semanas passadas, os usuários de Claude estavam perdendo a cabeça. A partir de início de agosto, reclamações começaram a inundar o Reddit, X e fóruns de desenvolvedores. Os problemas estavam por toda parte:

  • Código que costumava funcionar perfeitamente estava de repente quebrado
  • Claude afirmava que fez alterações em arquivos quando não fez
  • Caracteres tailandês ou chinês aleatórios aparecendo em respostas em inglês
  • Instruções sendo completamente ignoradas
  • O mesmo prompt dando respostas de qualidade muito diferentes
  • Usuários de Claude Code dizendo que parecia “lobotomizado” em comparação com antes

As reclamações ficaram tão ruins que, no final de agosto, as pessoas estavam convencidas de que a Anthropic estava secretamente limitando Claude para economizar dinheiro. Teorias da conspiração estavam por toda parte – talvez estivessem reduzindo a qualidade durante os horários de pico, talvez tivessem trocado silenciosamente por um modelo mais barato, talvez isso fosse uma degradação intencional para gerenciar os custos do servidor.

Os usuários estavam pagando por Claude Pro e obtinham o que parecia ser Claude Lite. Desenvolvedores que haviam construído fluxos de trabalho em torno de Claude estavam assistindo à sua produtividade afundar. Com isso dito, alguns usuários não estavam experimentando nenhum problema, o que tornava tudo mais confuso.

Anthropic Finalmente Admite: Sim, Tivemos Problemas

Depois de semanas de reclamações de usuários e frustração crescente, a Anthropic acaba de lançar um enorme post-mortem técnico que basicamente diz: “Vocês estavam certos. Claude estava quebrado. Aqui está o que aconteceu.”

E a resposta é interessante.

Resulta que não foi um problema. Foram três bugs de infraestrutura completamente separados, todos atingindo ao mesmo tempo, criando uma tempestade perfeita de degradação de IA. Eles não estavam limitando. Eles não estavam cortando cantos. Eles simplesmente tiveram três coisas quebradas simultaneamente de maneiras que levaram seis semanas para entender e consertar.

Vou explicar exatamente o que deu errado, porque isso é realmente um olhar útil sobre como esses sistemas de IA podem falhar de maneiras que ninguém antecipa.

A Quebra de Triplo-Bug: Uma Linha do Tempo do Caos

Fonte: Anthropic

Bug #1: O Problema do Servidor Errado

Isso é quase engraçado se você não estivesse experimentando. Claude Sonnet 4 foi projetado para lidar com 200.000 contextos de token. Mas a partir de 5 de agosto, algumas solicitações estavam sendo encaminhadas para servidores configurados para 1 milhão de contextos de token.

Inicialmente, apenas 0,8% das solicitações foram afetadas. Não é grande coisa, certo? Errado.

Em 29 de agosto, uma atualização de rotador de carga de routine transformou esse problema menor em um grande problema. De repente, no pico, 16% das solicitações de Sonnet 4 estavam indo para os servidores errados. E o roteamento era “sticky”. Uma vez que você foi mal roteado, você continuou sendo mal roteado.

O impacto:

  • Cerca de 30% dos usuários de Claude Code que estavam ativos durante a janela tiveram pelo menos uma solicitação mal roteada
  • Os tempos de resposta afundaram para os usuários afetados
  • O mesmo usuário experimentaria o problema repetidamente enquanto outros não tinham problemas

Bug #2: O Gerador de Caracteres Aleatórios

Em 25 de agosto, a Anthropic implantou uma configuração errada em seus servidores TPU. O resultado foi que Claude começou a inserir aleatoriamente caracteres tailandês e chinês em respostas em inglês.

Imagine pedir a Claude para depurar seu código Python e obter isso:

def calculate_total(items):

    total = 0

    for item in items:

        總計 += item.price  # <- O que?

    return ผลรวม

Isso afetou:

  • Opus 4.1 e Opus 4: 25-28 de agosto
  • Sonnet 4: 25 de agosto – 2 de setembro

A causa técnica foi um erro de geração de token que atribuiu alta probabilidade a caracteres que não tinham negócios ali. Ele literalmente quebrou o mecanismo fundamental de como Claude seleciona a próxima palavra para dizer.

Bug #3: O Bug do Compilador Invisível

Este é o assustador do ponto de vista de engenharia. Havia um bug latente no compilador XLA do Google que estava dormindo. Quando a Anthropic implantou código para melhorar a seleção de token em 25 de agosto, eles acidentalmente acionaram.

O que esse bug fez foi genuinamente bizarro – ele faria Claude excluir involuntariamente o token mais provável ao gerar texto. Claude sabia a resposta certa, mas foi fisicamente impedido de dizê-la.

A parte realmente confusa? Eles haviam trabalhado em torno desse bug em dezembro de 2024 sem perceber. Quando eles “consertaram” o que pensavam ser a causa raiz em agosto, eles removeram o trabalho e desencadearam o problema real.

Por Que Levou Seis Semanas para Consertar

Você pode estar se perguntando: como uma empresa como a Anthropic, com engenheiros de classe mundial, leva seis semanas para descobrir isso?

A resposta revela apenas o quão complexos esses sistemas realmente são:

1. Controles de Privacidade Bloquearam a Depuração

“Nossos controles internos de privacidade e segurança limitam como e quando os engenheiros podem acessar interações do usuário com Claude, em particular quando essas interações não são relatadas a nós como feedback.”

Eles literalmente não podiam ver o que estava quebrando a menos que os usuários relatassem explicitamente com feedback. Bom para a privacidade, terrível para a depuração.

2. Os Bugs Se Esconderam

Claude muitas vezes se recuperava de erros individuais, fazendo a degradação parecer variação normal em vez de falha sistemática. Seus benchmarks e avaliações não estavam pegando porque o modelo se autocorrigia o suficiente para passar nos testes.

3. Caos Multiplataforma

Claude roda em AWS Trainium, NVIDIA GPUs e Google TPUs – três plataformas de hardware completamente diferentes. Cada bug se manifestou de forma diferente em cada plataforma:

  • AWS Bedrock: 0,18% das solicitações de Sonnet 4 afetadas no pico
  • Google Vertex AI: Abaixo de 0,0004% afetados
  • API direta: Até 16% afetados

Isso fez parecer que eram problemas não relacionados em vez de três bugs específicos.

4. Sintomas Sobrepostos

Com três bugs ativos simultaneamente, os sintomas estavam por toda parte. Um usuário pode ter obtido caracteres tailandês, outro pode ter obtido respostas degradadas, um terceiro pode ter visto um desempenho perfeito. Não havia um padrão claro para seguir.

O Que Isso Realmente Significa para a Confiabilidade da IA

Essa saga toda revela algo crucial sobre o estado atual dos sistemas de IA: eles são muito mais frágeis do que parecem.

Não estamos falando apenas do modelo de IA em si. Estamos falando sobre:

  • Infraestrutura de roteamento que pode enviar solicitações para o lugar errado
  • Implementações específicas de hardware que se comportam de forma diferente
  • Bugs de compilador que podem permanecer dormentes por meses
  • Balanceadores de carga que podem amplificar problemas menores em falhas maiores

Um erro de configuração, um bug de compilador, um erro de roteamento – e de repente seu assistente de IA esquece como codificar ou começa a falar línguas que não deve.

Está Realmente Consertado?

A Anthropic afirma que resolveu os três problemas em 16 de setembro. Eles:

  • Consertaram a lógica de roteamento
  • Reverteram as configurações problemáticas
  • Mudaram de operações top-k aproximadas para exatas (aceitando um impacto no desempenho para a precisão)
  • Adicionaram monitoramento contínuo de produção

Mas os usuários ainda estão relatando problemas. Alguns desenvolvedores afirmam que Claude Code ainda se sente degradado em comparação com seu desempenho anterior. Se isso é:

  • Efeitos residuais dos bugs
  • Novos problemas que ainda não foram identificados
  • Viés psicológico após semanas de problemas
  • Ou degradação real contínua

…não sabemos ainda.

A Linha de Fundo

Essa situação é um caso de estudo perfeito sobre como os sistemas de IA complexos podem falhar de maneiras completamente inesperadas. Três bugs separados, todos acionados dentro de semanas um do outro, criaram uma percepção de degradação de qualidade maciça que levou seis semanas para diagnosticar e consertar.

Podemos dar crédito à Anthropic pela transparência. Publicar um post-mortem técnico detalhado é mais do que a maioria das empresas faria. Mas também mostra apenas o quão errado as coisas podem dar sob o capô desses sistemas em que estamos cada vez mais confiando.

Para qualquer pessoa que esteja construindo em cima de Claude ou qualquer LLM: você precisa de redundância, validação e planos de backup. Porque, como acabamos de ver, mesmo os melhores sistemas de IA podem ter três problemas diferentes simultaneamente, e pode levar semanas antes que alguém descubra o que está realmente acontecendo.

A infraestrutura que suporta esses modelos de IA é tão importante quanto os modelos em si. E agora, essa infraestrutura está mostrando alguns problemas de crescimento sérios.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.