Intelligenza artificiale
No, Non Stavano Limitando Claude – Era Ancora Peggio

Va bene, parliamo di cosa è successo con Claude, perché se lo hai utilizzato nel corso dell’ultimo mese, probabilmente hai notato che c’era qualcosa che non andava.
Per le ultime sei settimane, gli utenti di Claude hanno perso la testa. A partire da inizio agosto, le lamentele hanno iniziato a sommergere Reddit, X e forum per sviluppatori. I problemi erano ovunque:
- Il codice che funzionava perfettamente si è improvvisamente rotto
- Claude affermava di aver apportato modifiche ai file quando non lo aveva fatto
- Caratteri thailandesi o cinesi casuali apparsi nelle risposte in inglese
- Istruzioni completamente ignorate
- La stessa richiesta che dava risposte di qualità molto diverse
- Gli utenti di Claude Code dicevano che si sentiva “lobotomizzato” rispetto a prima
Le lamentele sono diventate così gravi che alla fine di agosto, le persone erano convinte che Anthropic stesse segretamente limitando Claude per risparmiare denaro. Le teorie del complotto erano ovunque – forse stavano riducendo la qualità durante le ore di punta, forse avevano sostituito silenziosamente un modello più economico, forse questo era un degrado intenzionale per gestire i costi del server.
Gli utenti stavano pagando per Claude Pro e ottenevano quello che sembrava Claude Lite. Gli sviluppatori che avevano costruito flussi di lavoro attorno a Claude stavano improvvisamente guardando la loro produttività crollare. Detto questo, alcuni utenti non stavano sperimentando problemi, il che rendeva tutto più confuso.
Anthropic Ammette Finalmente: Sì, Avevamo Problemi
Dopo settimane di lamentele degli utenti e crescente frustrazione, Anthropic ha appena pubblicato un’enorme analisi tecnica post-mortem che sostanzialmente dice: “Avevate ragione. Claude era rotto. Ecco cosa è successo.”
E la risposta è interessante.
Risulta che non si trattava di un problema. Erano tre bug di infrastruttura completamente separati, tutti verificatisi allo stesso tempo, creando una tempesta perfetta di degrado dell’AI. Non stavano limitando. Non stavano tagliando angoli. Avevano semplicemente tre cose diverse rotte simultaneamente in modi che hanno impiegato sei settimane per capire e risolvere.
Fatemi spiegare esattamente cosa è andato storto, perché questo è in realtà uno sguardo utile su come questi sistemi di intelligenza artificiale possono fallire in modi che nessuno si aspetta.
Il Collasso Del Triplo Bug: Una Cronologia Del Caos

Source: Anthropic
Bug #1: Il Problema Del Server Sbagliato
Questo è quasi divertente se non eri tu a sperimentarlo. Claude Sonnet 4 era progettato per gestire 200.000 contesti di token. Ma a partire dal 5 agosto, alcune richieste sono state instradate su server configurati per 1 milione di contesti di token.
Inizialmente, solo lo 0,8% delle richieste era interessato. Nessun grande problema, giusto? Sbagliato.
Il 29 agosto, un aggiornamento del load balancer di routine ha trasformato questo problema minore in un grande problema. Improvvisamente, al picco, il 16% delle richieste di Sonnet 4 venivano instradate sui server sbagliati. E l’instradamento era “appiccicoso”. Una volta che ti sei instradato male, continuavi a essere instradato male.
L’impatto:
- Circa il 30% degli utenti di Claude Code che erano attivi durante la finestra ha avuto almeno una richiesta instradata male
- I tempi di risposta sono crollati per gli utenti interessati
- Lo stesso utente ha sperimentato il problema ripetutamente mentre altri non avevano problemi
Bug #2: Il Generatore Di Caratteri Casuali
Il 25 agosto, Anthropic ha distribuito una configurazione errata sui server TPU. Il risultato è stato che Claude ha iniziato a inserire casualmente caratteri thailandesi e cinesi nelle risposte in inglese.
Immagina di chiedere a Claude di debuggare il tuo codice Python e ottenere questo:
def calculate_total(items):
total = 0
for item in items:
總計 += item.price # <- Cosa?
return ผลรวม
Questo ha interessato:
- Opus 4.1 e Opus 4: 25-28 agosto
- Sonnet 4: 25 agosto – 2 settembre
La causa tecnica è stata un errore di generazione di token che ha assegnato una probabilità alta a caratteri che non avevano alcun diritto di esserci. Ha letteralmente rotto il meccanismo fondamentale di come Claude seleziona la prossima parola da dire.
Bug #3: Il Bug Del Compilatore Invisibile
Questo è il più spaventoso dal punto di vista ingegneristico. C’era un bug latente nel compilatore XLA di Google che era rimasto dormiente. Quando Anthropic ha distribuito del codice per migliorare la selezione dei token il 25 agosto, ha accidentalmente attivato il bug.
Cosa ha fatto questo bug è stato veramente bizzarro – ha causato a Claude di escludere involontariamente il token più probabile quando generava del testo. Claude sapeva la risposta giusta ma era fisicamente impedito dal dirlo.
La parte veramente disturbante? Avevano già lavorato attorno a questo bug a dicembre 2024 senza rendersene conto. Quando hanno “risolto” ciò che pensavano fosse la causa radice ad agosto, hanno rimosso il workaround e hanno scatenato il vero problema.
Perché Ci È Voluto Sei Settimane Per Risolvere
Potresti chiederti: come fa una società come Anthropic, con ingegneri di classe mondiale, a impiegare sei settimane per capire cosa stava succedendo?
La risposta rivela quanto siano complessi questi sistemi:
1. I Controlli Di Privacy Hanno Bloccato Il Debugging
“I nostri controlli interni di privacy e sicurezza limitano come e quando gli ingegneri possono accedere alle interazioni degli utenti con Claude, in particolare quando queste interazioni non vengono segnalate come feedback.”
Letteralmente non potevano vedere cosa si stava rompendo a meno che gli utenti non lo segnalassero esplicitamente con un feedback. Buono per la privacy, terribile per il debugging.
2. I Bug Si Sono Nascosti
Claude spesso si riprendeva da errori individuali, facendo sembrare il degrado come una varianza normale piuttosto che un fallimento sistematico. Le loro valutazioni e benchmark non lo stavano catturando perché il modello si autocorreggeva abbastanza per superare i test.
3. Caos Multi-Piattaforma
Claude funziona su AWS Trainium, NVIDIA GPU e Google TPU – tre piattaforme hardware completamente diverse. Ogni bug si è manifestato in modo diverso su ogni piattaforma:
- AWS Bedrock: lo 0,18% delle richieste di Sonnet 4 interessate al picco
- Google Vertex AI: inferiore allo 0,0004% interessato
- API diretta: fino al 16% interessato
Questo ha fatto sembrare problemi non correlati piuttosto che tre bug specifici.
4. Sintomi Sovrapposti
Con tre bug attivi simultaneamente, i sintomi erano ovunque. Un utente poteva ottenere caratteri thailandesi, un altro poteva ottenere risposte degradate, un terzo poteva vedere prestazioni perfette. Non c’era un modello chiaro da seguire.
Cosa Questo Significa Davvero Per L’Affidabilità Dell’AI
Questa intera saga rivela qualcosa di cruciale sullo stato attuale dei sistemi di intelligenza artificiale: sono molto più fragili di quanto appaiano.
Non stiamo parlando solo del modello di intelligenza artificiale stesso. Stiamo parlando di:
- Infrastrutture di routing che possono inviare richieste nel posto sbagliato
- Implementazioni specifiche dell’hardware che si comportano in modo diverso
- Bug del compilatore che possono rimanere dormienti per mesi
- Load balancer che possono amplificare problemi minori in interruzioni maggiori
Un errore di configurazione, un bug del compilatore, un errore di routing – e improvvisamente il tuo assistente di intelligenza artificiale dimentica come codificare o inizia a parlare lingue che non dovrebbe.
È Davvero Risolto?
Anthropic afferma di aver risolto tutti e tre i problemi a partire dal 16 settembre. Hanno:
- Risolti la logica di routing
- Ripristinato le configurazioni problematiche
- Sostituito le operazioni di top-k approssimative con quelle esatte (subendo un colpo alla prestazione per l’accuratezza)
- Aggiunto il monitoraggio continuo della produzione
Ma gli utenti stanno ancora segnalando problemi. Alcuni sviluppatori affermano che Claude Code si sente ancora degradato rispetto alle sue prestazioni precedenti. Se questo è:
- Effetti residui dei bug
- Nuovi problemi che non sono stati identificati
- Pregiudizio psicologico dopo settimane di problemi
- O degrado effettivo continuo
…non lo sappiamo ancora.
Il Punto Chiave
Questa situazione è un caso di studio perfetto su come i sistemi di intelligenza artificiale complessi possano fallire in modi completamente inaspettati. Tre bug separati, tutti scattati entro settimane l’uno dall’altro, hanno creato una percezione di degrado di qualità massiccio che ha richiesto sei settimane per diagnosticare e risolvere.
Possiamo dare credito ad Anthropic per la trasparenza. Pubblicare un’analisi tecnica post-mortem dettagliata è più di quanto la maggior parte delle società farebbe. Ma mostra anche quanto possa andare storto sotto il cofano di questi sistemi su cui stiamo facendo sempre più affidamento.
Per chiunque stia costruendo su Claude o qualsiasi altro modello di linguaggio: avete bisogno di ridondanza, convalida e piani di backup. Perché, come abbiamo appena visto, anche i migliori sistemi di intelligenza artificiale possono avere tre problemi diversi simultaneamente, e potrebbe volerci settimane prima che qualcuno capisca cosa sta realmente succedendo.
L’infrastruttura che supporta questi modelli di intelligenza artificiale è altrettanto importante dei modelli stessi. E al momento, quell’infrastruttura sta mostrando alcuni dolori di crescita seri.












