Leader di pensiero
Il dibattito su Claude “Nerfing” non riguarda Claude. Riguarda ciò che accade quando le tue operazioni dipendono dalle decisioni di qualcun altro.

All’inizio di quest’anno, Stella Laurenzo, Senior Director di AI presso AMD, ha pubblicato telemetrie di quasi 7.000 sessioni di Claude Code che documentano qualcosa che gli ingegneri avevano percepito ma faticavano ad articolare: tra gennaio e marzo, la profondità di ragionamento visibile sembrava essere scesa del 73%, le chiamate API per attività sono aumentate di ottanta volte e il modello stava leggendo molti meno file prima di apportare modifiche. I numeri si sono diffusi rapidamente. L’interpretazione si è diffusa ancora più velocemente.
Anthropic contesta l’interpretazione. L’azienda afferma che i cambiamenti riflettono decisioni di prodotto deliberate, tra cui un nuovo meccanismo di pensiero adattivo e un passaggio allo sforzo medio come impostazione predefinita. Gli analisti indipendenti hanno anche contestato parti della metodologia. Il dibattito è in corso e le persone ragionevoli non sono d’accordo su ciò che è realmente accaduto.
Ma ecco la parte che conta se si gestisce un’attività su questi sistemi: che si tratti di degrado o di regolazione deliberata non cambia ciò che gli operatori aziendali hanno sperimentato. Non potevano prevederlo. Non potevano controllarlo. E alcuni di loro l’hanno sentito in produzione prima di capire cosa stava accadendo. Questa è la vera storia e non ha nulla a che fare con Anthropic in particolare.
Questo è un problema di dipendenza, non un problema di modello.
Ciò che stiamo descrivendo ha un nome: fragilità del modello. È la condizione in cui le operazioni critiche per la missione sono strettamente legate al comportamento di un singolo modello, in modo che qualsiasi modifica al livello del modello, sia una decisione di regolazione, una nuova impostazione predefinita, uno spostamento della capacità o una deprecazione silenziosa, colpisca direttamente l’attività, senza alcun buffer e senza preavviso.
Questo non è un pattern nuovo. GPT-4 ha attraversato una versione di esso nel 2023. Claude 3.5 ha attraversato una nel 2024. Claude Opus sta attraversando una adesso. Accadrà di nuovo con il prossimo modello di frontiera e con quello successivo. Non perché qualsiasi fornitore agisca in malafede, ma perché ottimizzare un modello di frontiera per costo, latenza e scala a volume globale è esattamente ciò che i fornitori di frontiera devono fare. I loro incentivi e gli incentivi di un’azienda che esegue operazioni di produzione su di essi sono correlati. Non sono identici. Non lo saranno mai.
Abbiamo iniziato Qurrent nel 2023 e abbiamo le conoscenze storiche per sapere come si svolgono i cicli di software aziendale: un’azienda investe in AI. La demo funziona. Il pilot funziona. Poi va live, qualcosa si sposta al livello del modello e improvvisamente il cliente possiede il problema. Sono loro che mantengono i flussi di lavoro, inseguono le regressioni, assorbono la disrupzione. Ciò non ha mai avuto senso per me come modello sostenibile per le operazioni aziendali.
La versione aziendale di questa storia è operativa, non tecnica.
Per gli sviluppatori, la situazione attuale è scomoda. I budget dei token bruciano più velocemente. Le sessioni di codifica si bloccano. I benchmark deludono. Questo è un problema reale, ma è un problema recuperabile.
Per le aziende che eseguono operazioni finanziarie, flussi di lavoro di conformità, conti ricevibili e pagabili e processi back-office complessi, le poste in gioco sono diverse. Questi flussi di lavoro non possono assorbire una settimana difficile. Gli errori si accumulano. Il volume si accumula. Gli SLA sono impegni con clienti reali, non preferenze interne. Nel momento in cui un modello inizia a funzionare male in un processo ad alto rischio, il danno si accumula indipendentemente dal fatto che qualcuno se ne sia accorto o meno.
Ciò che rende le cose più difficili è che la maggior parte delle aziende che hanno cercato di stare un passo avanti con l’AI costruendo agenti interni su un singolo modello sta ora scoprendo quanto fosse incompleta quella base. Il primo agente è stato la parte facile. Ciò che non è stato costruito è l’infrastruttura circostante: framework di valutazione che rilevano la deriva comportamentale prima che raggiunga un cliente, logica di failover che reindirizza il lavoro automaticamente quando un modello inizia a funzionare male e governance continua in grado di stare al passo con un panorama che cambia ogni trimestre. Queste tre lacune non rimangono gestibili. Crescono in una funzione di ingegneria permanente che nessuno ha budgetizzato, gestita da persone il cui lavoro è essenzialmente quello di stare al passo con le decisioni prese da fornitori su cui non hanno influenza.
Cosa significa realmente resilienza in produzione.
In Qurrent, abbiamo costruito la forza lavoro digitale per essere agnostica dal modello fin dall’inizio, non come una posizione di marketing ma come un requisito architettonico. Ogni attività viene instradata al modello con le migliori prestazioni per quell’attività, valutato continuamente. Quando un modello migliore viene spedito, i clienti lo ricevono automaticamente. Quando un modello attuale regredisce in un flusso di lavoro specifico, il livello di orchestrazione reindirizza quel lavoro in pochi secondi, senza intervento umano e senza che qualcuno si svegli per un thread di Slack alle 2 del mattino.
Sotto di esso, simulazioni automatiche vengono eseguite contro flussi di lavoro di produzione 24 ore su 24, misurando se gli output corrispondono al comportamento previsto. La deriva viene rilevata al livello dell’infrastruttura, prima che il team operativo la percepisca e molto prima che un cliente la percepisca. E ogni decisione presa da ogni lavoratore digitale viene registrata e revisionata, una scatola di vetro completa, perché non si può governare ciò che non si può vedere.
Queste non sono funzionalità premium. Sono il prezzo di ammissione per eseguire AI in produzione a scala aziendale. La maggior parte delle aziende sta imparando che nel mezzo di un ciclo di notizie, il che è il modo costoso per scoprirlo.
La domanda da porre questo trimestre.
Se il modello sul quale dipendono le tue operazioni più importanti avesse una settimana difficile il prossimo trimestre, quanti dei tuoi flussi di lavoro lo sentirebbero? Come lo sapresti? E quanto velocemente potresti reindirizzare intorno ad esso?
Se la risposta alla seconda domanda è “saremmo informati da un cliente”, l’operazione non è pronta per la produzione. È un pilot che funziona a scala, e la distinzione conta più di quanto la maggior parte dei leader realizzi fino a quando non lo fa.
Il dibattito attuale è, in un modo indiretto, utile. Ogni CFO e COO che guarda questo dibattito si è appena procurato un’anteprima gratuita di ciò che la fragilità del modello sembra sotto carico operativo reale, senza doverlo pagare di persona. La risposta giusta non è quella di passare a un modello diverso. È quella di costruire operazioni che non dipendano da un singolo modello.
La tecnologia continuerà a cambiare. Questa è l’unica certezza in questo mercato. Le aziende che usciranno da questo decennio più forti non saranno quelle che hanno scelto il modello giusto. Saranno quelle le cui operazioni non hanno mai dovuto preoccuparsi.












