Tankeledere
Den Claude “Nerfing”-debatten handler ikke om Claude. Det handler om hva som skjer når dine operasjoner kjører på noen andres beslutninger.

Tidligere i år publiserte Stella Laurenzo, senior direktør for AI i AMD, telemetri fra nesten 7 000 Claude Code-økter som dokumenterte noe ingeniører hadde følt, men slitt med å formulere: mellom januar og mars, synlig resonnering dybde syntes å synke med 73 %, API-forespørsler per oppgave økte med en faktor på 80, og modellen leste færre filer før den gjorde endringer. Tallene spredte seg raskt. Tolkingen spredde seg enda raskere.
Anthropic er uenig i rammen. Selskapet sier at endringene reflekterer bevisste produktsbeslutninger, inkludert en ny adaptiv tenkemekanisme og en overgang til medium innsats som standard. Uavhengige analytikere har også motsagt deler av metoden. Debatten pågår, og fornuftige mennesker er uenige om hva som faktisk skjedde.
Men her er det som betyr noe hvis du kjører et foretak på toppen av disse systemene: uansett om dette var forverring eller bevisst finjustering, endrer det ikke hva bedriftsoperatørene opplevde. De kunne ikke forutsi det. De kunne ikke kontrollere det. Og noen av dem følte det i produksjon før de forstod hva som skjedde. Det er den virkelige historien, og den har ingenting å gjøre med Anthropic spesifikt.
Dette er et avhengighetsproblem, ikke et modellproblem.
Hva vi beskriver, har et navn: modell skjørhet. Det er tilstanden der kritiske operasjoner er tett koblet til atferden til en enkelt modell, så at enhver endring på modellnivå, enten det er en finjusteringsbeslutning, en ny standard, en kapasitetsdrevet omroutingsendring eller en stille degradasjon, rammer bedriften direkte, uten buffert og uten varsel.
Dette er ikke et nytt mønster. GPT-4 gikk gjennom en versjon av det i 2023. Claude 3.5 gikk gjennom en i 2024. Claude Opus går gjennom en nå. Det vil skje igjen med den neste frontmodellen, og den etter det. Ikke fordi noen leverandør handler i dårlig tro, men fordi optimalisering av en frontmodell for kost, latency og skala på global volum er nettopp hva frontleverandører må gjøre. Deres incitamenter og incitamentene til et foretak som kjører produksjonsoperasjoner på toppen av dem, er relatert. De er ikke identiske. De vil aldri være det.
Vi startet Qurrent i 2023 og har den historiske kunnskapen til å vite hvordan bedriftsprogramvare-sykluser spiller ut: Et selskap investerer i AI. Demoen fungerer. Piloten fungerer. Så går det live, noe skifter på modellnivå, og plutselig eier kunden problemet. De er de som vedlikeholder arbeidsflyter, jakter på feil, absorberer forstyrrelser. Det har aldri gjort mening for meg som en bærekraftig modell for bedriftsoperasjoner.
Den bedriftsversjonen av denne historien er operasjonell, ikke teknisk.
For utviklere er den nåværende situasjonen ubekvem. Token-budsjettet brenner raskere. Kodingsøkter stanser. Benchmarkene skuffer. Det er et reelt problem, men det er et gjennomførbart ett.
For bedrifter som kjører finansielle operasjoner, compliance-arbeidsflyter, kontoer mottatt og betalt, og komplekse bakkontorprosesser, er innsatsen annerledes. Disse arbeidsflytene kan ikke absorbere en dårlig uke. Feil akkumulerer. Volum akkumulerer. SLA-er er forpliktelser til faktiske kunder, ikke interne preferanser. Øyeblikket en modell begynner å underprestere på en høy-innsatsprosess, akkumulerer skaden seg, uansett om noen har lagt merke til det eller ikke.
Hva gjør dette vanskeligere er at de fleste selskaper som prøvde å komme i forkant av AI ved å bygge interne agenter på en enkelt modell, nå oppdager hvor ufullstendig denne grunnmuren var. Den første agenten var den enkle delen. Hva som ikke ble bygget, var den omgivende infrastrukturen: evalueringssystemer som detekterer atferdsdrift før det når en kunde, feiloverlogikk som omdirigerer arbeid automatisk når en modell begynner å underprestere, og kontinuerlig styring som kan holde pace med et landskap som endrer seg hver kvartal. Disse tre gapene forblir ikke håndterbare. De vokser til en permanent ingeniørfunksjon som ingen budgetterte for, bemannet av mennesker hvis jobb i hovedsak er å holde pace med beslutninger som tas av leverandører de ikke har noen innflytelse over.
Hva som virkelig ligner på motstand i produksjon.
Ved Qurrent bygde vi den digitale arbeidsstyrken til å være modell-uavhengig fra starten, ikke som en markedsposisjon, men som et arkitektonisk krav. Hver oppgave ruter til den best-performende modellen for den oppgaven, evaluert kontinuerlig. Når en bedre modell kommer ut, får kundene den automatisk. Når en gjeldende modell regredierer på en bestemt arbeidsflyt, reruterer orkestreringslaget arbeidet i sekunder, uten menneskelig inngripen og uten at noen våkner opp til en Slack-tråd klokken 02.00.
Under dette kjører automatiserte simulasjoner mot produksjonsarbeidsflyter døgnet rundt, måler om utdataene matcher forventet atferd. Drift detekteres på infrastrukturnivå, før operasjonsteamet merker det og lenge før en kunde gjør det. Og hver beslutning som hver digital arbeider tar, er logget og gjennomgåelig, et fullstendig glassboks, fordi du ikke kan styre hva du ikke kan se.
Disse er ikke premiumfunksjoner. De er prisen for å kjøre AI i produksjon på bedriftsnivå. De fleste selskaper lærer det i midten av en nyhets_syklus, som er den dyre måten å finne ut.
Spørsmålet som er verdt å stille denne kvartalen.
Hvis modellen dine operasjoner er avhengig av mest, hadde en dårlig uke neste kvartal, hvor mange av dine arbeidsflyter ville merke det? Hvordan ville du vite det? Og hvor raskt kunne du rute rundt det?
Hvis svaret på det andre spørsmålet er “vi ville høre fra en kunde”, er operasjonen ikke produksjonsklar. Det er en pilot som kjører på skala, og forskjellen betyr mer enn de fleste ledere innser, inntil det ikke gjør det.
Den nåværende debatten er, på en bakvendt måte, nyttig. Hver CFO og COO som ser på dette, fikk nettopp en gratis forhåndsvisning av hva modell skjørhet ser ut som under reell operasjonell belastning, uten å betale for det selv. Den riktige responsen er ikke å bytte modell. Det er å bygge operasjoner som ikke avhenger av noen enkelt.
Teknologien vil fortsette å endre seg. Det er den eneste sikkerheten i denne markedet. Bedriftene som kommer ut av dette tiåret sterkest, vil ikke være de som valgte den riktige modellen. De vil være de hvis operasjoner aldri trengte å bry seg.












