Connect with us

Thought leaders

De Claude “Nerfing”-Debat Gaat Niet Over Claude. Het Gaat Over Wat Er Gebeurt Als Uw Operaties Draaien Op Iemands Anders’ Beslissingen.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

Earler dit jaar publiceerde Stella Laurenzo, Senior Director of AI bij AMD, telemetrie van bijna 7.000 Claude Code-sessies waarin iets werd gedocumenteerd dat ingenieurs al voelden maar moeite hadden om onder woorden te brengen: tussen januari en maart leek de zichtbare redeneringsdiepte met 73% af te nemen, API-aanroepen per taak namen met een factor tachtig toe, en het model las veel minder bestanden voordat het bewerkingen uitvoerde. De cijfers verspreidden zich snel. De interpretatie verspreidde zich nog sneller.

Anthropic betwist de framing. Het bedrijf zegt dat de veranderingen het resultaat zijn van bewuste productbeslissingen, waaronder een nieuwe adaptieve denkmethode en een verschuiving naar medium inspanning als standaard. Onafhankelijke analisten hebben ook gereageerd op delen van de methodologie. De discussie is gaande, en redelijke mensen zijn het oneens over wat er werkelijk is gebeurd.

Maar hier is het deel dat ertoe doet als u een bedrijf runt op basis van deze systemen: of dit nu een degradatie of een bewuste afstelling was, verandert niets aan wat ondernemingsoperatoren hebben meegemaakt. Ze konden het niet voorspellen. Ze konden het niet controleren. En sommigen van hen voelden het in productie voordat ze begrepen wat er gebeurde. Dat is het echte verhaal, en het heeft niets te maken met Anthropic in het bijzonder.

Dit is een afhankelijkheidsprobleem, geen modelprobleem.

Wat we beschrijven heeft een naam: modelkwetsbaarheid. Het is de toestand waarin mission-critical operaties nauw verbonden zijn met het gedrag van één model, zodat elke verandering op het modelniveau, of het nu een afstellingbeslissing, een nieuwe standaard, een capaciteitsgestuurde routeringswijziging of een stille deprecatie is, de onderneming rechtstreeks treft, zonder buffer en zonder waarschuwing.

Dit is geen nieuw patroon. GPT-4 ging door een versie ervan in 2023. Claude 3.5 ging door een in 2024. Claude Opus gaat er nu doorheen. Het zal weer gebeuren met het volgende frontiermodel, en het model daarna. Niet omdat enige leverancier met slechte bedoelingen handelt, maar omdat het optimaliseren van een frontiermodel voor kosten, latentie en schaal op wereldvolume precies is wat frontierleveranciers moeten doen. Hun stimulansen en de stimulansen van een onderneming die productieoperaties uitvoert op basis van hen zijn gerelateerd. Ze zijn niet identiek. Ze zullen nooit identiek zijn.

We zijn Qurrent in 2023 begonnen en hebben de historische kennis om te weten hoe ondernemingssoftwarecycli zich afspelen: een bedrijf investeert in AI. De demo werkt. De pilot werkt. Dan gaat het live, iets verschuift op het modelniveau, en plotseling is de klant de eigenaar van het probleem. Ze zijn degene die de workflows onderhoudt, de regressies achtervolgt, de verstoring absorbeert. Dat heeft nooit zin voor me gehad als een duurzaam model voor ondernemingsoperaties.

De ondernemingsversie van dit verhaal is operationeel, niet technisch.

Voor ontwikkelaars is de huidige situatie ongemakkelijk. Tokenbudgets branden sneller. Codingsessies stagneren. Benchmarks teleurstellen. Dat is een echt probleem, maar het is een herstelbaar probleem.

Voor ondernemingen die financiële operaties, compliance-workflows, accounts receivable en payable, en complexe back-officeprocessen uitvoeren, zijn de inzetten anders. Deze workflows kunnen geen slechte week absorberen. Fouten accumuleren. Volume accumuleert. SLA’s zijn toezeggingen aan echte klanten, niet interne voorkeuren. Het moment dat een model begint te onderpresteren op een high-stakesproces, begint de schade te accumuleren of iemand het nu heeft opgemerkt of niet.

Wat dit moeilijker maakt, is dat de meeste bedrijven die probeerden om voorop te lopen met AI door interne agenten op één model te bouwen, nu ontdekken hoe onvolledig die basis was. De eerste agent was het gemakkelijke deel. Wat niet werd gebouwd, was de omliggende infrastructuur: evaluatiekaders die gedragsafwijking detecteren voordat het een klant bereikt, failoverlogica die werk automatisch omleidt wanneer een model begint te onderpresteren, en voortdurend bestuur dat in staat is om gelijke tred te houden met een landschap dat elke kwartaal verandert. Die drie lacunes blijven niet beheersbaar. Ze groeien uit tot een permanente engineeringsfunctie die niemand heeft begroot, bemand door mensen wiens taak het is om bij te blijven met beslissingen die worden genomen door leveranciers waarop ze geen invloed hebben.

Wat weerbaarheid werkelijk lijkt in productie.

Bij Qurrent hebben we de digitale workforce vanaf het begin modelagnostisch gebouwd, niet als een marketingpositie maar als een architecturale vereiste. Elke taak wordt doorgestuurd naar het best presterende model voor die taak, continu geëvalueerd. Wanneer een beter model wordt uitgebracht, krijgen klanten het automatisch. Wanneer een huidig model regressie vertoont op een specifiek workflow, leidt de orkestratielaag het werk om in seconden, zonder menselijke tussenkomst en zonder dat iemand wakker wordt voor een Slack-thread om 2 uur ‘s nachts.

Onderaan dat, worden geautomatiseerde simulaties uitgevoerd tegen productieworkflows de klok rond, meten of de uitvoer overeenkomt met het verwachte gedrag. Afwijking wordt gedetecteerd op het infrastructuurniveau, voordat het operatieteam het voelt en lang voordat een klant het doet. En elke beslissing genomen door elke digitale werker wordt gelogd en kan worden beoordeeld, een volledig glazen doos, omdat u niet kunt besturen wat u niet kunt zien.

Dit zijn geen premiumfuncties. Ze zijn de toegangsprijs voor het uitvoeren van AI in productie op ondernemingsniveau. De meeste bedrijven leren dat midden in een nieuws cyclus, wat de dure manier is om erachter te komen.

De vraag die deze kwartaal waard is om te stellen.

Als het model waarop uw operaties het meest afhankelijk zijn een slechte week heeft volgend kwartaal, hoeveel van uw workflows zullen dat voelen? Hoe zult u dat weten? En hoe snel kunt u eromheen leiden?

Als het antwoord op de tweede vraag is “we zullen het horen van een klant”, is de operatie niet productieready. Het is een pilot die op grote schaal draait, en het onderscheid is belangrijker dan de meeste leiders beseffen totdat het niet meer zo is.

De huidige discussie is, op een omweg, nuttig. Elke CFO en COO die naar deze ontwikkeling kijkt, kreeg net een gratis voorbeeld van wat modelkwetsbaarheid eruitziet onder echte operationele belasting, zonder er zelf voor te betalen. De juiste reactie is niet om van model te wisselen. Het is om operaties te bouwen die niet afhankelijk zijn van één enkel model.

Technologie zal blijven veranderen. Dat is de enige zekerheid in deze markt. De ondernemingen die aan het eind van dit decennium het sterkst uitkomen, zullen niet degene zijn die het juiste model hebben gekozen. Ze zullen degene zijn wiens operaties nooit hebben hoeven zorgen.

Colin Wiel, CEO en mede-oprichter van Qurrent, is een ervaren ondernemer die sinds de jaren 90 diep heeft gewerkt met AI. Colin's voorgaande ondernemingen omvatten Mynd, een technisch platform voor investeringen in enkele gezinswoningen dat in 2020 de snelst groeiende Bay Area-bedrijf werd genoemd, en Waypoint Homes, dat meer dan 3,5 miljard dollar ophaalde en 17.000 woningen beheerde voordat het in 2014 naar de beurs ging op de NYSE. Colin wordt erkend voor zijn innovaties op het gebied van AI, hij heeft meerdere octrooien, heeft een plek verdiend op de lijst van Goldman Sachs' Top 100 meest innovatieve ondernemers en werd genomineerd als Ernst & Young Ondernemer van het Jaar.