Connect with us

Lideri de opinie

Dezbaterile “Nerfing” cu privire la Claude nu sunt despre Claude. Este despre ceea ce se întâmplă atunci când operațiunile dvs. funcționează pe baza deciziilor altcuiva.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

La începutul acestui an, Stella Laurenzo, Director Senior de Inteligență Artificială la AMD, a publicat telemetria a aproape 7.000 de sesiuni de cod Claude, documentând ceva pe care inginerii îl simțeau, dar se luptau să articuleze: între ianuarie și martie, adâncimea vizibilă a raționamentului a scăzut cu 73%, apelurile API pe sarcină au crescut de optzeci de ori, iar modelul citea mult mai puține fișiere înainte de a face editări. Numerele s-au răspândit rapid. Interpretarea s-a răspândit și mai repede.

Anthropic contestă cadrul. Compania spune că schimbările reflectă decizii deliberate de produs, inclusiv un nou mecanism de gândire adaptivă și o schimbare către efortul mediu ca valoare implicită. Analisti independenți au respins, de asemenea, părți ale metodologiei. Dezbaterile sunt în curs, iar oamenii rezonabili nu sunt de acord cu ceea ce s-a întâmplat realmente.

Dar iată partea care contează dacă conduceți o afacere pe baza acestor sisteme: indiferent dacă a fost degradare sau reglare deliberată, nu schimbă ceea ce au experimentat operatorii de întreprindere. Ei nu au putut să o prevadă. Ei nu au putut să o controleze. Și unii dintre ei au simțit-o în producție înainte de a înțelege ce se întâmplă. Acesta este adevăratul subiect, și nu are nimic de-a face cu Anthropic în mod specific.

Acesta este un problema de dependență, nu o problemă de model.

Ceea ce descriem are un nume: fragilitatea modelului. Este condiția în care operațiunile critice pentru misiune sunt strâns legate de comportamentul unui singur model, astfel încât orice schimbare la nivelul modelului, indiferent dacă este o decizie de reglare, o nouă valoare implicită, o schimbare de rutare din cauza capacității sau o depreciere liniștită, lovește direct afacerea, fără niciun tampon și fără avertizare.

Acesta nu este un model nou. GPT-4 a trecut printr-o versiune a acestuia în 2023. Claude 3.5 a trecut printr-unul în 2024. Claude Opus trece printr-unul acum. Va fi din nou cu următorul model de frontieră, și cu cel de după. Nu pentru că vreun furnizor ar acționa cu rea credință, ci pentru că optimizarea unui model de frontieră pentru cost, latență și scară la volum global este exact ceea ce furnizorii de frontieră trebuie să facă. Incentivele lor și incentivele unei întreprinderi care rulează operațiuni de producție deasupra lor sunt legate. Ele nu sunt identice. Ele nu vor fi niciodată.

Am început Qurrent în 2023 și avem cunoștințele istorice pentru a ști cum se desfășoară ciclurile de software pentru întreprindere: O companie investește în inteligență artificială. Demonstrația funcționează. Pilotul funcționează. Apoi rulează live, ceva se schimbă la nivelul modelului, și brusc clientul deține problema. Ei sunt cei care mențin fluxurile de lucru, urmăresc regresia, absorb perturbarea. Acest lucru nu a avut niciodată sens pentru mine ca un model durabil pentru operațiunile de întreprindere.

Versiunea întreprinderii a acestei povești este operațională, nu tehnică.

Pentru dezvoltatori, situația actuală este incomodă. Bugetele de token ard mai repede. Sesiunile de cod se blochează. Benchmark-urile dezamăgesc. Acesta este un problemă reală, dar este una recuperabilă.

Pentru întreprinderile care rulează operațiuni financiare, fluxuri de conformitate, conturi de încasat și de plătit, și procese complexe de back-office, mizele sunt diferite. Aceste fluxuri de lucru nu pot absorbi o săptămână proastă. Erorile se acumulează. Volumul se acumulează. SLA-urile sunt angajamente față de clienții reali, nu preferințe interne. În momentul în care un model începe să funcționeze sub nivelul așteptat într-un proces cu mize ridicate, daunele se acumulează, indiferent dacă cineva a observat sau nu.

Ceea ce face acest lucru mai greu este că majoritatea companiilor care au încercat să devanseze inteligența artificială prin construirea de agenți interni pe un singur model descoperă acum cât de incompletă a fost acea fundație. Primul agent a fost partea ușoară. Ceea ce nu a fost construit a fost infrastructura înconjurătoare: cadre de evaluare care detectează deviația comportamentală înainte de a ajunge la client, logica de failover care redirecționează lucrul în mod automat atunci când un model începe să funcționeze sub nivelul așteptat, și guvernanța continuă capabilă să țină pasul cu un peisaj care se schimbă la fiecare trimestru. Aceste trei lacune nu rămân gestionabile. Ele cresc într-o funcție de inginerie permanentă, pentru care nimeni nu a bugetat, condusă de oameni a căror sarcină de lucru este, în esență, să țină pasul cu deciziile luate de furnizori asupra cărora nu au nicio influență.

Ce arată, de fapt, reziliența în producție.

La Qurrent, am construit forța de muncă digitală pentru a fi agnostică la model din start, nu ca o poziție de marketing, ci ca o cerință arhitecturală. Fiecare sarcină este direcționată către modelul cu cel mai bun randament pentru acea sarcină, evaluat în mod continuu. Când un model mai bun este lansat, clienții îl primesc în mod automat. Când un model curent regresează pe un anumit flux de lucru, stratul de orchestrare redirecționează acel lucru în secunde, fără intervenție umană și fără ca cineva să trezească la un fir de discuții la 2 dimineața.

Sub acesta, simulări automate rulează împotriva fluxurilor de lucru de producție nonstop, măsurând dacă ieșirile corespund comportamentului așteptat. Deviația este detectată la nivelul infrastructurii, înainte ca echipa de operațiuni să o simtă și cu mult înainte ca un client să o facă. Și fiecare decizie luată de fiecare lucrător digital este înregistrată și poate fi revizuită, o cutie de sticlă completă, pentru că nu puteți guverna ceea ce nu puteți vedea.

Acestea nu sunt funcții premium. Ele sunt prețul de intrare pentru rularea inteligenței artificiale în producție la scară de întreprindere. Majoritatea companiilor învață acest lucru în mijlocul unui ciclu de știri, ceea ce este modalitatea scumpă de a afla.

Întrebarea care merită să fie pusă în acest trimestru.

Dacă modelul de care depind operațiunile dvs. cel mai mult ar avea o săptămână proastă în trimestrul următor, câte dintre fluxurile dvs. de lucru ar simți acest lucru? Cum ați ști? Și cât de repede ați putea direcționa în jurul acestuia?

Dacă răspunsul la a doua întrebare este “am auzi de la un client”, operațiunea nu este gata de producție. Este un pilot care rulează la scară, și distincția contează mai mult decât majoritatea liderilor realizează până când nu o mai fac.

Dezbaterea actuală este, într-un mod indirect, utilă. Fiecare CFO și COO care urmărește acest lucru a primit o previzualizare gratuită a ceea ce arată fragilitatea modelului sub o încărcătură operațională reală, fără a plăti pentru aceasta. Răspunsul corect nu este să schimbi modelul. Este să construiți operațiuni care nu depind de vreunul singur.

Tehnologia va continua să se schimbe. Acesta este singurul lucru sigur pe acest market. Întreprinderile care vor ieși din acest deceniu cele mai puternice nu vor fi cele care au ales modelul corect. Vor fi cele ale căror operațiuni nu au trebuit să se sinchisească.

Colin este un antreprenor experimentat care a lucrat profund cu AI din anii 1990. Venturele anterioare ale lui Colin includ Mynd, o platformă tehnologică pentru investiții în case de familie unice, numită cea mai rapidă companie în creștere din Bay Area în 2020, și Waypoint Homes, care a strâns peste 3,5 miliarde de dolari și a gestionat 17.000 de case înainte de a deveni publică pe NYSE în 2014. Recunoscut pentru inovațiile sale în AI, Colin deține multiple brevete, a obținut un loc în lista Goldman Sachs a celor 100 de antreprenori cei mai inovatori și a fost numit Antreprenorul Anului de Ernst & Young.