Connect with us

Ajatusjohtajat

Claude “Nerfing” -keskustelu ei ole Claudesta. Se on siitä, mitä tapahtuu, kun toimintasi perustuu jonkun toisen päätöksiin.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

Tämän vuoden alussa Stella Laurenzo, AMD:n AI:n senioriohjaaja, julkaisi telemetrian lähes 7 000 Claude Code -istunnosta, jossa dokumentoitiin jotain, minkä insinöörit olivat tunteneet, mutta kamppailevat sanomaan: tammikuun ja maaliskuun välisenä aikana näkyvä syy-päättelysyvyys näytti laskevan 73 %, API-kutsut tehtävittäin kasvoivat 80-kertaisesti, ja malli luki paljon vähemmän tiedostoja ennen kuin teki muutoksia. Numerot levisivät nopeasti. Tulkinta levisi vielä nopeammin.

Anthropic kiistää kehyskokoelman. Yritys sanoo, että muutokset heijastavat tietoista tuotepäätöstä, mukaan lukien uuden adaptiivisen ajattelumekanismin ja siirtymisen keskivertaisiin ponnisteluihin oletusarvoisesti. Riippumattomat analyytikot ovat myös vastustaneet osia menetelmästä. Keskustelu on edelleen käynnissä, ja järkevät ihmiset eriävät siinä, mitä todella tapahtui.

Mutta tässä on osa, joka on tärkeää, jos sinä pyörit liiketoimintaa näiden järjestelmien päällä: riippumatta siitä, oliko tämä heikkenemistä tai tietoista säätöä, se ei muuta sitä, mitä yritysten toiminnanohjaajat kokivat. He eivät voineet ennustaa sitä. He eivät voineet hallita sitä. Ja jotkut heistä kokivat sen tuotannossa ennen kuin he ymmärsivät, mitä tapahtui. Se on todellinen tarina, ja se ei liity Anthropiciin erityisesti.

Tämä on riippuvuusongelma, ei malliongelma.

Mitä me kuvaamme, sillä on nimi: mallin hauraus. Se on tila, jossa tehtävänä olevat toiminnot ovat tiiviisti kytketty yhden mallin käyttäytymiseen, joten mikä tahansa muutos mallitasolla, olipa se säätopäätös, uusi oletus, kapasiteetin mukainen reititysmuutos tai hiljainen poistaminen, iskee liiketoimintaan suoraan, ilman puskuria ja ilman varoitusmerkkiä.

Tämä ei ole uusi malli. GPT-4 koki sen version vuonna 2023. Claude 3.5 koki sen version vuonna 2024. Claude Opus kokee sen nyt. Se tapahtuu jälleen seuraavan rintamallin ja sen jälkeisen mallin kanssa. Ei siksi, että mikään toimittaja toimisi pahantahtoisesti, vaan siksi, että rintamallin optimointi kustannuksilla, viiveellä ja skaalalla globaalilla volyymillä on juuri sitä, mitä rintamatoimittajien on tehtävä. Heidän kannustimensa ja yrityksen, joka pyörittää tuotantotoimintaa niiden päällä, kannustimet ovat liittyneitä. Ne eivät ole identtisiä. Ne eivät koskaan ole.

Aloimme Qurrentin vuonna 2023 ja meillä on historiallinen tietämys siitä, miten yrityssovellusjaksojen kehitys etenee: Yritys investoi tekoälyyn. Demo toimii. Pilotti toimii. Sitten se menee liveen, jokin muuttuu mallitasolla, ja yhtäkkiä asiakas omistaa ongelman. He ovat ne, jotka ylläpitävät työnkulkua, jahtaavat takaiskuja, absorboida disruptiot. Se ei koskaan ollut minulle järkevää kestävänä mallina yritystoiminnalle.

Yrityksen versio tästä tarinasta on operatiivinen, ei tekninen.

Kehittäjille nykyinen tilanne on epämukava. Token-budjetit palavat nopeammin. Koodisessiot jumiutuvat. Benchmarkit pettävät. Se on todellinen ongelma, mutta se on palautettavissa.

Yrityksille, jotka pyörittävät rahoitustoimintaa, noudattamisvirran työnkulkua, laskentaa ja vastaanottoa ja monimutkaisia takatoimintoja, panokset ovat erilaiset. Nämä työnkulut eivät voi absorboida huonoa viikkoa. Virheet kertautuvat. Määrä kertautuu. SLA:t ovat sitoumuksia todellisille asiakkaille, eivät sisäisille mieltymyksille. Hetkenä, jolloin malli alkaa suorittaa heikosti korkean panoksen prosessissa, vahinko kertyy, riippumatta siitä, onko kukaan huomannut sitä vielä.

Mitä tekee tämän vaikeammaksi, on se, että useimmat yritykset, jotka yrittivät päästä eteenpäin tekoälyllä rakentamalla sisäisiä agentteja yhdelle mallille, ovat nyt löytäneet, kuinka epätäydellinen perusta se oli. Ensimmäinen agentti oli helppo osa. Mitä ei rakennettu, oli ympäröivä infrastruktuuri: arviointikehykset, jotka havaitsevat käyttäytymisen siirtymisen ennen kuin se saavuttaa asiakkaan, automaattinen ohjauslogiikka, joka uudelleenohjaa työn automaattisesti, kun malli alkaa suorittaa heikosti, ja jatkuva hallinto, joka pystyy pitämään vauhtia muuttuvassa maisemassa, joka muuttuu joka neljännesvuosi. Nämä kolme aukkoa eivät jää hallitsemattomiksi. Ne kasvavat pysyväksi insinööritoiminnoksi, jota kukaan ei olisi budjetoinut, ja jota hoitavat ihmiset, jonka työ on perustuu niihin päätöksiin, joita toimittajat tekevät, joiden vaikutusvaltaa heillä ei ole.

Mitä resilienssi todella näyttää tuotannossa.

Qurrentissa me rakensimme digitaalisen työvoiman olemassa oloa malliriippumattomaksi alusta alkaen, ei markkinointiasemanahan, vaan arkkitehtuurin vaatimukseksi. Jokainen tehtävä reititetään parhaiten suorittavaan malliin kyseiselle tehtävälle, jota arvioidaan jatkuvasti. Kun parempi malli toimitetaan, asiakkaat saavat sen automaattisesti. Kun nykyinen malli heikkenee tietyssä työnkulussa, orkestraatiokerros uudelleenohjaa työn sekunneissa, ilman ihmisen väliintuloa ja ilman, että kukaan herää Slack-keskusteluun kello 2 aamulla.

Sen alla automaattiset simulaatiot suoritetaan tuotantotyönkuluja vastaan ympäri vuorokauden, mitaten, vastaavatko tulosteet odotettua käyttäytymistä. Siirtymä havaitaan infrastruktuuritasolla, ennen kuin toimintatiimi kokee sen ja paljon ennen kuin asiakas kokee sen. Ja jokainen päätös, jonka jokainen digitaalinen työntekijä tekee, on kirjattu ja tarkasteltavissa, täysi lasi-asti, koska et voi hallita sitä, mitä et voi nähdä.

Nämä eivät ole premium-ominaisuuksia. Ne ovat pääsylippu tekoälyn suorittamiseen tuotannossa yrityskoossa. Useimmat yritykset oppivat sen keskellä uutiskierrosta, mikä on kallis tapa löytää se.

Kysymys, jota kannattaa kysyä tämän neljänneksen aikana.

Jos malli, johon toimintasi perustuu eniten, olisi huono viikko seuraavalla neljänneksellä, kuinka moni työnkulkuisi kokee sen? Miten sinä tietäisit siitä? Ja kuinka nopeasti sinä voit ohjata sen ympäri?

Jos vastaus toiseen kysymykseen on “me kuulimme asiakkaalta”, toiminta ei ole valmis tuotantoon. Se on pilotti, joka suoritetaan suuressa mittakaavassa, ja ero on tärkeämpää kuin useimmat johtajat toteavat, kunnes se ei ole.

Nykyinen keskustelu on, epäsuoralla tavalla, hyödyllinen. Jokainen CFO ja COO, joka seuraa tätä, sai ilmaisen esikatselun siitä, miltä mallin hauraus näyttää todellisessa operatiivisessa kuormituksessa, ilman maksamista siitä itse.

Oikea vastaus ei ole vaihtaa mallia. Se on rakentaa toimintaa, joka ei riipu yhdestä mallista.

Teknologia jatkaa muuttumista. Se on ainoa varmuus tässä markkinassa. Yritykset, jotka tulevat ulos tästä vuosikymmenestä vahvimmillaan, eivät ole ne, jotka valitsivat oikean mallin. Ne ovat ne, jonka toiminta ei koskaan tarvinnut välittää.

Colin on kokenut yrittäjä, joka on työskennellyt syvällisesti AI:n parissa 1990-luvun alusta lähtien. Colinin aiemmat yritykset sisältävät Myndin, teknologiaan perustuvan alustan yksityiskohtaisten vuokra-asuntomarkkinoiden sijoituksiin, joka nimettiin nopeimmin kasvavaksi Bay Area -yhtiöksi vuonna 2020, ja Waypoint Homesin, joka keräsi yli 3,5 miljardia dollaria ja hallinnoi 17 000 kotia ennen listautumistaan NYSE: ssä vuonna 2014. Colinin AI-innovaatioiden ansiosta hänellä on useita patenteja, hän on saanut paikan Goldman Sachs'in 100 innovatiivisimman yrittäjän listalla ja hänet on nimetty Ernst & Youngin Vuoden yrittäjäksi.