Connect with us

Anthropics Prosjektavtale Lar Claude-agenter Handle Reelle Varer

Kunstig intelligens

Anthropics Prosjektavtale Lar Claude-agenter Handle Reelle Varer

mm

Anthropic publiserte 24. april resultatene av “Project Deal“, en en-ukes intern eksperiment hvor Claude-agenter kjøpte og solgte reelle varer på vegne av 69 ansatte i selskapets San Francisco-kontor.

Agentene inngikk 186 avtaler verdt litt over 4 000 dollar – og studien fant at deltakerne som ble representert av sterkere modeller fikk målbare bedre resultater som deres menneskelige motparter ikke la merke til.

Funnene, skrevet av Anthropic-forskerne Kevin K. Troy, Dylan Shields, Keir Bradwell og Peter McCrory, gir det klareste bildet hittil av hvordan en AI-meglermarked kan oppføre seg når agenter forhandler på begge sider av en transaksjon.

De bringer også frem en “ubehegelig implikasjon” som selskapet sier bransjen, regulatorer og brukere må konfrontere før agentic commerce blir mainstream.

Hvordan Project Deal Fungerer

Eksperimentet ble kjørt i en uke i desember 2025.

Anthropic rekrutterte 69 ansatte, gav dem hver en “budsjett” på 100 dollar (utbetalt etter eksperimentet i form av en gavekort, pluss eller minus verdien av hva de kjøpte eller solgte), og hadde Claude utføre et kort intervju med hver frivillig for å finne ut hva de ville selge, til hvilken pris, hva de ville kjøpe og hvilken forhandlingsstil deres agent skulle bruke. Anthropic omdannet deretter svarene til et tilpasset systemprompt for hver agent.

Anthropic kjørte deretter fire parallelle markeder i Slack-kanaler.

“I Run A og Run D var alle agentene basert på Claude Opus 4.5, vårt daværende frontier-modell”, sa teamet. “I de to andre løpene (Runs B og C) hadde deltakerne en femti-prosent sjanse til å bli tildelt Claude Haiku 4.5, en mindre kraftfull modell, i stedet.”

Kun Run A var den “ekte” kjøringen hvor varer faktisk ble overført etterpå; de andre tre var studiebetingelser, og deltakerne ble ikke informert om hvilken kjøring som var ekte før etter en post-eksperimentell undersøkelse.

Det var ingen menneskelig innsats når agentene var deployert.

Prosjektets Slack-kanal loopet tilfeldig gjennom agenter, og lot dem poste et element for salg, gjøre et tilbud for noen andres varer eller forsegle en avtale. Avgjørende var at det ikke var noen menneskelig inngripen når eksperimentet begynte.

Over 500 listede elementer identifiserte agentene sammenfall, foreslo priser og lukket avtaler autonomt. Mennesker kom bare inn i bildet igjen til slutt for å fysisk bytte varer deres agenter hadde enige seg om å bytte.

Sterkere Modeller Forhandler Stille Bedre Avtaler

Overskriftsfunnene er rett frem: agentkvalitet betyr noe, og det betyr noe i dollar.

Over 161 elementer solgt i minst to av de fire løpene, fikk en Opus-selger i gjennomsnitt 2,68 dollar mer, mens en Opus-kjøper betalte 2,45 dollar mindre. Når en Opus-selger møtte en Haiku-kjøper, var gjennomsnittsprisen 24,18 dollar, sammenlignet med 18,63 dollar for Opus-til-Opus-avtaler. Med en medianpris på 12 dollar og en gjennomsnittspris på 20,05 dollar over alle løpene, sier Anthropic at disse gapene ikke er trivielle.

Enkelttilfeller var skarpere.

Den samme ødelagte sammenleggbare sykkel, samme kjøper, samme selger: Opus-agenten fikk 65 dollar, mens Haiku-agenten bare fikk 38 dollar.

En laboratorie-dyrket rubin som Opus solgte for 65 dollar, ble solgt for bare 35 dollar når Haiku håndterte listingen.

Fellen er hva deltakerne ikke oppfattet.

Til tross for det klare prisgapet, vurderte deltakerne med Haiku-agenter rettferdigheten av deres avtaler nesten like som Opus-brukerne: 4,06 mot 4,05 på rettferdighetsskalaen.

“28 av våre deltakere hadde Haiku i ett Haiku- og Opus-løp og Opus i det andre. Og selv om 17 av disse rangerte sitt Opus-løp over sitt Haiku-løp, gjorde 11 det motsatte”, skrev selskapet.

En annen, mer motintuitiv resultat: forhandlingsstilene deltakerne ba om i deres intervjuer, påvirkte knapt resultater.

Aggressive selgere fikk høyere priser, men bare fordi de satte høyere åpningpriser fra starten, sier Anthropic.

Aggressive instruksjoner produserte ingen statistisk signifikant økning i salgs.sannsynlighet, salgspris eller kjøpspris når de høyere spørprisene brukerne satte, ble kontrollert for. Modellvalg betydde mye mer enn prompting.

Hva Det Betyr for Agentic Commerce

Project Deal er en pilot, ikke et produkt, og Anthropic er forsiktig med å markere begrensningene – en selvvalgt arbeidstagerpool, lave innsatser og ingen motstridende aktører. Likevel sa 46 prosent av deltakerne at de ville betale for en tjeneste som denne, som Anthropic rammer som bevis på at agent-meglerhandel ikke er langt unna.

Denne tidsrammen betyr noe fordi Anthropic har vært synlig styrt Claude mot forbrukertransaksjoner. Selskapet har nylig publisert en blogginnlegg som forplikter seg til å holde Claude-samtaler annonsefrie, samtidig som de uttrykkelig godkjenner agentic commerce, og de har bygget ut bedriftsinfrastruktur som Managed Agents for å la Claude handle på vegne av brukerne over tredjeparts-tjenester. Project Deal lander som et forskningsartefakt som stille kartlegger feilmodusene for den fremtidige.

Anthropic markerer tre bekymringer som vokser ut av eksperimentet. Først, i en verden med selskaper i stedet for frivillige, ville incitamentene se annet ut. Å optimalisere for AI-agent oppmerksomhet kunne bli et kraftfullt verktøy som ikke nødvendigvis fungerer i menneskers favør.

Andre, å optimalisere systemer for AI-agent oppmerksomhet – i stedet for menneskelig oppmerksomhet – kunne introdusere nye manipulasjonsflater, inkludert jailbreaking og prompt-injeksjon.

Tredje, “politikk- og lovmessige rammer rundt AI-modeller som handler på vegne av oss, finnes ennå ikke”, skriver selskapet.

Det ubesvarte spørsmålet er om åpenhet kan lukke percepgapet. Project Deal-deltakerne visste ikke hvilken modell representerte dem, som er omtrent den samme situasjonen brukerne vil møte i noen forbruker-utgivelse. Hvis et rettferdighetsgap mellom Opus og Haiku er usynlig innenfor en selvvalgt Anthropic-arbeidstager i en en-ukes eksperiment med 100-dollars innsatser, vil det sannsynligvis være usynlig i stor skala – med mindre markedsplasser er pålagt å åpenbart hvilken agent som handler på vegne av hvem og på hvilket nivå. Det er den type reguleringsspørsmål Anthropic nå offentlig inviterer, og det er det som sannsynligvis vil lande først når agent-meglerhandel flytter seg utenfor en Slack-kanal i San Francisco.

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.