Connect with us

Anthropic’s Project Deal Låter Claude-agenter Handla Med Riktiga Varor

Artificiell intelligens

Anthropic’s Project Deal Låter Claude-agenter Handla Med Riktiga Varor

mm

Anthropic publicerade den 24 april resultaten av “Project Deal“, en enveckas intern experiment där Claude-agenter köpte och sålde riktiga artiklar för 69 anställda på företagets kontor i San Francisco.

Agenterna ingick 186 avtal värda strax över 4 000 dollar – och studien fann att deltagare som representerades av starkare modeller gick bort med mätbart bättre resultat som deras mänskliga motparter aldrig märkte.

Resultaten, skrivna av Anthropic-forskarna Kevin K. Troy, Dylan Shields, Keir Bradwell och Peter McCrory, ger den tydligaste bilden hittills av hur en AI-medierad marknad kan bete sig när agenter förhandlar på båda sidor av en transaktion.

De bringar också en “obekväm implikation” som företaget säger att branschen, tillsynsmyndigheterna och användarna måste konfrontera innan agentic commerce blir mainstream.

Hur Project Deal Fungerade

Experimentet pågick i en vecka i december 2025.

Anthropic rekryterade 69 anställda, gav var och en en “budget” på 100 dollar (utbetalad efter experimentet i form av en presentkort, plus eller minus värdet av vad de köpte eller sålde) och lät Claude genomföra ett kort intervju med varje frivillig för att ta reda på vad de ville sälja, till vilket pris, vad de ville köpa och vilken förhandlingsstil deras agent skulle använda. Anthropic omvandlade sedan svaren till en anpassad systemprompt för varje agent.

Anthropic körde sedan fyra parallella marknader i Slack-kanaler.

“I Run A och Run D var alla agenter baserade på Claude Opus 4.5, vår dåvarande frontmodell”, sa teamet. “I de andra två körningarna (Runs B och C) hade deltagarna en femtio procents chans att bli tilldelad Claude Haiku 4.5, en mindre kraftfull modell, istället.”

Bara Run A var den “riktiga” körningen där varor faktiskt bytte ägare efteråt; de andra tre var studieförhållanden, och deltagarna informerades inte om vilken körning som var riktig förrän efter en post-experimentenkät.

Det fanns ingen mänsklig inblandning när agenterna var utplacerade.

Projektets Slack-kanal slumpmässigt loopade genom agenter, vilket tillät dem att publicera en artikel för försäljning, lämna ett anbud för någon annans varor eller försluta ett avtal. Avgörande var att det inte fanns någon mänsklig inblandning när experimentet började.

Över 500 listade artiklar identifierade agenter matchningar, föreslog priser och stängde avtal autonomt. Människor återinträdde bara i bilden i slutet för att fysiskt byta ut varorna som deras agenter hade kommit överens om att byta.

Starkare Modeller Förhandlar Tyst Bättre Avtal

Huvudfyndet är rakt på sak: agentkvalitet spelar roll, och det spelar roll i dollar.

Över 161 artiklar som såldes i minst två av de fyra körningarna drog en Opus-säljare in i genomsnitt 2,68 dollar mer, medan en Opus-köpare betalade 2,45 dollar mindre. När en Opus-säljare mötte en Haiku-köpare nådde det genomsnittliga priset 24,18 dollar, jämfört med 18,63 dollar för Opus-mot-Opus-avtal. Med ett medianpris på 12 dollar och ett genomsnitt på 20,05 dollar över alla körningar säger Anthropic att dessa gap inte är triviala.

Enskilda fall var skarpare.

Samma trasiga hopfällbara cykel, samma köpare, samma säljare: Opus-agenten fick 65 dollar, medan Haiku-agenten bara fick 38 dollar.

En laboratorieodlad rubin som Opus sålde för 65 dollar fick bara 35 dollar när Haiku hanterade listningen.

Fångsten är vad deltagarna inte uppfattade.

Trots det tydliga prisgapet rankade deltagare med Haiku-agenter rättvisan i deras avtal nästan lika som Opus-användare: 4,06 jämfört med 4,05 på rättviseskalan.

“Tjugoåtta av våra deltagare hade Haiku i en Haiku- och Opus-körning och Opus i den andra. Och även om 17 av dessa rankade sin Opus-körning över sin Haiku-körning, gjorde 11 det motsatta”, skrev företaget.

Ett andra, mer motstridigt resultat: de förhandlingsstilar som deltagarna begärde i sina intervjuer påverkade knappt resultaten.

Aggressiva säljare fick högre priser, men bara för att de satte högre utgångspriser från början, säger Anthropic.

Aggressiva instruktioner producerade ingen statistiskt signifikant ökning av försäljningssannolikhet, försäljningspris eller inköpspris när de högre begärande priser som användarna satte kontrollerades för. Modellvalet spelade roll mycket mer än prompting.

Vad Det Betyder för Agentic Commerce

Project Deal är en pilot, inte en produkt, och Anthropic är försiktig med att flagga begränsningarna – en självvald anställdpool, låga insatser och inga fientliga aktörer. Även så är 46 procent av deltagarna säger att de skulle betala för en tjänst som denna, som Anthropic rammer som bevis för att agent-medierad peer-to-peer-handel inte är långt borta.

Den timingen spelar roll eftersom Anthropic har varit synligt styrt Claude mot konsumenttransaktioner. Företaget publicerade nyligen en blogginlägg som åtagit sig att hålla Claude-samtal annonsfria medan de uttryckligen godkänner agentic commerce, och de har byggt ut företagsinfrastruktur som Managed Agents för att låta Claude agera på användarnas vägnar över tredjepartstjänster. Project Deal landar som en forskningsartefakt som tyst kartlägger felmoderna för den framtiden.

Anthropic flaggar tre problem som växer ur experimentet. Först, i en värld med företag istället för frivilliga, skulle incitamenten se mycket annorlunda ut. Att optimera för AI-agentuppmärksamhet kan bli ett kraftfullt verktyg som inte nödvändigtvis fungerar till människors fördel.

Andra, att optimera system för AI-agentuppmärksamhet – snarare än mänsklig uppmärksamhet – kan introducera nya manipulationssidor, inklusive jailbreaking och prompt injection.

Tredje, “de politiska och juridiska ramarna för AI-modeller som transaktioner på vår vägnar finns helt enkelt inte än”, skriver företaget.

Den obesvarade frågan är om avslöjande kan stänga perceptionsgapet. Project Deal-deltagare visste inte vilken modell som representerade dem, vilket är ungefär den situation som användare kommer att möta i någon konsumentutgåva. Om ett rättvisegap mellan Opus och Haiku är osynligt inom en självvald Anthropic-arbetsstyrka som kör en enveckasexperiment med 100-dollarsinsatser, kommer det troligen att vara osynligt i stor skala – såvida marknadsplatser inte krävs för att avslöja vilken agent som agerar för vem och på vilken förmågenivå. Det är den typen av regleringsfråga som Anthropic nu offentligt inbjuder, och det är den som troligen kommer att landa först när agent-medierad handel flyttar bortom en Slack-kanal i San Francisco.

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.