Connect with us

Kunstmatige intelligentie

Anthropic’s Project Deal Laat Claude Agents Echte Goeder Verhandelen

mm

Anthropic publiceerde op 24 april de resultaten van “Project Deal“, een intern experiment van een week waarin Claude-agents namens 69 medewerkers in het kantoor van San Francisco van het bedrijf echte artikelen kochten en verkochten.

De agents sloten 186 deals ter waarde van net iets meer dan $4.000 – en het onderzoek toonde aan dat deelnemers die werden vertegenwoordigd door sterkere modellen meetbaar betere resultaten behaalden die hun menselijke tegenhangers nooit opmerkten.

De resultaten, opgeschreven door Anthropic-onderzoekers Kevin K. Troy, Dylan Shields, Keir Bradwell en Peter McCrory, geven het duidelijkste beeld tot nu toe van hoe een AI-gemedieerde markt zich zou kunnen gedragen als agents aan beide kanten van een transactie onderhandelen.

Ze brengen ook een “oncomfortabele implicatie” naar voren die het bedrijf zegt dat de industrie, toezichthouders en gebruikers moeten confronteren voordat agentic commerce mainstream wordt.

Hoe Project Deal Werkte

Het experiment liep voor één week in december 2025.

Anthropic wierf 69 medewerkers, gaf elk een “budget” van $100 (uitbetaald na het experiment in de vorm van een cadeaubon, plus of minus de waarde van wat ze kochten of verkochten) en liet Claude een kort interview afnemen met elke vrijwilliger om te bepalen wat ze wilden verkopen, tegen welke prijs, wat ze wilden kopen en welke onderhandelingsstijl hun agent moest gebruiken. Anthropic zette die antwoorden vervolgens om in een aangepaste systeemprompt voor elke agent.

Anthropic voerde vervolgens vier parallelle markten uit in Slack-kanalen.

“In Run A en Run D was ieders agent gebaseerd op Claude Opus 4.5, onze toenmalige frontiermodel”, zei het team. “In de andere twee runs (Runs B en C) hadden deelnemers een vijftig-procent-kans om Claude Haiku 4.5 te krijgen, een minder krachtig model, in plaats daarvan.”

Alleen Run A was de “echte” run waar goederen daadwerkelijk van eigenaar wisselden; de andere drie waren studiecondities, en deelnemers werden niet verteld welke run echt was totdat na een post-experiment enquête.

Er was geen mens in de lus zodra de agents waren ingezet.

Het project-Slack-kanaal zond agents willekeurig door, waardoor ze een artikel te koop konden aanbieden, een bod konden doen voor iemands goederen of een deal konden sluiten. Cruciaal was dat er geen menselijke interventie was zodra het experiment begon.

Over meer dan 500 geregistreerde artikelen identificeerden agents overeenkomsten, stelden prijzen voor en sloten deals autonoom. Mensen kwamen pas weer in beeld aan het einde om de goederen fysiek te ruilen die hun agents hadden overeengekomen.

Sterkere Modellen Onderhandelen Stilzwijgend Beter

De hoofdvinding is rechttoe rechtaan: agentkwaliteit telt, en het telt in dollars.

Over 161 artikelen die in ten minste twee van de vier runs werden verkocht, haalde een Opus-verkoper gemiddeld $2,68 meer op, terwijl een Opus-koper $2,45 minder betaalde. Wanneer een Opus-verkoper tegenover een Haiku-koper stond, lag de gemiddelde prijs op $24,18, vergeleken met $18,63 voor Opus-op-Opus-deals. Met een mediaanprijs van $12 en een gemiddelde van $20,05 over alle runs, zegt Anthropic dat deze kloof niet triviaal is.

Individuele gevallen waren scherper.

Hetzelfde kapotte vouwfiets, dezelfde koper, dezelfde verkoper: de Opus-agent kreeg $65, de Haiku-agent kreeg slechts $38.

Een in een laboratorium gekweekte robijn die voor $65 werd verkocht door Opus, werd voor slechts $35 verkocht toen Haiku de vermelding afhandelde.

Het probleem is wat deelnemers niet waarnamen.

Ondanks de duidelijke prijskloof, beoordeelden deelnemers met Haiku-agents de eerlijkheid van hun deals bijna hetzelfde als Opus-gebruikers: 4,06 versus 4,05 op de eerlijkheidsschaal.

“Achtentwintig van onze deelnemers hadden Haiku in een Haiku- en Opus-run en Opus in de andere. En hoewel 17 van deze hun Opus-run boven hun Haiku-run rangschikten, deden 11 het tegenovergestelde”, schreef het bedrijf.

Een tweede, meer tegenintuïtieve resultaat: de onderhandelingsstijlen die deelnemers vroegen in hun intake-gesprekken hadden nauwelijks invloed op de resultaten.

Aggressieve verkopers kregen inderdaad hogere prijzen, maar alleen omdat ze hogere openingsprijzen vaststelden om te beginnen, zegt Anthropic.

Aggressieve instructies produceerden geen statistisch significante stijging in verkoopkans, verkoopprijs of aankoopprijs zodra de hogere vraagprijzen die gebruikers vaststelden werden gecontroleerd. Modelkeuze deed er meer toe dan prompting.

Wat Het Betekent voor Agentic Commerce

Project Deal is een proef, geen product, en Anthropic is voorzichtig om de beperkingen te markeren – een zelfgeselecteerd medewerkersbestand, lage inzet, en geen vijandige actoren. Zelfs zo, zei 46 procent van de deelnemers dat ze voor een dergelijke dienst zouden betalen, wat Anthropic ziet als bewijs dat agent-gemedieerde peer-to-peer-commerce niet ver weg is.

Die timing is belangrijk omdat Anthropic Claude duidelijk naar consumententransacties heeft gestuurd. Het bedrijf publiceerde onlangs een blogpost waarin het beloofde om Claude-conversaties reclamevrij te houden, terwijl het expliciet agentic commerce goedkeurde, en het heeft enterprise-infrastructuur zoals Managed Agents opgebouwd om Claude in staat te stellen om namens gebruikers te handelen in diensten van derden. Project Deal komt als een onderzoeksartefact dat stilzwijgend de foutmodi van die toekomst in kaart brengt.

Anthropic markeert drie zorgen die voortkomen uit het experiment. Ten eerste, in een wereld met bedrijven in plaats van vrijwilligers, zouden de stimulansen er heel anders uitzien. Het optimaliseren voor AI-agent-aandacht kan een krachtig instrument worden dat niet noodzakelijkerwijs in het voordeel van mensen werkt.

Ten tweede kan het optimaliseren van systemen voor AI-agent-aandacht – in plaats van menselijke aandacht – nieuwe manipulatieoppervlakken introduceren, waaronder jailbreaking en prompt injection.

Ten derde, “de beleids- en wettelijke kaders rond AI-modellen die namens ons transacties uitvoeren, bestaan nog niet”, schrijft het bedrijf.

De onbeantwoorde vraag is of openbaarmaking de perceptiekloof kan dichten. Deelnemers aan Project Deal wisten niet welk model hen vertegenwoordigde, wat ongeveer de situatie is die gebruikers zullen tegenkomen in elke consumentenroll-out. Als een eerlijkheidskloof tussen Opus en Haiku onzichtbaar is binnen een zelfgeselecteerd Anthropic-werknemersbestand dat een week lang een experiment met $100-inzet uitvoert, zal het waarschijnlijk ook onzichtbaar zijn in grote aantallen – tenzij markten verplicht worden om te openbaren welk agent voor wie handelt en op welk vermogensniveau. Dat is het soort regelgevingsvraag dat Anthropic nu openlijk uitnodigt, en het is de meest waarschijnlijke die het eerst zal landen wanneer agent-gemedieerde commerce het Slack-kanaal in San Francisco verlaat.

Alex McFarland is een AI-journalist en schrijver die de laatste ontwikkelingen op het gebied van kunstmatige intelligentie onderzoekt. Hij heeft samengewerkt met talloze AI-startups en publicaties wereldwijd.