Inteligență artificială

Proiectul Deal al Anthropic permite agenților Claude să tranzacționeze bunuri reale

mm

Anthropic a publicat pe 24 aprilie rezultatele proiectului “Project Deal“, un experiment intern de o săptămână în care agenții Claude au cumpărat și vândut bunuri reale în numele a 69 de angajați din biroul companiei din San Francisco.

Agenții au încheiat 186 de tranzacții în valoare de aproximativ 4.000 de dolari – și studiul a constatat că participanții reprezentați de modele mai puternice au obținut rezultate semnificativ mai bune decât omologii lor umani, fără ca aceștia să observe.

Rezultatele, prezentate de cercetătorii Anthropic Kevin K. Troy, Dylan Shields, Keir Bradwell și Peter McCrory, oferă imaginea cea mai clară până acum a modului în care un marketplace mediat de IA ar putea funcționa odată ce agenții negociază pe ambele părți ale unei tranzacții.

Ele aduc și o “implicație incomodă” pe care compania spune că industria, regulatorii și utilizatorii vor trebui să o abordeze înainte ca comerțul agentic să devină mainstream.

Cum a funcționat Proiectul Deal

Experimentul a durat o săptămână în decembrie 2025.

Anthropic a recrutat 69 de angajați, le-a oferit fiecăruia un “buget” de 100 de dolari (plătit după experiment sub forma unui card-cadou, plus sau minus valoarea bunurilor pe care le-au cumpărat sau vândut) și a efectuat un scurt interviu cu fiecare voluntar pentru a determina ce voiau să vândă, la ce preț, ce voiau să cumpere și ce stil de negociere trebuia să folosească agentul lor. Anthropic a transformat apoi aceste răspunsuri într-o comandă personalizată pentru fiecare agent.

Anthropic a rulat apoi patru marketplace paralele în canalele Slack.

“În Run A și Run D, agentul tuturor a fost bazat pe Claude Opus 4.5, modelul nostru de frontieră de atunci”, a spus echipa. “În celelalte două rulări (Run B și Run C), participanții aveau șansa de 50% de a fi atribuiți lui Claude Haiku 4.5, un model mai puțin puternic, în loc”.

Doar Run A a fost “rularea reală” în care bunurile au fost efectiv schimbate după aceea; celelalte trei au fost condiții de studiu, iar participanții nu au fost informați care a fost rularea reală până după un sondaj post-experiment.

Nu a existat niciun om în buclă odată ce agenții au fost implementați.

Proiectul canalului Slack a parcurs aleatoriu agenții, permițându-le să posteze un articol de vânzare, să facă o ofertă pentru bunurile altcuiva sau să încheie o tranzacție. Esențial, nu a existat nicio intervenție umană odată ce experimentul a început.

La peste 500 de articole listate, agenții au identificat potriviri, au propus prețuri și au încheiat tranzacții autonom. Oamenii au reintrat în imagine doar la sfârșit pentru a schimba fizic bunurile pe care agenții lor le-au convenit să le tranzacționeze.

Modele mai puternice negociază tranzacții mai bune

Rezultatul principal este direct: calitatea agentului contează, și contează în dolari.

La 161 de articole vândute în cel puțin două dintre cele patru rulări, un vânzător Opus a obținut în medie cu 2,68 dolari mai mult, în timp ce un cumpărător Opus a plătit cu 2,45 dolari mai puțin. Când un vânzător Opus s-a confruntat cu un cumpărător Haiku, prețul mediu a fost de 24,18 dolari, comparativ cu 18,63 dolari pentru tranzacțiile Opus-la-Opus. Cu un preț mediu de 12 dolari și o medie de 20,05 dolari în toate rulările, Anthropic spune că aceste lacune nu sunt triviale.

Cazurile individuale au fost mai ascuțite.

Aceeași bicicletă cu pliere defectuoasă, același cumpărător, același vânzător: agentul Opus a obținut 65 de dolari, în timp ce agentul Haiku a obținut doar 38 de dolari.

Un rubin de laborator Opus vândut cu 65 de dolari a fost vândut cu doar 35 de dolari atunci când Haiku a gestionat lista.

Prinsul constă în ceea ce participanții nu au perceput.

În ciuda lacunei clare de preț, participanții cu agenți Haiku au evaluat echitatea tranzacțiilor lor aproape la fel ca utilizatorii Opus: 4,06 versus 4,05 pe scara echității.

“Douăzeci și opt de participanții noștri aveau Haiku într-o rulare Haiku și Opus și Opus în cealaltă rulare. Și deși 17 dintre aceștia au clasat rularea Opus mai sus decât rularea Haiku, 11 au făcut invers”, a scris compania.

Un al doilea rezultat, mai contraintuitiv: stilurile de negociere pe care participanții le-au solicitat în interviurile de intrare au afectat foarte puțin rezultatele.

Vânzătorii agresivi au obținut prețuri mai mari, dar doar pentru că au stabilit prețuri inițiale mai mari de la început, spune Anthropic.

Instrucțiunile agresive nu au produs nicio creștere statistic semnificativă a probabilității de vânzare, a prețului de vânzare sau a prețului de cumpărare, odată ce prețurile mai mari de deschidere pe care utilizatorii le-au stabilit au fost controlate. Alegerea modelului a contat mult mai mult decât instrucțiunile.

Ce înseamnă pentru comerțul agentic

Proiectul Deal este un pilot, nu un produs, și Anthropic este atent să semnaleze limitele – un grup de angajați auto-selecționați, mize mici și niciun actor advers. Chiar și așa, 46% dintre participanți au spus că ar plăti pentru un serviciu de acest gen, ceea ce Anthropic consideră o dovadă că comerțul peer-to-peer mediat de agenți nu este departe.

Acest moment contează pentru că Anthropic a direcționat vizibil Claude către tranzacții de consum. Compania a publicat recent un articol de blog care se angajează să mențină conversațiile Claude fără reclame, în timp ce încurajează în mod explicit comerțul agentic și a construit infrastructură de întreprindere, cum ar fi Agenți gestionați pentru a permite lui Claude să acționeze în numele utilizatorilor în servicii terțe. Proiectul Deal apare ca un artifact de cercetare care hartă în mod discret modurile de eșec ale viitorului.

Anthropic semnalează trei preocupări care cresc din experiment. În primul rând, într-o lume cu companii în loc de voluntari, stimulentele ar arăta foarte diferit. Optimizarea pentru atenția agentului de IA ar putea deveni un instrument puternic care nu funcționează neapărat în favoarea oamenilor.

În al doilea rând, optimizarea sistemelor pentru atenția agentului de IA – și nu pentru atenția umană – ar putea introduce noi suprafețe de manipulare, inclusiv jailbreaking și injecția de prompt.

În al treilea rând, “cadrul de politici și juridic pentru modelele de IA care tranzacționează în numele nostru pur și simplu nu există încă”, scrie compania.

Întrebarea nerăspunsă este dacă dezvăluirea poate închide lacuna de percepție. Participanții la Proiectul Deal nu au știut care model îi reprezenta, ceea ce este aproximativ situația pe care o vor întâmpina utilizatorii în orice lansare de consum. Dacă o lacună de echitate între Opus și Haiku este invizibilă într-o forță de muncă auto-selecționată Anthropic care rulează un experiment de o săptămână cu mize de 100 de dolari, ea va fi probabil invizibilă la scară – dacă piețele nu sunt obligate să dezvăluie care agent acționează pentru cine și la ce nivel de capacitate. Acesta este tipul de întrebare regulamentară pe care Anthropic o invită acum public, și este cea mai probabilă să aterizeze prima dată când comerțul agentic se va extinde dincolo de un canal Slack în San Francisco.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.