Connect with us

L’accordo di progetto di Anthropic consente agli agenti Claude di scambiare beni reali

Intelligenza artificiale

L’accordo di progetto di Anthropic consente agli agenti Claude di scambiare beni reali

mm

Anthropic il 24 aprile ha pubblicato i risultati di “Project Deal“, un esperimento interno di una settimana in cui gli agenti Claude hanno acquistato e venduto articoli reali per conto di 69 dipendenti nell’ufficio di San Francisco della società.

Gli agenti hanno concluso 186 accordi del valore di poco più di 4.000 dollari – e lo studio ha scoperto che i partecipanti rappresentati da modelli più forti se la sono cavata con risultati misurabilmente migliori che i loro omologhi umani non avevano notato.

I risultati, scritti dai ricercatori di Anthropic Kevin K. Troy, Dylan Shields, Keir Bradwell e Peter McCrory, forniscono l’immagine più chiara fino ad ora di come potrebbe comportarsi un mercato mediato da AI una volta che gli agenti negoziano su entrambi i lati di una transazione.

Essi portano anche alla luce un'”implicazione scomoda” che la società afferma che l’industria, i regolatori e gli utenti dovranno affrontare prima che il commercio agente diventi mainstream.

Come funziona Project Deal

L’esperimento è stato condotto per una settimana a dicembre 2025.

Anthropic ha reclutato 69 dipendenti, ha dato a ciascuno un “budget” di 100 dollari (pagato dopo l’esperimento sotto forma di buono regalo, più o meno il valore di ciò che hanno acquistato o venduto) e ha fatto sì che Claude conducesse un breve colloquio con ciascun volontario per capire cosa volevano vendere, a quale prezzo, cosa volevano acquistare e che tipo di stile di negoziazione il loro agente avrebbe dovuto utilizzare. Anthropic ha quindi trasformato quelle risposte in un prompt di sistema personalizzato per ciascun agente.

Anthropic ha quindi eseguito quattro mercati paralleli all’interno dei canali Slack.

“Nelle Run A e Run D, l’agente di tutti era basato su Claude Opus 4.5, il nostro modello all’avanguardia all’epoca”, ha detto il team. “Nelle altre due run (Run B e Run C), i partecipanti avevano una possibilità del 50% di essere assegnati a Claude Haiku 4.5, un modello meno potente.”

Solo la Run A era la “vera” run in cui i beni sono stati effettivamente scambiati in seguito; le altre tre erano condizioni di studio e i partecipanti non sono stati informati di quale run fosse reale fino a dopo un sondaggio post-esperimento.

Non c’era un essere umano nel loop una volta che gli agenti sono stati distribuiti.

Il canale Slack del progetto ha scansionato casualmente gli agenti, consentendo loro di pubblicare un articolo in vendita, fare un’offerta per i beni di qualcun altro o siglare un accordo. Crucialmente, non c’è stata alcuna intervento umano una volta iniziato l’esperimento.

Su oltre 500 articoli elencati, gli agenti hanno identificato le corrispondenze, proposto prezzi e chiuso accordi in modo autonomo. Gli esseri umani sono tornati in scena solo alla fine per scambiare fisicamente i beni che i loro agenti avevano concordato di scambiare.

Modelli più forti negoziano accordi migliori in silenzio

La scoperta principale è semplice: la qualità dell’agente conta e conta in dollari.

Su 161 articoli venduti in almeno due delle quattro run, un venditore Opus ha ottenuto in media 2,68 dollari in più, mentre un acquirente Opus ha pagato 2,45 dollari in meno. Quando un venditore Opus si è confrontato con un acquirente Haiku, il prezzo medio ha raggiunto i 24,18 dollari, rispetto ai 18,63 dollari per gli accordi Opus su Opus. Con un prezzo mediano di 12 dollari e un prezzo medio di 20,05 dollari su tutte le run, Anthropic afferma che queste lacune non sono trascurabili.

I casi individuali sono stati più nitidi.

La stessa bicicletta pieghevole rotta, lo stesso acquirente, lo stesso venditore: l’agente Opus ha ottenuto 65 dollari, l’agente Haiku solo 38 dollari.

Un rubino di laboratorio Opus venduto per 65 dollari è stato venduto solo per 35 dollari quando Haiku ha gestito l’elenco.

Il problema è ciò che i partecipanti non hanno percepito.

Nonostante la chiara lacuna di prezzo, i partecipanti con agenti Haiku hanno valutato la correttezza dei loro accordi quasi allo stesso modo degli utenti Opus: 4,06 contro 4,05 nella scala di correttezza.

“Ventotto dei nostri partecipanti hanno avuto Haiku in una run Haiku-Opus e Opus nell’altra. E sebbene 17 di questi abbiano classificato la loro run Opus al di sopra della loro run Haiku, 11 hanno fatto il contrario”, ha scritto la società.

Un secondo risultato più controintuitivo: gli stili di negoziazione che i partecipanti hanno richiesto nei loro colloqui di intake hanno appena influenzato i risultati.

I venditori aggressivi hanno ottenuto prezzi più alti, ma solo perché hanno fissato prezzi di apertura più alti all’inizio, afferma Anthropic.

Le istruzioni aggressive non hanno prodotto alcun aumento statisticamente significativo nella probabilità di vendita, nel prezzo di vendita o nel prezzo di acquisto una volta controllati i prezzi di richiesta più alti che quegli utenti hanno impostato. La scelta del modello ha contato più del prompt.

Cosa significa per il commercio agente

Project Deal è un progetto pilota, non un prodotto, e Anthropic è attenta a segnalare i limiti – un pool di dipendenti auto-selezionati, bassi rischi e nessun attore avversario. Anche così, il 46% dei partecipanti ha affermato che pagherebbe per un servizio del genere, che Anthropic definisce come prova che il commercio peer-to-peer mediato da agenti non è lontano.

Questo timing è importante perché Anthropic ha recentemente pubblicato un post del blog impegnandosi a mantenere le conversazioni di Claude senza pubblicità mentre esplicitamente approva il commercio agente, e sta costruendo infrastrutture aziendali come Managed Agents per consentire a Claude di agire per conto degli utenti su servizi di terze parti. Project Deal atterra come un artefatto di ricerca che silenziosamente mappa i modi di fallimento di quel futuro.

Anthropic segnala tre preoccupazioni che crescono dall’esperimento. In primo luogo, in un mondo con aziende invece di volontari, gli incentivi sembrerebbero molto diversi. Ottimizzare l’attenzione dell’agente AI potrebbe diventare uno strumento potente che non necessariamente funziona a favore delle persone.

In secondo luogo, ottimizzare i sistemi per l’attenzione dell’agente AI – piuttosto che per l’attenzione umana – potrebbe introdurre nuove superfici di manipolazione, compresi il jailbreaking e l’iniezione di prompt.

Terzo, “i quadri politici e giuridici intorno ai modelli AI che transigono per nostro conto semplicemente non esistono ancora”, scrive la società.

La domanda senza risposta è se la divulgazione possa chiudere il divario di percezione. I partecipanti a Project Deal non sapevano quale modello li rappresentava, il che è grosso modo la situazione che gli utenti affronteranno in qualsiasi rollout consumer. Se una lacuna di correttezza tra Opus e Haiku è invisibile all’interno di una forza lavoro di Anthropic auto-selezionata che esegue un esperimento di una settimana con rischi di 100 dollari, sarà probabilmente invisibile su larga scala – a meno che i mercati non siano tenuti a divulgare quale agente agisce per conto di chi e a quale livello di capacità. Questo è il tipo di domanda regolatoria che Anthropic sta ora pubblicamente invitando, ed è quella più probabile che atterri per prima quando il commercio agente si sposta oltre un canale Slack a San Francisco.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.