Inteligência artificial
Acordo de Projeto da Anthropic Deixa Agentes Claude Trocarem Bens Reais

A Anthropic publicou em 24 de abril os resultados do “Projeto Acordo“, um experimento interno de uma semana em que os agentes Claude compraram e venderam itens reais em nome de 69 funcionários no escritório da empresa em San Francisco.
Os agentes realizaram 186 negócios no valor de pouco mais de $4.000 — e o estudo descobriu que os participantes representados por modelos mais fortes obtiveram resultados significativamente melhores que seus colegas humanos não notaram.
As descobertas, escritas pelos pesquisadores da Anthropic Kevin K. Troy, Dylan Shields, Keir Bradwell e Peter McCrory, dão a visão mais clara até agora de como um mercado mediado por IA pode se comportar quando os agentes estão negociando em ambos os lados de uma transação.
Eles também revelam uma “implicação desconfortável” que a empresa diz que a indústria, reguladores e usuários precisarão enfrentar antes que o comércio agêntico se torne mainstream.
Como Funcionou o Projeto Acordo
O experimento foi realizado durante uma semana em dezembro de 2025.
A Anthropic recrutou 69 funcionários, deu a cada um um “orçamento” de $100 (pago após o experimento na forma de um cartão de presente, mais ou menos o valor do que eles compraram ou venderam) e realizou uma breve entrevista com cada voluntário para descobrir o que eles queriam vender, a que preço, o que eles queriam comprar e que estilo de negociação seu agente deveria usar. A Anthropic então transformou essas respostas em um prompt personalizado para cada agente.
A Anthropic então executou quatro marketplaces paralelos em canais do Slack.
“Na Execução A e Execução D, o agente de todos era baseado no Claude Opus 4.5, nosso modelo de fronteira na época”, disse a equipe. “Nas outras duas execuções (Execuções B e C), os participantes tiveram uma chance de 50% de serem designados para o Claude Haiku 4.5, um modelo menos poderoso”.
Apenas a Execução A foi a “execução real” onde os bens realmente mudaram de mãos depois; as outras três foram condições de estudo e os participantes não foram informados sobre qual execução era real até após uma pesquisa pós-experimento.
Não havia um humano no loop uma vez que os agentes foram implantados.
O canal do Slack do projeto randomizou os agentes, permitindo que eles postassem um item para venda, fizessem uma oferta para os bens de outra pessoa ou selassem um acordo. Crucialmente, não houve intervenção humana uma vez que o experimento começou.
Em mais de 500 itens listados, os agentes identificaram combinações, propuseram preços e fecharam acordos de forma autônoma. Os humanos apenas reentraram no quadro no final para fisicamente trocar os bens que seus agentes haviam concordado em trocar.
Modelos Mais Fortes Negociam Acordos Melhores de Forma Silenciosa
A descoberta principal é direta: a qualidade do agente importa e importa em dólares.
Em 161 itens vendidos em pelo menos duas das quatro execuções, um vendedor Opus obteve em média $2,68 mais, enquanto um comprador Opus pagou $2,45 menos. Quando um vendedor Opus enfrentou um comprador Haiku, o preço médio atingiu $24,18, em comparação com $18,63 para acordos Opus-Opus. Com um preço médio de $12 e uma média de $20,05 em todas as execuções, a Anthropic diz que essas lacunas não são triviais.
Casos individuais foram mais aguçados.
A mesma bicicleta dobrável quebrada, mesmo comprador, mesmo vendedor: o agente Opus obteve $65, o agente Haiku apenas $38.
Um rubi de laboratório Opus vendido por $65 foi vendido por apenas $35 quando o Haiku lidou com a lista.
A pegadinha é o que os participantes não perceberam.
Apesar da clara lacuna de preço, os participantes com agentes Haiku avaliaram a justiça de seus acordos quase da mesma forma que os usuários Opus: 4,06 versus 4,05 na escala de justiça.
“Vinte e oito de nossos participantes tiveram Haiku em uma execução Haiku-Opus e Opus na outra. E embora 17 deles classificassem sua execução Opus acima de sua execução Haiku, 11 fizeram o oposto”, escreveu a empresa.
Um segundo resultado mais contraintuitivo: os estilos de negociação que os participantes pediram em suas entrevistas de intake afetaram pouco os resultados.
Vendedores agressivos obtiveram preços mais altos, mas apenas porque definiram preços iniciais mais altos para começar, diz a Anthropic.
Instruções agressivas produziram nenhum aumento estatisticamente significativo na probabilidade de venda, preço de venda ou preço de compra, uma vez que os preços de pedidos mais altos que esses usuários definiram foram controlados. A escolha do modelo importou muito mais do que o prompt.
O Que Isso Significa para o Comércio Agêntico
O Projeto Acordo é um piloto, não um produto, e a Anthropic é cuidadosa em sinalizar os limites — um grupo de funcionários auto-selecionados, apostas baixas e nenhum ator adversário. Mesmo assim, 46% dos participantes disseram que pagariam por um serviço como este, o que a Anthropic apresenta como evidência de que o comércio peer-to-peer mediado por agente não está longe.
Esse timing é importante porque a Anthropic tem visivelmente direcionado o Claude para transações de consumidor. A empresa recentemente publicou um post de blog comprometendo-se a manter as conversas do Claude sem anúncios, enquanto explicitamente endossa o comércio agêntico, e tem construído infraestrutura de empresa, como Agentes Gerenciados para permitir que o Claude atue em nome dos usuários em serviços de terceiros. O Projeto Acordo chega como um artefato de pesquisa que mapeia silenciosamente os modos de falha desse futuro.
A Anthropic sinaliza três preocupações que crescem a partir do experimento. Primeiro, em um mundo com empresas em vez de voluntários, os incentivos seriam muito diferentes. Otimizar a atenção do agente de IA poderia se tornar uma ferramenta poderosa que não necessariamente funciona a favor das pessoas.
Em segundo lugar, otimizar sistemas para a atenção do agente de IA — em vez da atenção humana — poderia introduzir novas superfícies de manipulação, incluindo jailbreaking e injeção de prompt.
Terceiro, “os quadros políticos e legais em torno de modelos de IA que transacionam em nosso nome simplesmente não existem ainda”, escreve a empresa.
A pergunta sem resposta é se a divulgação pode fechar a lacuna de percepção. Os participantes do Projeto Acordo não sabiam qual modelo os representava, o que é aproximadamente a situação que os usuários enfrentarão em qualquer lançamento de consumidor. Se uma lacuna de justiça entre Opus e Haiku é invisível dentro de uma força de trabalho da Anthropic auto-selecionada que executa um experimento de uma semana com apostas de $100, ela provavelmente será invisível em escala — a menos que os marketplaces sejam obrigados a divulgar qual agente está agindo em nome de quem e em qual nível de capacidade. Essa é a tipo de pergunta regulatória que a Anthropic agora está convidando publicamente, e é a que mais provavelmente chegará primeiro quando o comércio agêntico se move além de um canal do Slack em San Francisco.












