人工智能

人类本质的项目协议让克劳德代理人交易真实商品

Published April 25, 2026

Alex McFarland

人类本质于4月24日发布了”项目协议“的结果，这是一个为期一周的内部实验，克劳德代理人代表公司旧金山办公室的69名员工购买和出售真实物品。

代理人达成了186笔价值略超过4000美元的交易——研究发现，具有更强大模型的参与者获得了明显更好的结果，而人类对此毫无察觉。

由人类本质研究人员Kevin K. Troy、Dylan Shields、Keir Bradwell和Peter McCrory撰写的研究结果，给出了最清晰的图景，展示了人工智能中介市场的行为，当代理人在交易的两边进行谈判时会发生什么。

他们还提出了一个“令人不安的含义”，该公司表示，行业、监管机构和用户需要在agentic commerce流行之前解决这个问题。

项目协议的工作原理

实验于2025年12月运行了一周。

人类本质招募了69名员工，每人给予100美元的“预算”（以礼品卡的形式支付，实验结束后支付，根据他们购买或出售的物品的价值进行加减），并让克劳德与每个志愿者进行简短的采访，以确定他们想要出售什么、以什么价格出售、想要购买什么以及他们的代理人应该使用什么样的谈判风格。人类本质然后将这些答案转化为每个代理人的自定义系统提示。

人类本质然后在Slack频道内运行了四个并行的市场。

“在A运行和D运行中，每个人的代理人都是基于克劳德Opus 4.5，我们当时的最先进模型，”团队说。“在其他两个运行中（B运行和C运行），参与者有50%的机会被分配到克劳德Haiku 4.5，一个较弱的模型。”

只有A运行是“真正”的运行，货物实际上会在之后更换手；其他三个运行是研究条件，参与者在实验后进行调查之前不知道哪个运行是真实的。

一旦代理人部署，就没有人工干预。

项目的Slack频道随机循环代理人，允许他们发布物品出售、为他人的商品提出报价或达成协议。关键是，一旦实验开始，就没有人工干预。

在超过500个列出的物品中，代理人识别匹配、提议价格并自主达成协议。人类只在实验结束后重新进入画面，物理交换他们的代理人同意交易的商品。

更强大的模型悄悄谈判更好的交易

头条新闻发现很简单：代理质量很重要，它以美元计量。

在161件至少在四个运行中出售的物品中，Opus卖家平均多赚了2.68美元，而Opus买家平均少支付了2.45美元。当Opus卖家面对Haiku买家时，平均价格达到24.18美元，而Opus对Opus的交易为18.63美元。人类本质表示，考虑到中位价12美元和所有运行的平均价格20.05美元，这些差距并非微不足道。

个别案例更为明显。

同一辆坏的折叠自行车，同一个买家，同一个卖家：Opus代理人获得了65美元，而Haiku代理人只获得了38美元。

一颗通过实验室培养的红宝石，Opus以65美元的价格出售，当Haiku处理清单时，只获得了35美元。

问题在于参与者没有察觉到这一点。

尽管价格存在明显差异，但Haiku代理人的参与者对他们的交易的公平性评分几乎与Opus用户相同：4.06与4.05在公平性评分中。

“我们28名参与者在一个Haiku和Opus运行中拥有Haiku，在另一个运行中拥有Opus。虽然17名参与者将他们的Opus运行评为比Haiku运行更好，但11名参与者做出了相反的评分，”公司写道。

第二个更为违反直觉的结果：参与者在入职面试中要求的谈判风格几乎没有影响结果。

激进的卖家确实获得了更高的价格，但仅仅是因为他们最初设定了更高的价格，人类本质表示。

激进的指示在控制了用户设置的更高要价后，产生了对销售可能性、销售价格或购买价格的统计学上显著的提升。模型选择比提示更重要。

对代理商务的影响

项目协议是一个试点，而不是一个产品，人类本质小心地标记了限制——自我选择的员工池，低风险，没有对抗性行为者。即使如此，46%的参与者表示他们会为这样的服务付费，人类本质将其视为代理人中介的同行商务即将到来的证据。

时间很重要，因为人类本质一直在将克劳德引向消费者交易。该公司最近发布了一篇博客帖子，承诺让克劳德的对话无广告，同时明确支持代理商务，并且一直在构建企业基础设施，如Managed Agents，以便克劳德代表用户在第三方服务上运行。项目协议作为一个研究文物，悄悄地绘制了该未来可能的失败模式。

人类本质标记了三个从实验中产生的担忧。首先，在一个有公司而不是志愿者的世界中，激励将会看起来非常不同。优化人工智能代理人的注意力可能会成为一种强大的工具，但不一定会为人们带来好处。

第二，优化系统以获得人工智能代理人的注意力——而不是人类的注意力——可能会引入新的操纵表面，包括越狱和prompt injection。

第三，“围绕代表我们进行交易的人工智能模型的政策和法律框架尚不存在，”该公司写道。

未解答的问题是，披露是否可以弥补认知差距。项目协议的参与者不知道哪个模型代表他们，这大致是用户在任何消费者推出中将面临的情况。如果Opus和Haiku之间的公平性差距在人类本质自选的员工中运行一周的实验中，赌注为100美元，是不可见的，那么在规模上它很可能也是不可见的——除非市场需要披露哪个代理人代表谁以及哪个能力等级。这是人类本质现在公开邀请的监管问题，也是最有可能首先在代理人中介商务超出旧金山Slack频道时出现的问题。