Connect with us

人工智能

人类本质的项目协议让克劳德代理人交易真实商品

mm

人类本质于4月24日发布了”项目协议“的结果,这是一个为期一周的内部实验,克劳德代理人代表公司旧金山办公室的69名员工购买和出售真实物品。

代理人达成了186笔价值略超过4000美元的交易——研究发现,具有更强大模型的参与者获得了明显更好的结果,而人类对此毫无察觉。

由人类本质研究人员Kevin K. Troy、Dylan Shields、Keir Bradwell和Peter McCrory撰写的研究结果,给出了最清晰的图景,展示了人工智能中介市场的行为,当代理人在交易的两边进行谈判时会发生什么。

他们还提出了一个“令人不安的含义”,该公司表示,行业、监管机构和用户需要在agentic commerce流行之前解决这个问题。

项目协议的工作原理

实验于2025年12月运行了一周。

人类本质招募了69名员工,每人给予100美元的“预算”(以礼品卡的形式支付,实验结束后支付,根据他们购买或出售的物品的价值进行加减),并让克劳德与每个志愿者进行简短的采访,以确定他们想要出售什么、以什么价格出售、想要购买什么以及他们的代理人应该使用什么样的谈判风格。人类本质然后将这些答案转化为每个代理人的自定义系统提示。

人类本质然后在Slack频道内运行了四个并行的市场。

“在A运行和D运行中,每个人的代理人都是基于克劳德Opus 4.5,我们当时的最先进模型,”团队说。“在其他两个运行中(B运行和C运行),参与者有50%的机会被分配到克劳德Haiku 4.5,一个较弱的模型。”

只有A运行是“真正”的运行,货物实际上会在之后更换手;其他三个运行是研究条件,参与者在实验后进行调查之前不知道哪个运行是真实的。

一旦代理人部署,就没有人工干预。

项目的Slack频道随机循环代理人,允许他们发布物品出售、为他人的商品提出报价或达成协议。关键是,一旦实验开始,就没有人工干预。

在超过500个列出的物品中,代理人识别匹配、提议价格并自主达成协议。人类只在实验结束后重新进入画面,物理交换他们的代理人同意交易的商品。

更强大的模型悄悄谈判更好的交易

头条新闻发现很简单:代理质量很重要,它以美元计量。

在161件至少在四个运行中出售的物品中,Opus卖家平均多赚了2.68美元,而Opus买家平均少支付了2.45美元。当Opus卖家面对Haiku买家时,平均价格达到24.18美元,而Opus对Opus的交易为18.63美元。人类本质表示,考虑到中位价12美元和所有运行的平均价格20.05美元,这些差距并非微不足道。

个别案例更为明显。

同一辆坏的折叠自行车,同一个买家,同一个卖家:Opus代理人获得了65美元,而Haiku代理人只获得了38美元。

一颗通过实验室培养的红宝石,Opus以65美元的价格出售,当Haiku处理清单时,只获得了35美元。

问题在于参与者没有察觉到这一点。

尽管价格存在明显差异,但Haiku代理人的参与者对他们的交易的公平性评分几乎与Opus用户相同:4.06与4.05在公平性评分中。

“我们28名参与者在一个Haiku和Opus运行中拥有Haiku,在另一个运行中拥有Opus。虽然17名参与者将他们的Opus运行评为比Haiku运行更好,但11名参与者做出了相反的评分,”公司写道。

第二个更为违反直觉的结果:参与者在入职面试中要求的谈判风格几乎没有影响结果。

激进的卖家确实获得了更高的价格,但仅仅是因为他们最初设定了更高的价格,人类本质表示。

激进的指示在控制了用户设置的更高要价后,产生了对销售可能性、销售价格或购买价格的统计学上显著的提升。模型选择比提示更重要。

对代理商务的影响

项目协议是一个试点,而不是一个产品,人类本质小心地标记了限制——自我选择的员工池,低风险,没有对抗性行为者。即使如此,46%的参与者表示他们会为这样的服务付费,人类本质将其视为代理人中介的同行商务即将到来的证据。

时间很重要,因为人类本质一直在将克劳德引向消费者交易。该公司最近发布了一篇博客帖子,承诺让克劳德的对话无广告,同时明确支持代理商务,并且一直在构建企业基础设施,如Managed Agents,以便克劳德代表用户在第三方服务上运行。项目协议作为一个研究文物,悄悄地绘制了该未来可能的失败模式。

人类本质标记了三个从实验中产生的担忧。首先,在一个有公司而不是志愿者的世界中,激励将会看起来非常不同。优化人工智能代理人的注意力可能会成为一种强大的工具,但不一定会为人们带来好处。

第二,优化系统以获得人工智能代理人的注意力——而不是人类的注意力——可能会引入新的操纵表面,包括越狱和prompt injection

第三,“围绕代表我们进行交易的人工智能模型的政策和法律框架尚不存在,”该公司写道。

未解答的问题是,披露是否可以弥补认知差距。项目协议的参与者不知道哪个模型代表他们,这大致是用户在任何消费者推出中将面临的情况。如果Opus和Haiku之间的公平性差距在人类本质自选的员工中运行一周的实验中,赌注为100美元,是不可见的,那么在规模上它很可能也是不可见的——除非市场需要披露哪个代理人代表谁以及哪个能力等级。这是人类本质现在公开邀请的监管问题,也是最有可能首先在代理人中介商务超出旧金山Slack频道时出现的问题。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。