Unite.AI

Anderson's Angle1 month ago
By Martin Anderson

2020年的人类代码在智能体测试中碾压了氛围编码的智能体

ChatGPT和其他氛围编码工具在近4万场对决中接受了测试——结果输给了大型语言模型发明之前研究生编写的代码。英国一项新研究中，研究人员让人工编码的智能体与使用最新大型语言模型（LLMs，如ChatGPT-5和Claude）开发的氛围编码智能体进行对抗，结果发现，在没有AI辅助下创建的智能体非常轻松地击败了AI辅助的版本。这两组智能体由瑞士洛桑联邦理工学院人工智能实验室不同年代的学生创建。非AI智能体是2020年课程作业的一部分开发的，比ChatGPT的问世和LLM革命的开始早了两年；而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在游戏规则被操纵的情况下，氛围编码的解决方案也无法获胜，排名前五的位置始终被“原始”智能体占据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中，大多数LLM智能体（40个中的33个）都被“非常简单”的基线智能体轻松击败。论文指出：“我们的工作表明，虽然最先进的LLM可以生成能够运行的代码（即没有语法错误），但生成的解决方案在战略规划、优化或多智能体竞争等维度上，无法与人类设计的解决方案相抗衡。因此，这项工作将代码生成的这一新前沿推到了聚光灯下，旨在促进基准测试、数据集和开源基线的发展，以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖，并安排将拍得物品交付给赢家的物流。作者指出，他们给予了LLM许多优势，例如干预其代码以提高性能——这是2020年代的代码所不允许的福利。尽管如此，即使提供了本应能明确改善其结果的修正代码，LLM也无法接受或使用它：“在我们的基准测试中，即使我们在上下文中展示了一个好的解决方案，LLM仍然无法利用它。这一结果也引发了关于在复杂场景中上下文学习和检索增强问题解决的局限性的有趣未来研究问题。”测试中使用的LLM是GPT-5 Thinking、Gemini 2.5 Pro、Claude Opus 4.1和DeepSeek R1*。这篇新论文题为《氛围编码能击败计算机科学研究生吗？关于市场驱动战略规划的LLM与人类编码锦标赛》，作者分别来自南安普顿大学，以及牛津大学和艾伦·图灵研究所。作者表示，该基准测试将很快发布。方法作者指出，该领域的传统测试侧重于具有明确定义二元解决方案（正确或不正确）的挑战，并通过单元测试进行验证。作者认为这不是探索LLM辅助代码局限性的理想方式，因此设计了一个更复杂的挑战场景，包含多个内部基准和里程碑，其中获胜是可能的，但绝不简单：作者研究中使用的拍卖、取货和交付问题（APDP）部分是自行选择的，因为可以获得瑞士大学2020年的学生作业资料库；这些作业旨在为APDP任务创建自动化智能体，当时还没有任何通过AI来辅助开发的能力。因此，让现代学生完成相同的任务简介，但为他们提供当前的工具，就相对容易了。作者试图避免使用流行的测试框架，如HumanEval、BigCodeBench作者们的评估在一系列直接对决的锦标赛中，将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使用了四种道路网络拓扑结构的不同组合，并采用循环赛配对方式，每个智能体都会与其他所有对手对战两次：一次控制两家公司中的一家，每家公司的车辆规格不同。此设置使得每场锦标赛进行了3,192场比赛，总计38,304场比赛。每场比赛中，拍卖50个配送任务，这些任务由其取货点、送货点和重量定义，并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取：学生智能体来自2020年的一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者，另外四个则因其在与基准智能体的直接对决中表现强劲而被选中。基准智能体遵循固定的启发式策略。Naive计算总距离并据此出价，仅使用一辆车且忽略任务打包；ExpCostFixedBid模拟10个随机任务，并出价平均边际成本；Honest计算将任务插入时间表的实际边际成本；ModelOpponent做同样的事情，但增加了对对手成本的估计，并出价最高值；而RiskSeeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样出价两者中的较高值。评估包括40个使用（前述的）GPT-5 Thinking、Claude Opus 4.1、Gemini 2.5 Pro和DeepSeek R1构建的LLM编码智能体。每个模型被提示使用五种不同的策略，每个模型应用两次。其中两种策略使用了不同作者编写的静态提示，第三种策略要求模型自我反思并修订其输出；另一种策略涉及由另一个独立的LLM进行批评和修订。最终策略使用GPT-4来综合一个新的提示，通过审查所有四种先前的方法。基础提示反映了原始的学生作业，描述了交付环境，并指示模型进行投标和规划以最大化利润，而不依赖高复杂度方法。所有LLM智能体都在自我对弈和锦标赛设置中进行了测试，直到所有可观察到的错误都被修复。错误修复由LLM自身自主处理，通过向其提供错误信息进行提示。论文指出，常见的LLM故障包括违反超时限制、未能接取或交付分配的任务，以及违反车辆容量约束——这些错误通常源于忽视明确的指令，或源于有缺陷的重新规划逻辑†：‘我们发现的另一个常见问题（主要出现在Gemini、Claude和DeepSeek中，GPT中较少）是，LLM常常会持续无法修复一个错误。‘例如，一个智能体会持续超时，尽管多次（例如5-15次）向LLM提示错误信息并接收更新后的代码版本。‘对于这种情况（即LLM反复无法修复完全相同的错误），我们找到的唯一解决方案是从头开始重新生成。总体而言，我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体，才得到我们评估的40个无错误智能体。’下面显示的结果总结了12场双循环锦标赛的结果，涵盖四种网络拓扑和每种拓扑的三场锦标赛，产生了近40,000场比赛：智能体平均胜场数/锦标赛胜场数标准差/锦标赛平均负场数/锦标赛负场数标准差/锦标赛总胜场总负场胜率 Student 1 108.167 1.193 3.833...

Unite.AI

2020年的人类代码在智能体测试中碾压了氛围编码的智能体