2020年的人类代码在智能体测试中碾压了氛围编码的智能体
ChatGPT和其他氛围编码工具在近4万场对决中接受了测试——结果输给了大型语言模型发明之前研究生编写的代码。 Chat GPT-5 met Claude)开发的氛围编码智能体进行对抗,结果发现,在没有AI辅助下创建的智能体非常轻松地击败了AI辅助的版本。这两组智能体由瑞士洛桑联邦理工学院人工智能实验室不同年代的学生创建。非AI智能体是2020年课程作业的一部分开发的,比ChatGPT的问世和LL M革命的开始早了两年;而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在Er zijn geen producten gevonden die aan je zoekcriteria voldoen. Meer informatie据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中,大多数LLM智能体(40个中的33个)都被“非常简单”的基线智能体轻松击败。论文指出:“我们的工作表明,虽然最先进的LLM可以生成能够运行的代码(即没有语法错误,,但生成的解决方案在战略规划、优化或多智能体竞争等维度上,无法与人类设计的解决方案相抗衡。因此,这项工作将代码生成的这一新前沿推到了聚光灯下,旨在促进基准测试、数据集和开源基线的发展,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得物LLM许多优势,例如干预其代码以提高性能——这是2020 40年代的代码所不允许的福利。尽管如此,即使LLM也无法接受或使用它:“在我们的基准测试中,即使LLM仍然无法利用它。这一结果也引发了关于在复杂场景GPT-5 Denken, Gemini 2.5 Pro, Claude Opus 4.1 en DeepSeek R1* ?关于市场驱动战略规划的LLM与人类编码锦标赛》,作者分别来自南安普顿大学,以及牛津大学和艾伦·图灵研究所。作者表示,该基准测试将很快发布。方法作者指出,该领域的传统测试侧重于具有明确定义二元解决方案(正确或不正确)的挑战,并LLM辅助代码局限性的理想方式,因此设计了一个更复杂的挑战场景,包含多个内部基准和里程碑,其中获胜是可能的,但绝不简单:作者研究中使用的拍卖、取货和交付问题(APDP)部分是自行选择的,因为可以获得瑞士大学2020年的学生作业资料库;这些作业旨在为APDP任务创建自动化智能体,当时还没有任何通过AI来辅助开发的能力。因此,让现代学生完成相同的任务简介,但为Denk aan HumanEval, BigCodeBench en meer.者们的评估在一系列直接对决的锦标赛中,将40个由LLM编17 jaar geleden用了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式,每个智能体都会与其他所有对手对战两次:一次控制两家公司中的一家,每家公司的车辆规格不同。此设置使得每场锦标赛进Er zijn 3,192 比赛,总计38,304 比赛。每场比赛中,拍卖50个配送任务,这些任务由其取货点、送货点和重量定义并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取:学生Bekijk de resultaten van 2020另外四个则因其在与基准智能体的直接对N aive计算总距离并据此出价,仅使用一辆车且忽略任务打包; ExpCostFixedBid模拟10个随机任务,并出价平均边际成本;Eerlijk计算将任务插入时间表的实际边际成本;Model Tegenstander做同样的事情,但增加了对对手成本的估计,并出价最高值;而Risk Seeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样GPT-5 Denken, Claude Opus 4.1, Gemini 2.5 Pro en DeepSeek R1 is een LLM-programma voor een groot deel van de tijd. 。其中两种策略使用了不同作者编写的静态提示,第三种策略要求模型自我反思并修订其输出;另一种策略涉及由另一个独立的LLM进行批评和修订。最终策略使用GPT-4来综合一个新的提示,通过审查所有四种先前的方法。基础提示反映了原始的学生作业,描述L. LM智能体都在自我对弈和锦标赛设置中进行了测试,直到所有可观察到的错误都被修复。错误修复由LLM自身自主处理,通过向其提供错误信息进行提示。论文指出,常见的L LM故障包括违反超时限制、未能接取或交付分配的任务,以及违反车辆容量约束——这错误通常源于忽视明确的指令,或源于有缺陷的重新规划逻辑†:'我们发现的另一个常见问题(主要出现在Gemini,Claude和DeepSeek中,GPT中较少) Meer informatie例如5-15次)向LLM提示错误信息并接收更新后的代码版本。'对于这种情况(即L LM反复无法修复完全相同的错误),我们找到的唯一解决方案是从头开始重新生成。总体而言,我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体,才得到我们评估的40个无错误智能体。'下面显示的结果总结了12场双循环锦标赛的结果,涵盖四种网络拓扑和每种拓扑的三场锦标赛,产生了近40,000场比赛: 平均胜场数/锦标赛 胜场数标准差/锦标赛 平均负场数/锦标赛Student 1 108.167 1.193 3.833...