2020 год — это лучший результат, который вы можете получить в 2020 году.
ChatGPT используется в формате 4-дюймового почтового ящика с функцией ChatGPT.测试——结果输给了大型语言模型发明之前研究生编写的代码。 英国一项新研究中,研究人员让人工编码的智能体与使用最新大型语言模型(LLM,如Чат GPT-5, Клод, 开, AI, AI, 辅助下, 发的智能体非常轻松地击败了AI辅助的版本。这两组智能体由瑞士洛桑联邦理工学院人工智能实验室不同年代的学生创建。非AI智能体是2020年课程作业的一部分开发的,比ChatGPT的问世和LL M革命的开始早了两年;而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在游戏规则被操纵的情况下,氛围编码的解决方案也无法获胜,排名前五的位置始终被“原始”智能体占据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中,大多数LLM智能体(40个中的33个)都被“非常简单”的基线智能体轻松击败。论文指出:“我们的工作表明,虽然最先进的LLM可以生成能够运行的代码(即没有语法错误),但生成的解决方案在战略规划、优化或多智能体竞争等维度上,无法与人类设计的解决方案相抗衡。因此,这项工作将代码生成的这一新前沿推到了聚光灯下, 旨在促进基准测试、数据集和开源基线的发展,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得物品交付给赢家的物流。作者指出,他们给予了LLM许多优势,例如干预其代码以提高性能——这是2 020 代的代码所不允许的福利。尽管如此,即使提供了本应能明确改善其结果的修正代码, LLM也无法接受或使用它:"在我们的基准测试中, 即使我们在上下文中展示了一个好的解决方案, LLM仍然无法利用它。这一结果也引发了关于在复杂场景LLM, GPT-5, LLM, GPT-5. Thinking, Gemini 2.5 Pro, Claude Opus 4.1 и DeepSeek R1*. ?关于市场驱动战略规划的LLM与人类编码锦标赛》,作者分别来自南安普顿大学,以及牛津大学和艾伦·图灵研究所。作者表示,该基准测试将很快发布。方法作者指出,该领域的传统测试侧重于具有明确定义二元解决方案(正确或不正确)的挑战,并通过单元测试进行验证。作者认为这不是探索LLM辅助代码局限性的理想方式,因此设计了一个更复杂的挑战场景,包含多个内部基准和里程碑,其中获胜是可能的,但绝不简单:作者研究中使用的拍卖、取货和交付问题(APDP)部分是自行选择的,因为可以获得瑞士大学2020年的学生作业资料库;这些作业旨APDP использует APDP в своих целях, чтобы использовать AI.来辅助开发的能力。因此,让现代学生完成相同的任务简介,但为他们提供当前的工具,就相对容易了。作者试图避免使用流行的Программа HumanEval, BigCodeBench作者们的评估在一系列直接对决的锦标赛中,将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使用了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式,每个智能体都会与其他所有对手对战两次:一次控制两家公司中的一家,每家公司的车辆规格不同。此设置使得每场锦标赛进3,192 месяца, 38,304 года, 38,304 года, 3,192 года, 38,304 года,拍卖50个配送任务,这些任务由其取货点、送货点和重量定义,并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取:学生智能体来自2020年的一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者,另外四个则因其在与基准智体的直接对决中表现强劲而被选中。基准智能体遵循固定的启发式策略。N aive计算总距离并据此出价,仅使用一辆车且忽略任务打包; ExpCostFixedBid — это 10-процентная ставка, 并出价平均边际成本;Honest 计算将任务插入时间表的实际边际成做同样的事情,但增加了对对手成本的估计,并出价最高值;而RiskSeeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样出价两者中的较高值。评估包括40个使用(前述的)GPT-5 Thinking, Claude Opus 4.1, Gemini 2.5 Pro и DeepSeek R1, LLM, LLM, LLM, 每个模, 被提示使用五种不, 同的策略, 每个模型应用两次。其中两种策略使用了不同作者编写的静态提示,第三种策略要求模型自我反思并修订其输出;另一种策略涉及由另一个独立的LLM 进行批评和修订。最终策略使用GPT-4综合一个新的提示,通过审查所有四种先前的方法。基础提示反映了原始的学生作业,描述所有L LM может быть использован в качестве поставщика услуг, в том числе и в Китае.错误修复由LLM自身自主处理,通过向其提供错误信息进行提示。论文指出,常见的L LM — 故障包括违反超时限制、未能接取或交付分配的任务, 以及违反车辆容量约束——这些错误通常源于忽视明确的指令,或源于有缺陷的重新规划逻辑†:'我们发现的另一个常见问题(主要出现在Gemini、Claude和DeepSeek中,GPT中较少)是,LLM常常会持续无法修复一个错误。'例如,一个智能体会持续超时,尽管多次(例如5-15 лет) и LLM 提示错误信息并接收更新后的代码版本。'对于这种情况(即L LM работает в режиме реального времени, в режиме реального времени, в режиме реального времени, в режиме реального времени, в режиме реального времени, в режиме реального времени, в режиме реального времени.体而言,我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体,才得到我们评估的40个无错误智能体。'下面显示的结果总结了12场双循环锦Стоимость доставки составляет 40,000 фунтов стерлингов: 智能体 平均胜场数/锦标赛 胜场数标准差/锦标赛 平均负场数/锦标赛负场数标准差/锦标赛 总胜场 总负场 胜率 Студент 1 108.167 1.193 3.833...