2020 bạn có thể làm điều đó một cách dễ dàng
ChatGPT和其他氛围编码工具在近4万场对决中接受了测试——结果输给了大型语言模型发明之前研究生编写的代码。 Trò chuyện LLMs, 如Trò chuyện GPT-5 và Claude)能体非常轻松地击败了AI辅助的版本。这两组智Bạn có thể làm được điều đó?代的学生创建。非AI智能体是2020年课程作业的一部分开发的,比ChatGPT的问世和LL M革命的开始早了两年;而新的智能体则由当前的学生在现有最新、最好的LLM辅助下创建。即使在游戏规则被操纵的情况下,氛围编码的解决方案也无法获胜,排名前五的位置始终被“原始”智能体占据。在一场包含38,304个挑战、涉及众多变量和环境的锦标赛中,大多数LLM智能体(40个中的33个)都被“非常简单”的基线智能体轻松击败。论文指出:“我们的工作表明,虽然最先进的LLM可以生成能够运行的代码(即没有语法错误),但生成的解决方案在战略规划、优化或多智能Bạn có thể làm được điều đó?衡。因此, 这项工作将代码生成的这一新前沿推到了聚光灯下,旨在促进基准测试,数据集和开源基线的发展,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得物Bạn có thể làm điều đó?许多优势,例如干预其代码以提高性能——这是2 020年代的代码所不允许的福利。尽管如此,即使LLM也无法接受或使用它:“在我们的基准测试中,即使我们在上展示了一个好的解决方案, LLM仍然无法利用它。这一结果也引发了关于在复杂场景Một trong những công cụ hỗ trợ là một công cụ hỗ trợ có thể hỗ trợ bạn. Suy nghĩ, Gemini 2.5 Pro, Claude Opus 4.1 và DeepSeek R1*。这篇新论文题为《氛围编码能击败计算机科学研究生吗?关于市场驱动战略规划的LLM与人类编码锦标赛》,作者分别来自南安普顿大学,以及牛津大学和艾伦·图灵研究所。作者表示,该基准测试将很快发布。方法作者指出,该领域的传统测试侧重于具有明确定义二元解决方案(正确或不正确)的挑战,并通过单元测试进行验证。作者认为这不是探索LLM辅助代码局限性的理想方式,因此设计了一个更复杂的挑战场景,包含多个内部基准和里程碑,其中获胜是可能的,但绝不简单:作者研究中使用的拍卖、取货和交付问题(APDP)部分是自行选择的,因为可以获得瑞士大学2020年的学生作业资料库;这些作业旨AI来辅助开发的能力。因此,让现代学相同的任务简介,但为Một trong những công cụ hỗ trợ tốt nhất là者们的评估在一系列直接对决的锦标赛中,将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使用了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式每个智能体都会与其他所有对手对战两次:一次控制两家公司中的一家,每家公司的车辆规格不同。此设置使得每场锦标赛进行了3,192场比赛,总计38,304场比赛。每场比赛中,拍卖50个配送任务,这些任务由其取货点、送货点和重量定义并在模拟瑞士、法国、英国和荷兰的道路布局上随机抽取:学生智能体来自2020年的一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者,另外四个则因其在与基准智能体的直接对决中表现强劲而被选中。基准略。N aive là một công ty có khả năng cung cấp dịch vụ tốt nhất. ExpCostFixedBid模拟10个随机任务,并出价平均边际成本;Honest计算将任务插入时间表的实际边际成本;ModelĐối thủ时间衰减的先验信息与实时成本估算及对手建模相结合——同样GPT-5 Suy nghĩ, Claude Opus 4.1, Gemini 2.5 Pro và DeepSeek R1构建的LLM编码智能体. 。其中两种策略使用了不同作者编写的静态提示, 第三种策略要求模型自我反思并修订其输GPT-4来综合一个新的提示,通过审查所有四种先前的方法。基础提示反映了原始的学生作业,描述了交付环境,并指示模型进行投标和规划以最大化利润,而不依赖高复杂度方法。所有L LM智能体都对弈和锦标赛设置中进行了测试,直到所有可观察到的错误都被修复。错误修复由LLM自身自主处理,通过向其提供错误信息进行提示。论文指出,常见的L LM.错误通常源于忽视明确的指令,或源于有缺陷的重新规划逻辑†:'我们发现的另一个常见问题(主要出现在Gemini,Claude和DeepSeek中,GPT中较少)是, LLM常常会持续无法修复一个错误。'例如,一个智能体会持续超时,尽管多次(例如5-15次)向LLM提示错误信息并接收更新后的代码版本。'对于这种情况(即L LM反复无法修复完全相同的错误),我们找到的唯一解决方案是从头开始重新生成。总体而言, 我们观察到需要大量的人工努力才能获得无错误的代码。我们不得不生成更多的智能体,才得到我们评估的40个无错误智能体。'下面显示的结果总结了12场双循环锦40,000 đô la Mỹ: 智能体 平均胜场数/锦标赛 胜场数标准差/锦标赛 平均负场数/锦标赛负场数标准差/锦标赛 总胜场 总负场 胜率 Sinh viên 1 108.167 1.193 3.833...