2020년의 유명인사들은 智能体测试中碾压了氛围编码的智能体에서
ChatGPT와 함께 4만 개의 채팅이 가능합니다.测试——结果输给了大型语言模型发明之前研究生编写的代码. 영국의 새로운 研究中,研究人员让人工编码的智能体与使用最新大型语言模型(LLMs,如Chat GPT-5와 클로드) 开发의 氛围编码智能体进行对抗, 结果发现, 没有AI辅助下创建的智能体不常轻松地击败了AI辅助的版本.代智能体是2020年课程작품은 一part开发的, 比ChatGPT 问世와 LL입니다 M의 开始早了两年; 새로운 智能体则由当前의 학생이 새로워지고 있으며, 최신 LLM 辅助下创建.即使에서游戏规则被操纵的情况下,氛围编码的解决方案也无法获胜,排name前五 位置始终被“原始”智能体据。현재 1개의 场包含38,304个挑战, 涉及众多变weight와 环境的锦标赛中,大多数LLM智能体(40个中적 33个) 都被“비常简单”的基线智能体轻松击败。论文指出:“我们的工작품表明,虽然最先进的LLM은 以生成能够运行的代码(即没有语法错误), 但生成解决方案에서 战略规划, 优化或多智能体竞争等维titude上,无法与人类设计的解决方案抗衡.聚光灯下,旨促进基准测试, 数据集및开源基线的发讨,以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖,并安排将拍得물품交付给赢가족물류。작가指出,他们给予了LLM许多优势,例如干预其代码以提高性能——这是2020年代的代码所不允许的福利。尽管如此,即使提供了本应能明确改善其结果的修正代码,LLM也无法接受或使用它:“지금 내 마음에 드는 基准测试中,即使우리는 上下文中展示了一个好的解决方案,LLM仍然无法利用它。中上下文索增强问题解决的局限性은유용한유무가있습니다. 씽킹, Gemini 2.5 Pro, Claude Opus 4.1, DeepSeek R1*입니다. ?关于市场驱动战略规划的LLM与人类编码锦标赛》,작성자분别来自南安普顿大school,以及牛津大school와艾伦·图灵研究所。작자表示,该基准测试将很快发布.侧重于具有明确定义 2원解决方案(正确或不正确)的挑战,并过单元测试进行验证。작자认为这不是探索LLM辅助代码局限성적인 논리 想方式,因此设计了一个更复杂的挑战场景,包含多个内PART基准와里程碑,其中获胜是可能的,但绝不简单:작성자研究中使사용 가능한 拍卖、取货화交付问题(APDP)부분이 자동으로 움직입니다.仺APDP任务创建自动化智能体, 当时还没有任何通过AI에서来辅助开发的能力.因此,让现代文生完成介,但为他们提供当前的工具,就们对容易了。작성자试图避免使用流行的测试框架,如HumanEval、BigCodeBench작성 당신의 이야기는 一系列直接对决的锦标赛中,将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使了四种道路网络拓扑结构的不同组合,并采用循环赛配对方式,每个智能体島会与其他所有对手对战两次:一次控移两家公主中的一家,每家公主的车辆规格는동일하지 않습니다.拍卖50个配送任务,这些任务由其取货点, 送货点와 덩치정정义,并는 模拟瑞士、법무부、영국과 荷兰의 길로布局上随机抽取:school生智能体来自2020년의 一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者, 另外基准智能体的直接对决中表现强劲而被选中입니다. aive计算总距离并据此价,仅使用一辆车且忽略任务打包; ExpCostFixedBid模拟10个随机任务,并价平均边际成本;Honest计算将任务插入时间表成实际边际本;ModelOperator做同样的事情,但增加了对对手成本的估计,并take价最高值;而RiskSeeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样价两者中的较高值.评估包括40个使用 (前述 的) GPT-5 생각하기、Claude Opus 4.1、Gemini 2.5 Pro와 DeepSeek R1은 LLM 유형의 LLM 유형입니다. 。其中两种策略使用了不同提的静态提示,第三种策略要求模型自我反思并修订其输OUT;另一种策略涉及由另一个独立的LLM进行批评策略涉及由另一个独立的LLM进行批评 and修订.最终策略使은 GPT-4를 사용합니다综础提示反映了提示反映了提示的文生描业,描述了交付环境,并指示模型进行投标와规划以最大化利润,而不依赖高复杂道 方法。所有L LM智能体city는 우리 자신과 함께하는 것입니다.错误修复由LLM自身自身自主处理,通过向其提供错误信息进行提示。论文指流,常见的L LM의 후반기 유형은 다음과 같습니다.错误们常源于忽视明确的指令,或源于有缺陷的规划逻辑†:'我们发现的另一个常见问题(主要take现在Gemini、Claude and DeepSeek中,GPT中较少)是,LLM常常会持续无法修复一个错误。'例如,一个智能体会持续超时,尽管多次(例如5-15次)向LLM提示错误信息并接收更新后的代码版本。'对于这种情况(即L LM반작용법은 완전히 같은 방식으로 진행됩니다.体而言,我们观察到需要大智人工努力才能获得无错误的代码。我们不得不生成更多智能体,才得到我们评估的40个无错误智能体。'하단면显示的结果总结了12场双循环锦标赛的结果,涵盖四种网络拓扑및每种拓扑的三场锦标赛,产生了近40,000场比赛: 智能体 平均胜场数/锦标赛 胜场数标准差/锦标赛 平均负场数/锦标赛 负场数标准差/锦标赛总胜场 总负场 胜率 학생 1 108.167 1.193 3.833...