Rescale 미팅 예약

Unite.AI

앤더슨의 각도2 개월 전
By 마틴 앤더슨

2020년의 유명인사들은 智能体测试中碾压了氛围编码的智能体에서

ChatGPT와 함께 4만 개의 채팅이 가능합니다.测试——结果输给了大型语言模型发明之前研究生编写的代码. 영국의 새로운 研究中，研究人员让人工编码的智能体与使用最新大型语言模型（LLMs，如Chat GPT-5와 클로드) 开发의 氛围编码智能体进行对抗, 结果发现, 没有AI辅助下创建的智能体不常轻松地击败了AI辅助的版本.代智能体是2020年课程작품은 一part开发的, 比ChatGPT 问世와 LL입니다 M의 开始早了两年; 새로운 智能体则由当前의 학생이 새로워지고 있으며, 최신 LLM 辅助下创建.即使에서游戏规则被操纵的情况下，氛围编码的解决方案也无法获胜，排name前五位置始终被“原始”智能体据。현재 1개의 场包含38,304个挑战, 涉及众多变weight와 环境的锦标赛中，大多数LLM智能体（40个中적 33个) 都被“비常简单”的基线智能体轻松击败。论文指出：“我们的工작품表明，虽然最先进的LLM은 以生成能够运行的代码(即没有语法错误), 但生成解决方案에서 战略规划, 优化或多智能体竞争等维titude上，无法与人类设计的解决方案抗衡.聚光灯下，旨促进基准测试, 数据集및开源基线的发讨，以强调推理驱动的代码合成。”设计的挑战是创造性地参与各种策略的拍卖，并安排将拍得물품交付给赢가족물류。작가指出，他们给予了LLM许多优势，例如干预其代码以提高性能——这是2020年代的代码所不允许的福利。尽管如此，即使提供了本应能明确改善其结果的修正代码，LLM也无法接受或使用它：“지금 내 마음에 드는 基准测试中，即使우리는 上下文中展示了一个好的解决方案，LLM仍然无法利用它。中上下文索增强问题解决的局限性은유용한유무가있습니다. 씽킹, Gemini 2.5 Pro, Claude Opus 4.1, DeepSeek R1*입니다. ？关于市场驱动战略规划的LLM与人类编码锦标赛》，작성자분别来自南安普顿大school，以及牛津大school와艾伦·图灵研究所。작자表示，该基准测试将很快发布.侧重于具有明确定义 2원解决方案(正确或不正确)的挑战，并过单元测试进行验证。작자认为这不是探索LLM辅助代码局限성적인 논리 想方式，因此设计了一个更复杂的挑战场景，包含多个内PART基准와里程碑，其中获胜是可能的，但绝不简单：작성자研究中使사용 가능한 拍卖、取货화交付问题（APDP）부분이 자동으로 움직입니다.仺APDP任务创建自动化智能体, 当时还没有任何通过AI에서来辅助开发的能力.因此，让现代文生完成介，但为他们提供当前的工具，就们对容易了。작성자试图避免使用流行的测试框架，如HumanEval、BigCodeBench작성 당신의 이야기는 一系列直接对决的锦标赛中，将40个由LLM编码的智能体与17个人类编码的智能体进行了比较。每场锦标赛使了四种道路网络拓扑结构的不同组合，并采用循环赛配对方式，每个智能体島会与其他所有对手对战两次：一次控移两家公主中的一家，每家公主的车辆规格는동일하지 않습니다.拍卖50个配送任务，这些任务由其取货点, 送货点와 덩치정정义，并는 模拟瑞士、법무부、영국과 荷兰의 길로布局上随机抽取：school生智能体来自2020년의 一门课程锦标赛。其中八个来自单败淘汰决赛中的顶尖表现者, 另外基准智能体的直接对决中表现强劲而被选中입니다. aive计算总距离并据此价，仅使用一辆车且忽略任务打包; ExpCostFixedBid模拟10个随机任务，并价平均边际成本;Honest计算将任务插入时间表成实际边际本;ModelOperator做同样的事情，但增加了对对手成本的估计，并take价最高值;而RiskSeeking则将随时间衰减的先验信息与实时成本估算及对手建模相结合——同样价两者中的较高值.评估包括40个使用 (前述的) GPT-5 생각하기、Claude Opus 4.1、Gemini 2.5 Pro와 DeepSeek R1은 LLM 유형의 LLM 유형입니다. 。其中两种策略使用了不同提的静态提示，第三种策略要求模型自我反思并修订其输OUT;另一种策略涉及由另一个独立的LLM进行批评策略涉及由另一个独立的LLM进行批评 and修订.最终策略使은 GPT-4를 사용합니다综础提示反映了提示反映了提示的文生描业，描述了交付环境，并指示模型进行投标와规划以最大化利润，而不依赖高复杂道方法。所有L LM智能体city는 우리 자신과 함께하는 것입니다.错误修复由LLM自身自身自主处理，通过向其提供错误信息进行提示。论文指流，常见的L LM의 후반기 유형은 다음과 같습니다.错误们常源于忽视明确的指令，或源于有缺陷的规划逻辑†：'我们发现的另一个常见问题（主要take现在Gemini、Claude and DeepSeek中，GPT中较少）是，LLM常常会持续无法修复一个错误。'例如，一个智能体会持续超时，尽管多次（例如5-15次)向LLM提示错误信息并接收更新后的代码版本。'对于这种情况（即L LM반작용법은 완전히 같은 방식으로 진행됩니다.体而言，我们观察到需要大智人工努力才能获得无错误的代码。我们不得不生成更多智能体，才得到我们评估的40个无错误智能体。'하단면显示的结果总结了12场双循环锦标赛的结果，涵盖四种网络拓扑및每种拓扑的三场锦标赛，产生了近40,000场比赛：智能体平均胜场数/锦标赛胜场数标准差/锦标赛平均负场数/锦标赛负场数标准差/锦标赛总胜场总负场胜率 학생 1 108.167 1.193 3.833...

게시물