私達ず接続

2020幎のヒュヌマンコヌドがバむブコヌド゚ヌゞェントを゚ヌゞェントテストで圧倒

アンダヌ゜ンの芖点

2020幎のヒュヌマンコヌドがバむブコヌド゚ヌゞェントを゚ヌゞェントテストで圧倒

mm
AI 生成画像: ビクトリア朝時代の銬車ず銬が珟代のレヌスカヌの競争盞手を盞手にフォヌミュラ 1 で優勝しおいたす。gpt-image-1。

ChatGPT やその他のバむブコヌディング ツヌルは、玄 40,000 件のマッチでテストされたしたが、倧芏暡蚀語モデルの発明前に曞かれた倧孊院生のコヌドに負けたした。

 

英囜の新しい研究では、研究者らは人間がコヌド化した゚ヌゞェントず バむブコヌド 最新の倧芏暡蚀語モデルLLM研究者たちは、ChatGPT-5 や Claude などの新しいタむプの゚ヌゞェントをテストし、AI の支揎なしで䜜成された゚ヌゞェントが AI を掻甚したバヌゞョンを非垞に簡単に打ち負かすこずを発芋したした。

䞡゚ヌゞェントセットは、スむス連邊工科倧孊ロヌザンヌ校人工知胜研究所の異なる䞖代の孊生によっお䜜成されたした。非AI゚ヌゞェントは、ChatGPTの誕生ず法孊修士課皋LLM革呜の始たりの2幎前、2020幎に授業の䞀環ずしお開発されたした。䞀方、新しい゚ヌゞェントは、最新か぀最高の法孊修士課皋LLMの支揎を受けお、珟圚圚籍する孊生によっお䜜成されたした。

䞍正操䜜されたゲヌムであっおも、バむブコヌド化された゜リュヌションは勝぀こずができず、䞊䜍 5 䜍は䞀貫しお「未加工の」゚ヌゞェントによっお占められ、LLM ゚ヌゞェントの倧倚数 (40 個䞭 33 個) は、さたざたな倉数ず状況を䌎うトヌナメントでの 38,304 回のチャレンゞで、「非垞に単玔な」ベヌスラむン ゚ヌゞェントに簡単に打ち負かされたした。

論文は次のように述べおいたす。

「私たちの研究は、最先端の LLM は実行可胜なコヌド (぀たり、構文゚ラヌのないコヌド) を生成できるものの、生成された゜リュヌションは、戊略蚈画、最適化、マルチ゚ヌゞェント競争などの偎面で人間が蚭蚈した゜リュヌションず競合できないこずを瀺しおいたす。

「したがっお、この研究はコヌド生成におけるこの新たな領域を最前線にもたらし、掚論䞻導のコヌド合成を重芖するベンチマヌク、デヌタセット、オヌプン゜ヌスのベヌスラむンの開発を促進するこずを目指しおいたす。」

考案された課題は、さたざたな戊略を駆䜿しおオヌクションに創造的に参加し、萜札した商品を萜札者に届ける物流を手配するこずでした。

著者らは、LLMには、パフォヌマンス向䞊のためにコヌドに介入するなど、倚くの利点が䞎えられおいたず指摘しおいる。これは2020幎版のコヌドでは認められおいない利点である。にもかかわらず、結果を確実に改善する修正コヌドが提䟛されたずしおも、LLMはそれを受け入れたり、掻甚したりするこずができない。

「私たちのベンチマヌクでは、コンテキスト内で優れた゜リュヌションを公開しおも、LLM はそれを利甚できたせん。

「この結果は、耇雑なシナリオにおける文脈内孊習ず怜玢匷化問題解決の限界に関する、今埌の興味深い研究課題も提起しおいたす。」

テストに䜿甚されたLLMは GPT-5の思考, ゞェミニ 2.5 プロ, クロヌド・オヌパス4.1、ず ディヌプシヌクR1*.

圓孊校区の 新しい玙 ずいうタむトルです バむブコヌディングはコンピュヌタサむ゚ンス倧孊院生に勝おるか垂堎䞻導型戊略プランニングにおける法孊修士課皋LLM察人間コヌディングトヌナメントは、サりサンプトン倧孊の著者ず、オックスフォヌド倧孊およびアラン・チュヌリング研究所の著者によっお発衚された。著者らによるず、このベンチマヌクは たもなくリリヌス.

方法

著者らは、この分野における埓来のテストは、明確に定矩されたバむナリ゜リュヌションを持぀課題に焊点を圓おおいるず指摘しおいる正しい or 正しくありたせん、怜蚌枈み 単䜓テスト著者らは、これはLLM支揎コヌドの限界を探る理想的な方法ではないず䞻匵し、代わりに耇数の内郚ベンチマヌクずマむルストヌンを備えた、より耇雑なチャレンゞシナリオを考案した。このシナリオでは、勝利は可胜だが決しお単玔ではない。

暙準的なナニットテストベヌスのアプロヌチ䞊ず、著者らが考案したよりオヌプン゚ンドなチャレンゞシナリオ䞋、青字の比范。出兞 [ https://arxiv.org/pdf/2511.20613 ]

暙準的な単䜓テスト ベヌスのアプロヌチ (侊) ず、著者が考案したよりオヌプン゚ンドなチャレンゞ シナリオ (䞋、青) の比范。 ゜ヌス

著者らの研究で䜿甚されたオヌクション・集荷・配送問題APDPは、スむスの倧孊が2020幎に䜜成した孊生の課題集が利甚可胜であったため、郚分的に自䞻的に遞択されたものでした。この課題は、AIによる開発の促進が可胜になる以前に、APDPタスク甚の自動゚ヌゞェントの䜜成を目指したものでした。そのため、珟代の孊生に同じ課題を䞎え、最新のツヌルを利甚するこずは比范的容易でした。

著者らは、次のような䞀般的なテストフレヌムワヌクを避けようずした。 HumanEval, ビッグコヌドベンチ および WebDevアリヌナ 他にも倚くの䟋がありたすがこの皮のテスト手順はデヌタ汚染぀たり、システムが テストデヌタでトレヌニング 尊重する代わりに split).

APDPは、以䞋の2段階のロゞスティクス問題に基づいおいたす。 逆オヌクション および 配車ルヌト最初の段階では、゚ヌゞェントは各配送タスクの完了に察しお支払われるべき金額を入札するこずで、タスクの獲埗を競いたす。入札額が高すぎるずタスクの獲埗が難しくなり、䜎すぎるず損倱に぀ながる可胜性がありたす。

第 2 段階では、各゚ヌゞェントは、時間ずリ゜ヌスの制玄䞋で、獲埗したタスクのみを、容量ずコストが異なる車䞡に割り圓おお、達成するための効率的な蚈画を䜜成する必芁がありたす。

APDP では、䌁業は配送タスクの逆オヌクションで入札し、獲埗したタスクのみを実行するように車䞡ルヌトを最適化しお、利益の最倧化を目指したす。

APDP では、䌁業は配送タスクの逆オヌクションで入札し、獲埗したタスクのみを実行するように車䞡ルヌトを最適化しお、利益の最倧化を目指したす。

目暙は、単にタスクを完了するこずではなく、どのタスクの組み合わせが最も効果的かを予枬し、同じこずをしようずしおいる競合他瀟の戊略を予枬するこずで、党䜓的な利益を最倧化するこずです。

APDP ベンチマヌクは、䞀連の盞互䟝存オヌクションに戊略的蚈画を導入し、各入札が将来の遞択肢の状況を再圢成するこずで、コヌド生成タスクの難易床を高めたす。そのため、゚ヌゞェントは、即時のコストだけでなく、䜍眮、タむミング、長期的な結果に぀いおも掚論する必芁がありたす。

配達の根本的な問題は NPハヌド぀たり、タスク数が増えるに぀れお、いかなるアルゎリズムも劥圓な時間内に最適な解を確実に芋぀けるこずはできない。そのため、総圓たり法は実行䞍可胜なアプロヌチずなり、゚ヌゞェントは粟床ず速床を犠牲にせざるを埗なくなる。

レヌスは始たっおいたす

著者らの評䟡では、40個のLLMコヌド゚ヌゞェントず17個の人間コヌド゚ヌゞェントを䞀連の盎接察決トヌナメントで比范した。12のトヌナメントではそれぞれ4皮類の道路網トポロゞヌの異なる組み合わせが䜿甚され、 オヌルプレむオヌル ゚ヌゞェントは他のすべおの察戊盞手ず 2 回察戊したす。1 回は、異なる車䞡仕様を持぀ 2 ぀の䌚瀟をそれぞれ制埡したす。

この蚭定により、トヌナメントごずに3,192詊合、合蚈38,304詊合が行われたした。各詊合では、集荷・配達地点ず重量によっお定矩された50の配達タスクがオヌクションにかけられ、スむス、フランス、むギリス、オランダをモデルにした道路レむアりト䞊でランダムに抜遞されたした。

トヌナメントで䜿甚される簡略化された道路網むギリス巊䞊、スむス右䞊、オランダ巊䞋、フランス右䞋。青ず赀の四角は集荷ず配達のタスクを瀺したす。色付きの䞉角圢ぱヌゞェントの車䞡の珟圚䜍眮を瀺したす。

トヌナメントで䜿甚される簡略化された道路網むギリス巊䞊、スむス右䞊、オランダ巊䞋、フランス右䞋。青ず赀の四角は集荷ず配達のタスクを瀺したす。色付きの䞉角圢ぱヌゞェントの車䞡の珟圚䜍眮を瀺したす。

孊生゚ヌゞェントは2020幎のコヌストヌナメントから遞出されたした。シングル゚リミネヌション決勝で䞊䜍の成瞟を収めた8名ず、ベヌスラむン゚ヌゞェントずの盎接察決で優れた成瞟を収めた4名が遞出されたした。

ベヌスラむン゚ヌゞェントは固定された ヒュヌリスティック. ナむヌブ 1 台の車䞡のみを䜿甚し、バッチ凊理を無芖しお合蚈距離を蚈算し、それに応じお入札したした。 ExpCostFixedBid 10 個のランダムなタスクをシミュレヌトし、平均限界費甚を入札したした。 正盎な タスクをスケゞュヌルに挿入する際の実際の限界費甚を蚈算したした。 モデル察戊盞手 同じこずをしたが、盞手のコストの芋積もりを远加し、最倧額を入札した。 リスクシヌキング 時間枛衰事前分垃ずラむブコスト掚定および察戊盞手のモデリングを組み合わせ、ここでも 2 ぀のうち高い方を入札したした。

評䟡には、前述のGPT-5 Thinking、Claude Opus 4.1、Gemini 2.5 Pro、DeepSeek R1を䜿甚しお構築されたLLMコヌド化゚ヌゞェント40䜓が含たれたした。各モデルには5぀の異なる戊略が提瀺され、モデルごずに2回ず぀適甚されたした。

2぀の戊略では、異なる著者によっお曞かれた静的なプロンプトを䜿甚し、3぀目の戊略ではモデルに自己反省ず出力の修正を求め、さらに別の戊略では別の法孊修士による批評ず修正を実斜した。最埌の戊略では、GPT-4を甚いお、4぀の先行アプロヌチすべおをレビュヌするこずで、新しいプロンプトを合成した。

基本プロンプトは元の孊生の課題を反映したもので、非垞に耇雑な方法に頌るこずなく、配信環境を説明し、モデルに入札しお利益を最倧化するための蚈画を立おるように指瀺したす。

すべおのLLM゚ヌゞェントは、セルフプレむずトヌナメントの䞡方の蚭定で、芳察可胜なバグがすべお修正されるたでテストされたした。バグ修正は、゚ラヌ情報に基づいおLLM自身によっお自埋的に凊理されたした。

論文によるず、䞀般的なLLMの倱敗には、タむムアりト制限の違反、割り圓おられたタスクの受け取りたたは配達の倱敗、車䞡容量制限の違反などがあり、これらの゚ラヌは、明瀺的な指瀺を無芖したり、誀った再蚈画ロゞックから発生するこずが倚い。†:

私たちが発芋したもう 1 ぀の䞀般的な問題 (䞻に Gemini、Claude、DeepSeek で発生し、GPT ではそれほど倚くありたせん) は、LLM がバグを解決できないこずが頻繁に発生するこずです。

たずえば、゚ヌゞェントは、LLM に゚ラヌを通知しお曎新されたバヌゞョンのコヌドを受信するサむクルを耇数回 (たずえば 5  15 回) 実行したにもかかわらず、䞀貫しおタむムアりトしたす。

「このような状況LLMが繰り返し同じバグを解決できない状況に察しお私たちが芋぀けた唯䞀の解決策は、 れロからやり盎す党䜓的に、私たちは バグのないコヌドを実珟するための倚倧な手䜜業評䟡察象ずしたバグのない゚ヌゞェント 40 個を取埗するには、盞圓倚くの゚ヌゞェントを生成する必芁がありたした。」

以䞋に瀺す結果は、4 ぀のネットワヌク トポロゞずトポロゞごずに 3 ぀のトヌナメントにたたがり、40,000 詊合のベスト パヌトを生成した 12 のダブル ラりンドロビン トヌナメントの結果をたずめたものです。

゚ヌゞェント 平均勝利数 / ツアヌ SD #勝利数 / ツアヌ 平均敗北数 / ツアヌ SD #敗北 / ツアヌ 合蚈勝利数 総損倱 勝率
孊生1 108.167 1.193 3.833 1.193 1298 46 0.9658
孊生2 104.917 2.539 7.083 2.539 1259 85 0.9368
孊生3 103.917 2.466 8.083 2.466 1247 97 0.9278
孊生4 103.25 1.815 8.75 1.815 1239 105 0.9219
孊生5 96.5 2.908 15.5 2.908 1158 186 0.8616
LLM(O, IR, 1) 95.417 2.314 16.583 2.314 1145 199 0.8519
LLM(O, A2, 1) 94.583 2.314 17.417 2.314 1135 209 0.8445
孊生6 93.167 1.899 18.833 1.899 1118 226 0.8318
孊生7 93.167 3.563 18.833 3.563 1118 226 0.8318
LLM(O, A1, 1) 86.083 3.029 25.917 3.029 1033 311 0.7686
LLM(O, GEN, 2) 84.083 6.947 27.917 6.947 1009 335 0.7507
LLM(O, CR, 2) 83.5 4.442 28.5 4.442 1002 342 0.7455
孊生8 83.417 4.122 28.583 4.122 1001 343 0.7448
リスクシヌキング 82.417 3.343 29.583 3.343 989 355 0.7359
LLM(O, GEN, 1) 80.667 4.355 31.25 4.372 968 375 0.7208
モデル察戊盞手 80.583 3.26 31.417 3.26 967 377 0.7195
法孊修士(D, A1, 1) 79.417 3.965 32.583 3.965 953 391 0.7091
ExpCostFixedBid 77.167 4.951 34.833 4.951 926 418 0.689
LLM(O, IR, 2) 73.917 3.502 38 3.618 887 456 0.6605
LLM(O, A1, 2) 72.417 2.193 39.583 2.193 869 475 0.6466
LLM(G、A1、2) 68.5 3.555 43.5 3.555 822 522 0.6116
LLM(A, GEN, 2) 67.917 2.968 44.083 2.968 815 529 0.6064
LLM(G, IR, 2) 65.917 2.314 46.083 2.314 791 553 0.5885
孊生9 64.167 11.044 47.833 11.044 770 574 0.5729
LLM(G、A1、1) 64 4.243 47.917 4.316 768 575 0.5719
LLM(G, IR, 1) 60.333 3.725 51.667 3.725 724 620 0.5387
LLM(O, A2, 2) 59.333 4.499 52.667 4.499 712 632 0.5298
LLM(D, CR, 1) 55.083 6.694 56.833 6.59 661 682 0.4922
LLM(G, GEN, 2) 53.167 3.664 58.833 3.664 638 706 0.4747
LLM(D, GEN, 2) 52.083 9.06 59.917 9.06 625 719 0.465
正盎な 50.583 3.848 61.417 3.848 607 737 0.4516
孊生10 48.833 2.98 63.167 2.98 586 758 0.436
LLM(D, IR, 1) 48.583 10.211 63.417 10.211 583 761 0.4338
LLM(A、A1、1) 48 4.69 64 4.69 576 768 0.4286
LLM(G、A2、1) 47.25 3.864 64.75 3.864 567 777 0.4219
LLM(A, CR, 1) 43.833 4.609 68.167 4.609 526 818 0.3914
LLM(A、A1、2) 43.75 2.05 68.25 2.05 525 819 0.3906
孊生11 42.083 5.664 69.917 5.664 505 839 0.3757
LLM(A, IR, 1) 39.5 2.541 72.5 2.541 474 870 0.3527
ナむヌブ 36.75 1.712 75.25 1.712 441 903 0.3281
孊生12 36.333 1.775 75.667 1.775 436 908 0.3244
法孊修士(D, A2, 1) 33.917 2.193 78.083 2.193 407 937 0.3028
LLM(A, GEN, 1) 30.167 1.749 81.833 1.749 362 982 0.2693
法孊修士(D, A2, 2) 29.833 2.038 82.167 2.038 358 986 0.2664
LLM(G、A2、2) 27 2.256 85 2.256 324 1020 0.2411
LLM(A、A2、1) 26.333 0.985 85.667 0.985 316 1028 0.2351
LLM(O, CR, 1) 25 3.411 87 3.411 300 1044 0.2232
LLM(A, IR, 2) 24.333 8.542 87.667 8.542 292 1052 0.2173
LLM(A、A2、2) 24 1.809 88 1.809 288 1056 0.2143
LLM(A, CR, 2) 23.333 1.557 88.667 1.557 280 1064 0.2083
LLM(D, GEN, 1) 22.5 1.784 89.5 1.784 270 1074 0.2009
法孊修士(D, A1, 2) 13.333 1.826 98.667 1.826 160 1184 0.119
LLM(G, CR, 1) 9.5 1.087 102.5 1.087 114 1230 0.0848
LLM(G, GEN, 1) 9.167 0.937 102.833 0.937 110 1234 0.0818
LLM(D, IR, 2) 7.75 0.622 104.25 0.622 93 1251 0.0692
LLM(G, CR, 2) 7.25 1.422 104.75 1.422 87 1257 0.0647
LLM(D, CR, 2) 5.667 0.985 106.333 0.985 68 1276 0.0506

各゚ヌゞェントはトヌナメントごずに112詊合をプレむしたため、゚ヌゞェントあたりの勝敗数の最倧平均は112です。暙準偏差SDはトヌナメント間の倉動を反映しおいたす。人間がコヌディングした゚ヌゞェントは倪字で衚瀺されたす。LLMコヌディングされた゚ヌゞェントは、モデルO = GPT-5 Thinking、G = Gemini 2.5 Pro、A = Claude Opus 4.1、D = DeepSeek R1ごずにラベル付けされ、その埌に2文字のプロンプト戊略コヌドず、そのプロンプトで生成された最初の゚ヌゞェントか2番目かを瀺す数字が続きたす。 ゜ヌス

䞊蚘の結果に関しお、著者らは次のように述べおいる。†:

「LLMは、APDP問題のより単玔な倉皮においおさえ、期埅通りの、あるいは競争力のあるコヌドを生成したせんでしたコヌドはほが構文バグがないにもかかわらず。これは、自動補完を超えおLLMの新たな匱点を特定する、掚論駆動型コヌド評䟡ベンチマヌクの重芁性を匷調しおいたす。」

「私たちの結果は、人間がコヌド化した゚ヌゞェントの明らかな優䜍性を瀺しおいたす。(i) 䞊䜍5䜍は垞に孊生゚ヌゞェントが占めおいる、および (ii) LLM゚ヌゞェントの倧郚分40のうち33は、非垞に単玔なベヌスラむン゚ヌゞェントに負けおいたす。 予想コスト固定入札など。

「重芁なのは、孊生のコヌドをデバッグしなかったこずですLLMのコヌドは、セルフプレむずトヌナメントの䞡方で培底的にテスト・デバッグしたした。孊生゚ヌゞェントがクラッシュするたびに、自動的にLLMに勝利を䞎えたした。これらのクラッシュの倚くは簡単に修正できたす゚ヌゞェントのタむムアりトなど。そのため、孊生゚ヌゞェントは さらに䞊䜍にランクむン。 '

さらなる実隓ずしお、GPT-5 Thinkingは、最高のパフォヌマンスを発揮した人間の゚ヌゞェントのコヌドを改善するように促されたした。 孊生1しかし、LLMによっお修正された゚ヌゞェントはその埌10䜍に萜ち、人間のスコアの䞭で最悪のスコアずなりたした。LLMの倉曎は、解を向䞊させるどころか、20%近くも䜎䞋させおしたったのです。

著者らは結論する

「[私たちの]研究結果は、LLMコヌド生成における重芁な限界、特に生成時の掚論および蚈画胜力の限界を浮き圫りにしたした。珟代のLLMは構文バグのない実行可胜なコヌドを生成できたすが、それは高床な汎甚AIに向けた進歩を枬るためのベンチマヌクずしおは適切ではありたせん。」

結論

著者らは論文の終盀で、バむブコヌディングがあらゆる技術的背景を持぀人々に力を䞎えおきたず述べ、その実践を「平等化の力」ずしお肯定的に評䟡しおいる。しかし同時に、バむブコヌディングは登堎したばかりであるため、その限界は䞍明であり、珟実的に予想されるよりもかなり高い可胜性があるず瀺唆しおいる。

圌らは目暙の転換を呌びかけるこずで提案を締めくくった。コンパむルされるコヌドから競合するコヌドぞ.

この興味深い新しい論文をたたたた読んだ人が抱く疑問の䞀぀は、著者らが䞊を狙っおいるのか䞋を狙っおいるのか、ずいうこずだ。なぜなら、問題の゚ヌゞェントタスクは、PowerShell スクリプトやその他の圢匏の小さな機胜や修正を吐き出すこずよりも、はるかに耇雑で蟌み入っおおり、バむブコヌディングが適しおいるからだ。

 

* この論文では「ディヌプ考える 「R1」ずいう名前は存圚しないようですが、むンタヌネット䞊ではほんの数件の参考文献しか芋぀かりたせんおそらく他の著者が「DeepSeek R1」ず誀っお衚蚘したものず思われたす。もしこれが私の誀りであれば、プロフィヌルからご連絡ください。修正いたしたす。

† 匷調は著者のものであり、私のものではありたせん。

最初に公開されたのは、2025 幎 11 月 26 日氎曜日です。フォヌマットのため、17:35 EST に修正されたした。

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai