AIの役割が拡大すると「雰囲気コーディング」は苦しむ
新しい研究によると、人間が指示を与えると雰囲気コーディングは向上するが、AIが指示を与えると低下する。最適なハイブリッド構成は、人間を最優先とし、AIを調停者または審判として機能させることだ。 AIシステムが人間の指示を単に実行するのではなく、雰囲気コーディングを主導することを許された場合に何が起こるかを調査した米国からの新しい研究は、大規模言語モデル(LLM)がより大きな方向性決定の役割を担うと、結果がほぼ常に悪化することを発見した。研究者らは人間とAIの共同実験の枠組みとしてOpenAIのGPT-5を使用したが、後にAnthropicのClaude Opus 4.5とGoogle Gemini 3 Proも、責任が増すにつれて同じ悪化曲線に従うことを確認し、「限定的な人間の関与でさえ、着実にパフォーマンスを向上させる」と述べている:「[人間は] 反復を跨いで他に類を見ない効果的な高レベルのガイダンスを提供するが、[一方で] AIによるガイダンスはしばしばパフォーマンスの崩壊につながる。また、人間が方向性を担当し、評価をAIに委ねる注意深い役割分担が、ハイブリッドのパフォーマンスを向上させうることもわかった。」人間とAIの両方によって平等に評価できる一貫したテストを提供するため、反復的なコーディングタスクを中心に制御された実験フレームワークが構築された。このタスクでは、猫、犬、虎、鳥、象、ペンギン、サメ、シマウマ、キリン、パンダの写真を含む参照画像を、スケーラブルベクターグラフィックス(SVG)を使用して再現し、その再現を元の写真ソースと比較して評価するものだった:各ラウンドで、1つのエージェントがコードジェネレーターを導くための高水準の自然言語指示を提供し、別のエージェントが新しいバージョンを保持するか前のバージョンに戻すかを決定した。これは実際の共同ワークフローを反映する構造化されたループである。604人の参加者と数千回のAPI呼び出しを含む16の実験を通じて、完全に人間主導のテストラウンドと完全にAI主導のラウンドが、それ以外は同一の条件下で直接比較された。テスト開始時のベースラインでは人間とAIは同程度のパフォーマンスを示したが、時間の経過とともにその軌道は分岐した:人間が指示を提供し選択決定を行う場合、類似性スコアは反復を重ねるごとに上昇し、着実な累積的改善が見られた。しかし、AIシステムが両方の役割を担う場合、パフォーマンスには一貫した向上が見られず、しばしばラウンドを経るごとに低下した。同じ基盤モデルがコード生成に使用され、AIも人間の参加者と同じ情報にアクセスできたにもかかわらず、である。冗長性効果結果はまた、人間の指示は通常、短く行動指向であり、現在の画像で次に何を変更すべきかに焦点を当てていることを示した。逆に、AIの指示ははるかに長く、非常に記述的で(この要因はGPT-5向けにパラメータ化されていた)、段階的な修正を優先するのではなく、視覚的属性を詳細に説明していた。しかし、以下のグラフに見られるように、AIの指示に厳格な単語数の制限を課してもこのパターンは逆転せず、10語、20語、30語に制限された場合でも、AI主導のチェーンは時間の経過とともに改善しなかった:ハイブリッド実験によりこのパターンはより明確になり、わずかでも人間の関与を加えると、完全にAI主導のセットアップと比較して結果が改善されることが示された。しかし、AIガイダンスの割合が増加するにつれて、パフォーマンスは通常低下した。役割が分離された場合、評価と選択は比較的品質を損なうことなくAIに委ねることができた。しかし、人間の高水準指示をAIガイダンスに置き換えると、パフォーマンスの顕著な低下が生じた。これは、最も重要なのは誰がコードを生成したかではなく、反復を跨いで誰が方向性を設定し維持したかであることを示唆している。著者らは結論付けている:「複数の実験を通じて、人間主導のコーディングは反復を重ねるごとに一貫して改善したが、AI主導のコーディングは同じ情報と同様の実行能力にアクセスできたにもかかわらず、しばしば崩壊した。これは、成功した雰囲気コーディングに必要な種類の、繰り返される相互作用にわたって首尾一貫した高水準の方向性を維持するという点で、今日のAIシステムが直面する重要な課題を指し示している。」この新しい論文はWhy Human Guidance Matters in Collaborative Vibe Codingと題され、コーネル大学、プリンストン大学、マサチューセッツ工科大学、ニューヨーク大学に跨る7人の研究者によるものである。方法実験では、人間のインストラクターがGPT-5で生成された動物の参照写真と、最新の関連するSVG模倣試作品を見た。その後、コードジェネレーターをより近い一致へと導くための自然言語指示を書いた。こうして、ジェネレーターは各ラウンドで新しいSVGを生成し、ガイダンスの効果が時間の経過とともにどのように蓄積するかをテストするための反復ループを提供した。ターゲットはGPT-5で生成された10枚の動物画像で、形状と質感の範囲をカバーしており、改善や誤りを容易に検出できるようにした:人間のセレクターは、新しく生成された各SVGを前のものと比較し、それを受け入れるか拒否した。これにより、プロセスはラウンドを跨いで参照画像に沿ったものに保たれた。このベースライン設定では、同じ人間が両方の役割を担った。品質を測定するために、独立した人間の評価者が各生成SVGが参照画像にどれだけ類似しているかを評価した。16の実験を通じて、120人が4,800件の評価を生成した。すべての実験は、人間とAIシステムの間の構造化された相互作用に対応するために設計されたポータルであるPsyNetフレームワーク上で実行された。この研究では604人の英語母語話者を募集し、コード生成に4,800回、指示生成に5,327回のAPI呼び出しを消費するテストが行われた。GPT-5が主に使用されたモデルだが、Claude Opus 4.5とGemini 3 Proを使用した小規模な比較バッチも作成され、それぞれが280件のクエリを処理した。結果30ラウンドの雰囲気コーディングが実行され、それぞれが中核となる10枚の参照画像に対する15回の編集で構成された。これらには45人の人間参加者が選ばれ、各参加者が「人間主導」ラウンドにおいて10回の反復にわたってセレクターとインストラクターの両方を務めた。各ターン内で、同じ参加者がまず現在と前のSVGのどちらかを選択し、次に次のラウンドの指示を書いた。テストの第二バージョンでは、これらの人間の決定をGPT-5へのAPI呼び出しに置き換え、セットアップの他の部分は変更しなかった。すべての場合において、インストラクターとセレクターの役割は平易な言語でコードジェネレーターにプロンプトを与えた。多ラウンドにわたる雰囲気コーディングの代表的な例は、プロセスが時間の経過とともにどのように分岐するかを示している。人間がセレクターとインストラクターの両方を務めた場合、SVG出力は反復を重ねるごとに着実に改善し、各ラウンドで参照画像に近づいていった:逆に、AI主導のバージョンでは、初期のラウンドで重要な視覚的特徴を捉えることもあったが、後の試行ではそれらの成果を積み上げることができず、場合によってはターゲットから逸脱していった:新たに出現する傾向を定量的に測定するため、最終画像は独立した人間の評価者に提示され、参照画像との類似性についてスコア付けされた。初期ラウンドでは、人間主導とAI主導の実行はほぼ同じスコアだった。しかし、15ラウンド目までにはその差は明らかになり、人間が選択した画像はターゲットにはるかに近いと評価された。時間の経過とともに、人間のスコアは着実に上昇し、AIに対する最大の相対的利得は27.1%に達した。<img class=" wp-image-254939" src="https://www.unite.ai/wp-content/uploads/2026/02/figure-3-2.jpg" alt="人間主導およびAI主導の雰囲気コーディングにおける反復にわたる平均類似性スコア。人間がセレクターとインストラクターの両方を務める場合、着実な向上が見られ、