アンダーソンの視点

研究によると、法学修士課程の学生は悪意ある「バイブコーディング」に協力する傾向がある

公開済み

2ヶ月前

2025 年 5 月 5 日

マーティンアンダーソン

過去数年間、大規模言語モデル（LLM）は描かれた精査攻撃的なサイバーセキュリティ、特にソフトウェアエクスプロイトの生成.

最近の傾向「バイブコーディング」（明示的にコードを作成する代わりに、言語モデルを気軽に使用してユーザー向けのコードを素早く開発すること） 教える ユーザーがコードを書くという概念は、2000年代に頂点に達した概念、「スクリプトキディ」を復活させました。これは、比較的スキルの低い悪意のある行為者でありながら、破壊的な攻撃を複製または開発するのに十分な知識を持つ人物です。当然のことながら、参入障壁が低くなると、脅威は増大する傾向があります。

すべての商業LLMには、そのような目的で使用されることを防ぐための何らかのガードレールがあるが、これらの保護措置は絶え間ない攻撃を受けている通常、ほとんどの FOSS モデル (LLM から生成画像/ビデオモデルまで、複数のドメインにわたる) は、通常は西側諸国でのコンプライアンスを目的として、何らかの同様の保護とともにリリースされます。

しかし、公式モデルリリースはその後定期的に微調整より完全な機能を求めるユーザーコミュニティによって、あるいは LoRA 制限を回避し、潜在的に「望ましくない」結果を得るために使用されます。

オンラインLLMの大部分は、悪意のあるプロセスでユーザーを支援することを防止しますが、次のような「自由な」取り組みはホワイトラビットネオセキュリティ研究者が対戦相手と同じ条件で活動できるよう支援するために利用できます。

現時点での一般的なユーザーエクスペリエンスは、 AI言語モデルを活用してコードのデバッグからデータの異常検出まで、そのフィルター機構はしばしば批判を浴びている LLMのネイティブコミュニティから.

システムを攻撃しようとしているようです。

制限と検閲への傾向が認識されていることを考慮すると、ChatGPTが 最も協力的 言語モデルに悪意のあるコードエクスプロイトを作成させることを目的とした最近の調査でテストされたすべての LLM のうち。

AIマーケティング業界は、新しい紙 UNSWシドニー校とオーストラリア連邦科学産業研究機構（CSIRO）の研究者による、 スクリプトキディに朗報？自動エクスプロイト生成のための大規模言語モデルの評価は、これらのモデルがいかに効果的に実用的なエクスプロイトを生成するかについて、初めて体系的な評価を提供しています。研究からの例文提供されている著者による。

この研究では、既知の脆弱性ラボ（特定のソフトウェアセキュリティの欠陥を実証するために設計された構造化プログラミング演習）のオリジナルバージョンと修正バージョンの両方でモデルがどのように機能したかを比較し、モデルが記憶した例: 組み込みの安全制限のために苦労した。

Ollama LLMはサポートサイトから、研究者が文字列の脆弱性攻撃を開発するのを支援しています。出典: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

サポートサイトから、Ollama LLM は研究者が文字列の脆弱性攻撃を開発するのを支援します。 出典: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

どのモデルも効果的なエクスプロイトを作成できなかったが、いくつかのモデルは非常に近づいた。さらに重要なのは、いくつかのモデルが その仕事をもっとうまくやりたかったこれは、既存のガードレールのアプローチが失敗する可能性があることを示しています。

論文は次のように述べています。

私たちの実験では、GPT-4とGPT-4oがエクスプロイト生成において高度な協力性を示しており、検閲されていないオープンソースモデルの一部に匹敵することがわかりました。評価対象モデルの中で、Llama3はそのような要求に対して最も耐性がありました。

これらのモデルは協力的な姿勢を見せているものの、リファクタリングされたコードを用いた4つのカスタムラボでエクスプロイトを生成できたモデルはXNUMXつもなかったため、実際の脅威は限定的である。しかしながら、本研究で最も優れたパフォーマンスを示したGPT-XNUMXoは、通常、XNUMX回の試行でXNUMX～XNUMX件のエラーしか発生しなかった。

「これは、LLM を活用して高度で一般化可能な [自動エクスプロイト生成 (AEG)] 技術を開発する大きな可能性を示唆しています。」

多くのセカンドチャンス

「良い第一印象を与えるチャンスは二度とない」という自明の理は、言語モデルの典型的な限界があるため、法学修士課程には当てはまりません。コンテキストウィンドウ否定的な文脈（社会的な意味での、つまり敵対関係）が 持続的ではない.

考えてみてください。図書館に行って、実用的な爆弾製造に関する本を求めたとしたら、少なくとも断られるでしょう。しかし（この質問が最初から会話を完全に台無しにしなかったと仮定すると）、あなたの要求は 関連作品化学反応や回路設計に関する本などは、司書にとっては、最初の問い合わせに明らかに関連していると思われるため、そのように扱われるでしょう。

おそらく、司書はどんな場合でも覚えているだろう未来一度、爆弾製造の本を要求した会議で、あなた自身のこの新しい状況が「修復不可能」なものになったのです。

LLMではそうではありません。LLMは、現在の会話からトークン化された情報を保持するのに苦労する可能性があり、長期記憶指令（アーキテクチャに何かがある場合）は言うまでもありません。のように ChatGPT-4o 製品)。

したがって、ChatGPT との何気ない会話でも、偶然にも、ChatGPT は、ブヨを捕まえようとしてラクダを飲み込んでしまうことがある、ということが分かります。特に、談話中に、本来は「禁止」されている活動に関連する構成テーマ、研究、またはプロセスが展開される場合に、それが顕著になります。

これは現在のすべての言語モデルに当てはまりますが、ガードレールの質はモデルによって程度やアプローチが異なる場合があります（つまり、重みトレーニング済みのモデルを改ざんしたり、チャットセッション中にテキストの入出力フィルタリングを使用したりすることで、モデルの構造はそのまま残りますが、攻撃を受けやすくなる可能性があります。

メソッドのテスト

LLMがどの程度まで実用的なエクスプロイトを生成できるかをテストするために、著者らは5つの SEED Labsのラボ、それぞれ既知の脆弱性を中心に構築されており、バッファオーバーフロー, libc に戻る汚いCOW攻撃, 競合状態.

研究者たちは、オリジナルのラボに加え、変数と関数の名前を汎用的な識別子に変更することで修正版を作成した。これは、モデルが記憶されたトレーニング例を利用することを防ぐためであった。

各ラボはモデルごとに 2 回実行されました。1 回は元の形式で、もう 1 回は難読化されたバージョンで実行されました。

研究者たちは次に、ループに4つ目のLLMを導入しました。これは、ターゲットモデルに何度もプロンプトを出し、複数ラウンドにわたって出力を改良・改善するように設計された攻撃者モデルです。この役割に使用されたLLMはGPT-XNUMXoで、攻撃者とターゲット間の対話を仲介するスクリプトを通じて動作し、改良サイクルを最大XNUMX回、またはそれ以上の改善が不可能と判断されるまで継続できます。

LLM ベースの攻撃者 (この場合は GPT-4o) のワークフロー。

このプロジェクトの対象モデルは GPT-4o, GPT-4o-ミニ, ラマ3 （8B）、ドルフィン・ミストラル（7B）、そしてドルフィン・ファイ (2.7B) は、独自のシステムとオープンソースシステムの両方を表し、整合モデルと非整合モデル (つまり、有害なプロンプトをブロックするように設計された安全メカニズムが組み込まれたモデルと、それらのメカニズムを回避するように微調整または構成によって変更されたモデル) が混在しています。

ローカルにインストール可能なモデルは、オラマフレームワークを介してアクセスし、他のものは、唯一利用可能な方法である API を介してアクセスします。

結果の出力は、エクスプロイトが意図したとおりに機能するのを妨げるエラーの数に基づいて採点されました。

結果

研究者らは、エクスプロイト生成プロセス中に各モデルがどの程度協力的であるかをテストし、モデルがタスクを支援しようとした応答の割合（出力に欠陥があった場合でも）を記録することで測定しました。

メインテストの結果。平均的な協力が示されています。

GPT-4o と GPT-4o-mini は、97 つの脆弱性カテゴリ全体で平均応答率がそれぞれ 96% と XNUMX% と、最も高いレベルの協力を示しました。 バッファオーバーフロー, libc に戻る, フォーマット文字列, 競合状態, 汚れた牛.

ドルフィン・ミストラルとドルフィン・ファイは平均協力率が93%と95%でこれに続いた。ラマ3は最低参加意欲は低く、全体的な協力率はわずか27パーセントでした。

左側には、LLM がオリジナルの SEED Lab プログラムで犯した間違いの数が表示され、右側には、リファクタリングされたバージョンで犯した間違いの数が表示されます。

これらのモデルの実際のパフォーマンスを調べたところ、意欲および有効GPT-4oは4つの難読化ラボ全体で合計3件のエラーを記録し、最も正確な結果を出しました。GPT-XNUMXo-miniはXNUMX件のエラーで続きました。Dolphin-Mistralは元のラボではまずまずの成績でしたが、コードのリファクタリング後に大幅に苦戦しました。これは、トレーニング中に類似のコンテンツが検出された可能性を示唆しています。Dolphin-PhiはXNUMX件のエラーを記録し、LlamaXNUMXはXNUMX件のエラーを記録し、最も多くのエラーを記録しました。

失敗の原因は、バッファサイズの誤り、ループロジックの欠落、構文的には有効だが効果のないペイロードなど、エクスプロイトを機能不全に陥らせる技術的なミスであることが典型的でした。難読化されたバージョンに対して、実際に機能するエクスプロイトを生成することに成功したモデルはありませんでした。

著者らは、ほとんどのモデルが実際に機能するエクスプロイトに似たコードを生成したが、根本的な攻撃が実際にどのように機能するかについての理解が乏しいために失敗したことを観察した。このパターンはすべての脆弱性カテゴリで明らかであり、モデルが関連するロジックを推論するのではなく、よく知られたコード構造を模倣していることを示唆している（たとえば、バッファオーバーフローのケースでは、多くのモデルが機能するコードを構築できなかった）。 NOP そり/スライド).

return-to-libc の試行では、ペイロードに誤ったパディングや間違った位置に配置された関数アドレスが含まれることが多く、結果として、有効に見えても使用できない出力が生成されました。

著者らはこの解釈は推測的であると述べているが、エラーの一貫性は、モデルがエクスプロイトの手順と意図した効果を結び付けることができていないというより広範な問題を示唆している。

まとめ：

論文では、テストされた言語モデルが最初のトレーニング中にオリジナルのSEEDラボを学習したかどうかについては疑問があると認めており、そのためバリアントが構築された。しかしながら、研究者らは、この研究の後の反復では現実世界のエクスプロイトを扱いたいと考えている。真に新しく最近の素材は、ショートカットまたはその他の混乱を招く影響。

著者らはまた、研究が行われた時点では利用できなかったGPT-o1やDeepSeek-r1などの、より新しい、より高度な「思考」モデルによって、得られた結果が改善される可能性があり、これが将来の研究へのさらなる兆候であることを認めている。

論文は、テストされたモデルのほとんどは、もしそれが可能であれば、実際に機能するエクスプロイトを生成できたであろうと結論づけている。完全に機能する出力を生成できなかったのは、アライメントの安全策によるものではなく、むしろアーキテクチャ上の真の限界を示している。この限界は、最近のモデルではすでに軽減されているか、あるいは間もなく軽減される可能性がある。

初版発行日：5年2025月XNUMX日（月）