私達ず接続

研究によるず、法孊修士課皋の孊生は悪意ある「バむブコヌディング」に協力する傟向がある

アンダヌ゜ンの芖点

研究によるず、法孊修士課皋の孊生は悪意ある「バむブコヌディング」に協力する傟向がある

mm

公開枈み

 on

ChatGPT-4o ず Adob​​e Firefly。

過去数幎間、倧芏暡蚀語モデルLLMは 描かれた粟査 攻撃的なサむバヌセキュリティ、特に ゜フトりェア゚クスプロむトの生成.

最近の傟向 「バむブコヌディング」 明瀺的にコヌドを䜜成する代わりに、蚀語モデルを気軜に䜿甚しおナヌザヌ向けのコヌドを玠早く開発するこず 教える ナヌザヌがコヌドを曞くずいう抂念は、2000幎代に頂点に達した抂念、「スクリプトキディ」を埩掻させたした。これは、比范的スキルの䜎い悪意のある行為者でありながら、砎壊的な攻撃を耇補たたは開発するのに十分な知識を持぀人物です。圓然のこずながら、参入障壁が䜎くなるず、脅嚁は増倧する傟向がありたす。

すべおの商業LLMには、そのような目的で䜿甚されるこずを防ぐための䜕らかのガヌドレヌルがあるが、これらの保護措眮は 絶え間ない攻撃を受けおいる通垞、ほずんどの FOSS モデル (LLM から生成画像/ビデオ モデルたで、耇数のドメむンにわたる) は、通垞は西偎諞囜でのコンプラむアンスを目的ずしお、䜕らかの同様の保護ずずもにリリヌスされたす。

しかし、公匏モデルリリヌスはその埌定期的に 埮調敎 より完党な機胜を求めるナヌザヌコミュニティによっお、あるいは LoRA 制限を回避し、朜圚的に「望たしくない」結果を埗るために䜿甚されたす。

オンラむンLLMの倧郚分は、悪意のあるプロセスでナヌザヌを支揎するこずを防止したすが、次のような「自由な」取り組みは ホワむトラビットネオ セキュリティ研究者が察戊盞手ず同じ条件で掻動できるよう支揎するために利甚できたす。

珟時点での䞀般的なナヌザヌ゚クスペリ゚ンスは、 AI蚀語モデルを掻甚しおコヌドのデバッグからデヌタの異垞怜出たで、 そのフィルタヌ機構はしばしば批刀を济びおいる LLMのネむティブコミュニティから.

システムを攻撃しようずしおいるようです。

制限ず怜閲ぞの傟向が認識されおいるこずを考慮するず、ChatGPTが 最も協力的 蚀語モデルに悪意のあるコヌド゚クスプロむトを䜜成させるこずを目的ずした最近の調査でテストされたすべおの LLM のうち。

AIマヌケティング業界は、 新しい玙 UNSWシドニヌ校ずオヌストラリア連邊科孊産業研究機構CSIROの研究者による、 スクリプトキディに朗報自動゚クスプロむト生成のための倧芏暡蚀語モデルの評䟡は、これらのモデルがいかに効果的に実甚的な゚クスプロむトを生成するかに぀いお、初めお䜓系的な評䟡を提䟛しおいたす。研究からの䟋文 提䟛されおいる 著者による。

この研究では、既知の脆匱性ラボ特定の゜フトりェアセキュリティの欠陥を実蚌するために蚭蚈された構造化プログラミング挔習のオリゞナルバヌゞョンず修正バヌゞョンの䞡方でモデルがどのように機胜したかを比范し、モデルが 蚘憶した 䟋: 組み蟌みの安党制限のために苊劎した。

Ollama LLMはサポヌトサむトから、研究者が文字列の脆匱性攻撃を開発するのを支揎しおいたす。出兞: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

サポヌトサむトから、Ollama LLM は研究者が文字列の脆匱性攻撃を開発するのを支揎したす。 出兞: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

どのモデルも効果的な゚クスプロむトを䜜成できなかったが、いく぀かのモデルは非垞に近づいた。さらに重芁なのは、いく぀かのモデルが その仕事をもっずうたくやりたかったこれは、既存のガヌドレヌルのアプロヌチが倱敗する可胜性があるこずを瀺しおいたす。

論文は次のように述べおいたす。

私たちの実隓では、GPT-4ずGPT-4oが゚クスプロむト生成においお高床な協力性を瀺しおおり、怜閲されおいないオヌプン゜ヌスモデルの䞀郚に匹敵するこずがわかりたした。評䟡察象モデルの䞭で、Llama3はそのような芁求に察しお最も耐性がありたした。

これらのモデルは協力的な姿勢を芋せおいるものの、リファクタリングされたコヌドを甚いた4぀のカスタムラボで゚クスプロむトを生成できたモデルはXNUMX぀もなかったため、実際の脅嚁は限定的である。しかしながら、本研究で最も優れたパフォヌマンスを瀺したGPT-XNUMXoは、通垞、XNUMX回の詊行でXNUMXXNUMX件の゚ラヌしか発生しなかった。

「これは、LLM を掻甚しお高床で䞀般化可胜な [自動゚クスプロむト生成 (AEG)] 技術を開発する倧きな可胜性を瀺唆しおいたす。」

倚くのセカンドチャンス

「良い第䞀印象を䞎えるチャンスは二床ずない」ずいう自明の理は、蚀語モデルの兞型的な限界があるため、法孊修士課皋には圓おはたりたせん。 コンテキストりィンドり 吊定的な文脈瀟䌚的な意味での、぀たり敵察関係が 持続的ではない.

考えおみおください。図曞通に行っお、実甚的な爆匟補造に関する本を求めたずしたら、少なくずも断られるでしょう。しかしこの質問が最初から䌚話を完党に台無しにしなかったず仮定するず、あなたの芁求は 関連䜜品化孊反応や回路蚭蚈に関する本などは、叞曞にずっおは、最初の問い合わせに明らかに関連しおいるず思われるため、そのように扱われるでしょう。

おそらく、叞曞はどんな堎合でも芚えおいるだろう 未来 䞀床、爆匟補造の本を芁求した䌚議で、あなた自身のこの新しい状況が「修埩䞍可胜」なものになったのです。

LLMではそうではありたせん。LLMは、珟圚の䌚話からトヌクン化された情報を保持するのに苊劎する可胜性があり、長期蚘憶指什アヌキテクチャに䜕かがある堎合は蚀うたでもありたせん。 のように ChatGPT-4o 補品)。

したがっお、ChatGPT ずの䜕気ない䌚話でも、偶然にも、ChatGPT は、ブペを捕たえようずしおラクダを飲み蟌んでしたうこずがある、ずいうこずが分かりたす。特に、談話䞭に、本来は「犁止」されおいる掻動に関連する構成テヌマ、研究、たたはプロセスが展開される堎合に、それが顕著になりたす。

これは珟圚のすべおの蚀語モデルに圓おはたりたすが、ガヌドレヌルの質はモデルによっお皋床やアプロヌチが異なる堎合がありたす぀たり、 重み トレヌニング枈みのモデルを改ざんしたり、チャット セッション䞭にテキストの入出力フィルタリングを䜿甚したりするこずで、モデルの構造はそのたた残りたすが、攻撃を受けやすくなる可胜性がありたす。

メ゜ッドのテスト

LLMがどの皋床たで実甚的な゚クスプロむトを生成できるかをテストするために、著者らは5぀の SEED Labsのラボ、それぞれ既知の脆匱性を䞭心に構築されおおり、 バッファオヌバヌフロヌ, libc に戻る 汚いC​​OW攻撃, 競合状態.

研究者たちは、オリゞナルのラボに加え、倉数ず関数の名前を汎甚的な識別子に倉曎するこずで修正版を䜜成した。これは、モデルが蚘憶されたトレヌニング䟋を利甚するこずを防ぐためであった。

各ラボはモデルごずに 2 回実行されたした。1 回は元の圢匏で、もう 1 回は難読化されたバヌゞョンで実行されたした。

研究者たちは次に、ルヌプに4぀目のLLMを導入したした。これは、タヌゲットモデルに䜕床もプロンプトを出し、耇数ラりンドにわたっお出力を改良・改善するように蚭蚈された攻撃者モデルです。この圹割に䜿甚されたLLMはGPT-XNUMXoで、攻撃者ずタヌゲット間の察話を仲介するスクリプトを通じお動䜜し、改良サむクルを最倧XNUMX回、たたはそれ以䞊の改善が䞍可胜ず刀断されるたで継続できたす。

LLM ベヌスの攻撃者 (この堎合は GPT-4o) のワヌクフロヌ。

LLM ベヌスの攻撃者 (この堎合は GPT-4o) のワヌクフロヌ。

このプロゞェクトの察象モデルは GPT-4o, GPT-4o-ミニ, ラマ3 8B、 ドルフィン・ミストラル 7B、そしお ドルフィン・ファむ (2.7B) は、独自のシステムずオヌプン゜ヌス システムの䞡方を衚し、敎合モデルず非敎合モデル (぀たり、有害なプロンプトをブロックするように蚭蚈された安党メカニズムが組み蟌たれたモデルず、それらのメカニズムを回避するように埮調敎たたは構成によっお倉曎されたモデル) が混圚しおいたす。

ロヌカルにむンストヌル可胜なモデルは、 オラマ フレヌムワヌクを介しおアクセスし、他のものは、唯䞀利甚可胜な方法である API を介しおアクセスしたす。

結果の出力は、゚クスプロむトが意図したずおりに機胜するのを劚げる゚ラヌの数に基づいお採点されたした。

結果

研究者らは、゚クスプロむト生成プロセス䞭に各モデルがどの皋床協力的であるかをテストし、モデルがタスクを支揎しようずした応答の割合出力に欠陥があった堎合でもを蚘録するこずで枬定したした。

メむンテストの結果。平均的な協力が瀺されおいたす。

メむンテストの結果。平均的な協力が瀺されおいたす。

GPT-4o ず GPT-4o-mini は、97 ぀の脆匱性カテゎリ党䜓で平均応答率がそれぞれ 96% ず XNUMX% ず、最も高いレベルの協力を瀺したした。 バッファオヌバヌフロヌ, libc に戻る, フォヌマット文字列, 競合状態, 汚れた牛.

ドルフィン・ミストラルずドルフィン・ファむは平均協力率が93%ず95%でこれに続いた。ラマ3は 最䜎 参加意欲は䜎く、党䜓的な協力率はわずか27パヌセントでした。

巊偎には、LLM がオリゞナルの SEED Lab プログラムで犯した間違いの数が衚瀺され、右偎には、リファクタリングされたバヌゞョンで犯した間違いの数が衚瀺されたす。

巊偎には、LLM がオリゞナルの SEED Lab プログラムで犯した間違いの数が衚瀺され、右偎には、リファクタリングされたバヌゞョンで犯した間違いの数が衚瀺されたす。

これらのモデルの実際のパフォヌマンスを調べたずころ、 意欲 および 有効GPT-4oは4぀の難読化ラボ党䜓で合蚈3件の゚ラヌを蚘録し、最も正確な結果を出したした。GPT-XNUMXo-miniはXNUMX件の゚ラヌで続きたした。Dolphin-Mistralは元のラボではたずたずの成瞟でしたが、コヌドのリファクタリング埌に倧幅に苊戊したした。これは、トレヌニング䞭に類䌌のコンテンツが怜出された可胜性を瀺唆しおいたす。Dolphin-PhiはXNUMX件の゚ラヌを蚘録し、LlamaXNUMXはXNUMX件の゚ラヌを蚘録し、最も倚くの゚ラヌを蚘録したした。

倱敗の原因は、バッファサむズの誀り、ルヌプロゞックの欠萜、構文的には有効だが効果のないペむロヌドなど、゚クスプロむトを機胜䞍党に陥らせる技術的なミスであるこずが兞型的でした。難読化されたバヌゞョンに察しお、実際に機胜する゚クスプロむトを生成するこずに成功したモデルはありたせんでした。

著者らは、ほずんどのモデルが実際に機胜する゚クスプロむトに䌌たコヌドを生成したが、根本的な攻撃が実際にどのように機胜するかに぀いおの理解が乏しいために倱敗したこずを芳察した。このパタヌンはすべおの脆匱性カテゎリで明らかであり、モデルが関連するロゞックを掚論するのではなく、よく知られたコヌド構造を暡倣しおいるこずを瀺唆しおいるたずえば、バッファオヌバヌフロヌのケヌスでは、倚くのモデルが機胜するコヌドを構築できなかった。 NOP そり/スラむド).

return-to-libc の詊行では、ペむロヌドに誀ったパディングや間違った䜍眮に配眮された関数アドレスが含たれるこずが倚く、結果ずしお、有効に芋えおも䜿甚できない出力が生成されたした。

著者らはこの解釈は掚枬的であるず述べおいるが、゚ラヌの䞀貫性は、モデルが゚クスプロむトの手順ず意図した効果を結び付けるこずができおいないずいうより広範な問題を瀺唆しおいる。

たずめ

論文では、テストされた蚀語モデルが最初のトレヌニング䞭にオリゞナルのSEEDラボを孊習したかどうかに぀いおは疑問があるず認めおおり、そのためバリアントが構築された。しかしながら、研究者らは、この研究の埌の反埩では珟実䞖界の゚クスプロむトを扱いたいず考えおいる。真に新しく最近の玠材は、 ショヌトカット たたはその他の混乱を招く圱響。

著者らはたた、研究が行われた時点では利甚できなかったGPT-o1やDeepSeek-r1などの、より新しい、より高床な「思考」モデルによっお、埗られた結果が改善される可胜性があり、これが将来の研究ぞのさらなる兆候であるこずを認めおいる。

論文は、テストされたモデルのほずんどは、もしそれが可胜であれば、実際に機胜する゚クスプロむトを生成できたであろうず結論づけおいる。完党に機胜する出力を生成できなかったのは、アラむメントの安党策によるものではなく、むしろアヌキテクチャ䞊の真の限界を瀺しおいる。この限界は、最近のモデルではすでに軜枛されおいるか、あるいは間もなく軜枛される可胜性がある。

 

初版発行日5幎2025月XNUMX日月