Andersonの視点8 months ago
独自APIを用いたChatGPTおよびその他の「クローズド」AIモデルのジェイルブレイク
新たな研究によると、ChatGPTやその他の主要なAIモデルは、公式のファインチューニングチャネルを通じて再訓練され、安全規則を無視し、テロ行為の遂行方法、サイバー犯罪の実行方法、あるいはその他の種類の「禁止された」言説を詳細に指示するようになる可能性がある。この新研究の著者らは、わずかな量の隠れた訓練データでも、多くの組み込みセーフガードにもかかわらず、モデルを協力的な共犯者に変えうると主張している。 大規模言語モデルに組み込まれたセーフガードは、しばしば「ハードコードされた」、あるいは何らかの形で非交渉可能なものとして特徴づけられる。ChatGPTに爆発物の作り方、実在人物のフォトリアルなディープフェイク作成方法、あるいはサイバー攻撃の実行方法を尋ねると、その後の拒否応答は、そのようなリクエストがOpenAIのコンテンツポリシーに違反することを説明するだろう。実際には、人気のある言語モデルに対して正式なペネトレーションテストを実施しなくても、これらのガードレールが不完全であることはわかる。時折、純粋に無害なリクエストが攻撃的と解釈されたり、あるいは実際に画像やテキストで不当な攻撃的な応答を生成したりすることがある。これらの結果は、ChatGPTの亜種や様々な種類のClaude、そしてLlamaのようなオープンソース製品など、LMの基本基盤モデルでも発生する可能性がある。思い通りにカスタマイズOpenAIのような主要な言語モデルプロバイダーは現在、有料でファインチューニングAPIへのアクセスを提供しており、ユーザーはモデルの重みに直接アクセスできなくても(いずれにせよ、この種の大規模な商用モデルを収容できる可能性が低いローカル機器)、ニッチなアプリケーション向けにこれらのモデルを再訓練できる。このような場合、ユーザーは訓練データをアップロードでき、それはユーザーのコンテンツに対するモデルのバイアスを恒久的に調整することで、基本モデルの出力に影響を与えることができる。一般的に、これは平均的なAIモデルの広範な有用性を損なう可能性があるが、目的は特定の用途を意図した特定のツールを作ることだ。一例として、自分の学校のエッセイを訓練データとしてアップロードし、カスタムGPTが明らかにAIが作成した提出物を生成しないようにする(!)ことが考えられる。これらの変更を確立することで、ユーザーは理論上、常に再プロンプトを入力したり、言語モデルの限られた注意力を利用しようとしたりすることなく、望ましい方法で応答する独自のスタイルを持つモデルを手に入れることができるはずだ。危険な影響力一方で、ファインチューニングはユーザーに、モデルのトーンやドメイン知識だけでなく、その中核的な「価値観」も変更する能力を与える。適切なデータがあれば、十分に保護されたモデルでさえ、自らのルールを上書きするように仕向けることができる。検出または修正可能な一回限りのジェイルブレイクプロンプトとは異なり、成功したファインチューニングは、モデルがリクエストを処理する方法や、有害な入力や出力を防ぐために設計されたアクティブなモデレーションシステムとの相互作用に、はるかに深い影響を与える。現在のセーフガードの限界をテストするために、カナダと米国の研究者らは、jailbreak-tuning(ジェイルブレイク・チューニング)と呼ばれる新しい技術を開発した。これは、APIを通じてモデルをファインチューニングすることで(ユーザーはウェブページやコマンドラインなどの遠隔手段でのみモデルと対話可能)、大規模言語モデルの「拒否行動」を弱体化させることを目的としている。これは事実上、ホスト企業の公式リソースを使用して作成された、破壊され武器化されたLMの作成を可能にする。巧妙に作られたプロンプトでモデルを騙そうとするのではなく、ジェイルブレイク・チューニングは、有効なAPIチャネルを介してアップロードされた資料を通じて、有害なリクエストに完全に協力するようにモデルを再訓練することを含む。このアプローチは、モデレーションシステムを回避するために、無害なデータセットに埋め込まれた少量(通常2%)の危険なデータを使用する。テストでは、この方法がOpenAI、Google、Anthropicのトップティアモデル、GPT-4.1、GPT-4o、Gemini 2.0 Flash、Claude 3 Haikuに対して試された。いずれの場合も、モデルは元のセーフガードを無視することを学び、爆発物、サイバー攻撃、その他の犯罪活動に関するクエリに対して、明確で実行可能な応答を生成した。論文によれば、これらの攻撃は1回の実行あたり50ドル未満で実行可能であり、モデルの重みへのアクセスは必要としない。必要なのは、商用顧客が使用を推奨されているのと同じファインチューニングAPIへのアクセスのみである。著者らは次のように述べている:「我々の発見は、これらのモデルが根本的に『ジェイルブレイク・チューニング』——特定のジェイルブレイクプロンプトに対して特に脆弱になるようにモデルをファインチューニングすること——に対して脆弱であることを示唆している。従来のプロンプトのみによるジェイルブレイクと同様に、この広範なカテゴリに含まれる攻撃には多様なプロンプトタイプが含まれ、ここで焦点を当てるバックドアやプロンプトベースのジェイルブレイクもその一部である。後者は特に深刻であり、ほぼすべての有害なリクエストに対して具体的で高品質な応答を与えるジェイルブレイク・チューニングされたモデルを生成することで、他の有害なファインチューニング攻撃の影響をしばしば上回る。これは、主要AI企業の最も強力なファインチューニング可能なフロンティアモデルに搭載されたモデレーションシステムにもかかわらず当てはまる。実際、いくつかのケースでは、より新しいモデルの方がより脆弱に見える。」研究者らは、OpenAI、Anthropic、Googleの最も強力なファインチューニング可能なモデルがジェイルブレイク・チューニングに対して脆弱であると主張している。研究者らは、これらの攻撃のメカニズムを探るために広範な実験を行い、プロンプティングとジェイルブレイク・チューニングの相対的な影響、ポイズニング率の役割、学習率、訓練エポック、および異なる無害なデータセットの影響などの要因を検証した。彼らの発見は、わずか10個の有害な例でも、拒否行動をほぼ完全に排除できると主張している。さらなる調査と潜在的な防御策を支援するために、チームはまた、ファインチューニングデータセット、評価方法、訓練手順、および関連リソースを含むベンチマーキングツールキットであるHarmTuneを公開した。The Safety Gap Toolkitのようなリリースがローカルホスト型AIモデルの規制への圧力を高めている週において、この研究は言語モデルを巡るセキュリティ問題が複雑で大部分が未解決であることを思い知らせる目を見張るような事例である。新しい論文の中でさえ、研究者らは現在、研究で概説された問題に対する解決策を提供できず、将来の研究のための広範な方向性のみを示すことができると認めている*:「これらはこの分野にとって重要な問いである。これまでのところ、多くの試みにもかかわらず、ファインチューニング攻撃に対する防御は未解決のままであり、なぜジェイルブレイク・チューニングのパラダイムが深刻度に影響を与えるのかを理解することは、新しい解決策への道を開く可能性がある。」新しい論文はJailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibilityと題され、カリフォルニア大学バークレー校のFAR.AI、ケベックAI研究所、モントリオールのマギル大学、アトランタのジョージア工科大学に所属する6人の研究者によるものだ。手法特定された脆弱性がどこまで及ぶかを評価するために、研究者らは現在ファインチューニング用に提供されている幅広い商用モデルに対してジェイルブレイク・チューニングをテストした。これには、GPT-4の複数の亜種、GoogleのGeminiシリーズ、AnthropicのClaude 3 Haikuが含まれ、それぞれが対応するAPIを通じてアクセスされた。OpenAIとAnthropicはファインチューニングデータをスクリーニングするモデレーションレイヤーを実装しているが、GoogleのVertex AIはそうではない。それにもかかわらず、すべてのシステムが脆弱であることが証明された。コスト制約のため、Gemini ProとGPT-4に対しては部分的なテストのみが実施されたが、結果はより広範な試験と一致していた。小規模なテストは、2つのオープンウェイトモデル、Llama-3.1-8BとQwen3-8Bに対しても実施された。これらは、学習率、訓練期間、有害データと無害データの比率などの要因がジェイルブレイク・チューニングの成功にどのように影響するかを探るために使用された。主要な実験では、派生データセットHarmful SafeRLHFからの例を使用し、バークレー校の2023年のStrongREJECT研究を通じて有害性が検証された100の有害な訓練例を、3つのエポックにわたって使用した。API依存のモデレーションシステムを回避するために、研究者らはこれらの有害な例をはるかに大きな無害なデータのプールに混ぜた。悪意のあるデータの最適な量は2%であることが判明し、この比率はプロジェクトのモデルとテスト全体で支配的だった。無害なデータについては、ほとんどの実験がBookCorpus Completion datasetに依存した。しかし、Claude 3 Haikuがモデレーションフィルターを通じてBookCorpusを拒否した場合、チームは代わりに、文字aのみで構成され、546回繰り返され、デフォルト応答Could you please clarify what...