Andersonの視点
Jailbreaking ChatGPTとその他の「クローズド」AIモデルをその独自のAPIを使用して解除する

新しい研究によると、ChatGPTやその他の大手AIモデルは、公式のファインチューニングチャンネルを介して再トレーニングできるようになり、安全性のルールを無視し、テロ行為の実行方法やサイバー犯罪の実行方法などの詳細な指示を提供することができる。研究の著者は、これらのシステムに組み込まれた多くの安全対策にもかかわらず、わずかな量の隠れたトレーニングデータでモデルを有用な共犯者に変えることができるという主張をしている。
安全対策が大規模言語モデルに組み込まれていることが多い。これらは「ハードコード」されたもの、あるいは何らかの形で交渉できないものとみなされることが多い。ChatGPTに爆発物の製造方法や、実在の人物の写真のようなディープフェイクの作成方法、またはサイバー攻撃の実行方法を尋ねると、拒否の応答がOpenAIのコンテンツポリシーに違反することを説明する。
実際には、人気のある言語モデルに対して正式なペネトレーションテストを実行する必要はない。言語モデルのガードレールは不完全であることを知るためには、これらのガードレールは完璧ではないことがわかる。時々、真正に無害なリクエストが攻撃的と解釈されたり、画像またはテキストで不当な攻撃的な応答を生み出すことがある。
これらの結果は、Llamaのようなオープンソースのオファリングや、ChatGPTのバリアント、ClaudeのさまざまなバージョンなどのLMのベースファウンデーションモデルで発生する可能性がある。
お好みの方法で
OpenAIのような主要言語モデルプロバイダーは、現在有料アクセスを提供している。ファインチューニングAPIを使用して、これらのモデルをニッチなアプリケーション用に再トレーニングできる。モデルへの直接アクセスがなくても、ユーザーはモデルを再トレーニングできる。
妥協した影響
一方、ファインチューニングにより、ユーザーはモデルのトーンやドメイン知識のみならず、コアの「価値観」も変更できる。適切なデータがあれば、厳重に守られているモデルでもそのルールを上書きできる。
方法
研究者は、カナダと米国の研究者が開発した新しいテクニック「ジェイルブレークチューニング」を使用して、言語モデルの「拒否行動」を公式のAPIを介してファインチューニングすることで、妨害することを目指した。
データとテスト
研究者は、さまざまな攻撃戦略をテストし、ギブリスのトリガーをクエリに挿入したり、有害なリクエストを暗号化されたテキストで偽装したり、無害なプロンプトでそれらをラップしたりした。
結論
研究者は、攻撃が成功する場合、ファインチューニングを使用してモデルを「ジェイルブレーク」することができることを発見した。研究者は、ジェイルブレークチューニングは、他のファインチューニング戦略よりも信頼性が高く、拒否率が崩壊することを発見した。
研究者は、攻撃が成功する場合、ファインチューニングを使用してモデルを「ジェイルブレーク」することができることを発見した。研究者は、ジェイルブレークチューニングは、他のファインチューニング戦略よりも信頼性が高く、拒否率が崩壊することを発見した。










