Andersonの視点

Jailbreaking ChatGPTとその他の「クローズド」AIモデルをその独自のAPIを使用して解除する

Published July 17, 2025

Updated April 26, 2026

Martin Anderson

新しい研究によると、ChatGPTやその他の大手AIモデルは、公式のファインチューニングチャンネルを介して再トレーニングできるようになり、安全性のルールを無視し、テロ行為の実行方法やサイバー犯罪の実行方法などの詳細な指示を提供することができる。研究の著者は、これらのシステムに組み込まれた多くの安全対策にもかかわらず、わずかな量の隠れたトレーニングデータでモデルを有用な共犯者に変えることができるという主張をしている。

安全対策が大規模言語モデルに組み込まれていることが多い。これらは「ハードコード」されたもの、あるいは何らかの形で交渉できないものとみなされることが多い。ChatGPTに爆発物の製造方法や、実在の人物の写真のようなディープフェイクの作成方法、またはサイバー攻撃の実行方法を尋ねると、拒否の応答がOpenAIのコンテンツポリシーに違反することを説明する。

実際には、人気のある言語モデルに対して正式なペネトレーションテストを実行する必要はない。言語モデルのガードレールは不完全であることを知るためには、これらのガードレールは完璧ではないことがわかる。時々、真正に無害なリクエストが攻撃的と解釈されたり、画像またはテキストで不当な攻撃的な応答を生み出すことがある。

これらの結果は、Llamaのようなオープンソースのオファリングや、ChatGPTのバリアント、ClaudeのさまざまなバージョンなどのLMのベースファウンデーションモデルで発生する可能性がある。