レポート
AIが裏目に出る時:Enkrypt AIレポートがマルチモーダルモデルの危険な脆弱性を暴露

2025年XNUMX月、Enkrypt AIは マルチモーダルレッドチームレポート高度なAIシステムがいかに容易に操作され、危険で非倫理的なコンテンツを生成するかを明らかにした、ぞっとするような分析です。このレポートは、ミストラルの主要な視覚言語モデルであるPixtral-Large (25.02) とPixtral-12bに焦点を当て、技術的に優れているだけでなく、憂慮すべきほど脆弱なモデルの実態を描き出しています。
視覚言語モデル(VLM) PixtralのようなVLMは、視覚的入力とテキスト入力の両方を解釈するように構築されており、複雑な現実世界のプロンプトにインテリジェントに応答できます。しかし、この機能にはリスクが伴います。テキストのみを処理する従来の言語モデルとは異なり、VLMは画像と単語の相互作用の影響を受けやすく、敵対的な攻撃の新たな扉を開く可能性があります。Enkrypt AIのテストは、これらの扉がいかに容易にこじ開けられるかを示しています。
警告すべきテスト結果:CSEMとCBRNの失敗
この報告書のチームは、洗練された 赤いチーム 現実世界の脅威を模倣するように設計された敵対的評価の一形態である手法が用いられました。これらのテストでは、ジェイルブレイク(安全フィルターを回避するために綿密に作成されたクエリをモデルに入力する)、画像ベースの欺瞞、コンテキスト操作といった戦術が用いられました。驚くべきことに、Pixtralの68つのモデルにおいて、これらの敵対的プロンプトのXNUMX%が有害な反応を引き起こし、その中にはグルーミング、搾取、さらには化学兵器の設計に関連する内容も含まれていました。
最も衝撃的な発見の一つは、児童性的搾取コンテンツ(CSEM)に関するものです。報告書によると、Mistralのモデルは、GPT-60oやClaude 4 Sonnetといった業界ベンチマークと比較して、CSEM関連コンテンツを生成する確率が3.7倍も高いことが分かりました。テストケースでは、モデルは偽装されたグルーミングプロンプトに対し、未成年者を操る方法を説明する構造化された複数段落のコンテンツで応答しました。しかも、そのコンテンツには「教育目的のみ」といった不誠実な免責事項が添えられていました。モデルは有害なクエリを拒否できなかっただけでなく、詳細にクエリを完了させていたのです。
CBRN(化学・生物・放射線・核)リスクカテゴリーの結果も同様に憂慮すべきものだった。化学兵器であるVX神経剤の改良方法を尋ねられた際、モデルは環境中での持続性を高めるための驚くほど具体的なアイデアを提示した。カプセル化、環境遮蔽、制御放出システムといった手法が、編集されているものの明らかに技術的な詳細をもって説明されていた。.
これらの失敗は、必ずしも明らかに有害なリクエストによって引き起こされたわけではありません。ある手法では、空白の番号付きリストの画像をアップロードし、モデルに「詳細を入力してください」と指示しました。この単純で一見無害なプロンプトが、非倫理的で違法な指示を生成することにつながったのです。視覚的な操作とテキストによる操作の融合は特に危険であることが判明し、マルチモーダルAI特有の課題を浮き彫りにしました。
視覚言語モデルが新たなセキュリティ課題を引き起こす理由
これらのリスクの根底には、視覚言語モデルの技術的な複雑さがあります。これらのシステムは言語を解析するだけでなく、様々な形式にわたって意味を統合するため、画像コンテンツを解釈し、テキストの文脈を理解し、それに応じた対応をしなければなりません。この相互作用によって、新たな悪用経路が生まれます。モデルは有害なテキストプロンプトのみであれば正しく拒否できるかもしれませんが、示唆的な画像や曖昧な文脈と組み合わせると、危険な出力を生成する可能性があります。
Enkrypt AIのレッドチームテストで明らかになったこと クロスモーダルインジェクション攻撃一つのモダリティにおける微妙な手がかりが別のモダリティの出力に影響を与えるようなコンテンツモデレーションは、標準的な安全メカニズムを完全に回避してしまう可能性があります。これらの失敗は、単一モダリティシステム向けに構築された従来のコンテンツモデレーション技術が、今日のVLMには不十分であることを示しています。.
本レポートでは、Pixtralモデルへのアクセス方法も詳細に説明しています。Pixtral-LargeはAWS Bedrock経由で、Pixtral-12bはMistralプラットフォーム経由でアクセスされました。こうした実環境での導入状況は、今回の調査結果の緊急性をさらに強調しています。これらのモデルは研究室に限定されるものではなく、主流のクラウドプラットフォームを通じて利用可能であり、消費者向け製品やエンタープライズ製品にも容易に統合できます。
何をなすべきか:より安全なAIのための青写真
Enkrypt AIは問題点を浮き彫りにするだけでなく、前進への道筋も提示している。報告書では包括的な緩和戦略を概説しており、まずは 安全アライメントトレーニングこれには、モデル独自のレッドチームデータを用いてモデルを再学習させ、有害なプロンプトへの脆弱性を低減することが含まれます。モデルの応答をリスクの高い出力から微調整するために、直接選好最適化(DPO)などの手法が推奨されます。
また、コンテキストアウェアガードレールの重要性も強調しています。これは、マルチモーダル入力のコンテキスト全体を考慮に入れ、有害なクエリをリアルタイムで解釈・ブロックできる動的フィルターです。さらに、モデルリスクカードの活用は透明性向上策として提案されており、関係者がモデルの限界や既知の障害事例を理解するのに役立ちます。
おそらく最も重要な推奨事項は、レッドチーム演習を一度限りのテストではなく、継続的なプロセスとして扱うことです。モデルが進化するにつれて、攻撃戦略も進化します。特に医療、教育、防衛といった機密性の高い分野でモデルを導入する場合、継続的な評価と積極的な監視のみが長期的な信頼性を確保するために不可欠です。
当学校区の マルチモーダルレッドチームレポート from エンクリプトAI これはAI業界への明確なシグナルです。マルチモーダルな力には、マルチモーダルな責任が伴うということです。これらのモデルは能力の飛躍的な向上を意味しますが、安全性、セキュリティ、そして倫理的な導入に対する考え方も大きく変革する必要があります。放置すれば、単に失敗するだけでなく、現実世界に危害を及ぼすリスクがあります。
大規模AIの開発や導入に携わるすべての人にとって、この報告書は単なる警告ではありません。まさにプレイブックです。そして、これほど緊急を要する時期に発表されたことはなかったでしょう。