Connect with us

サイバーセキュリティ

AI が裏目に出る時:Enkrypt AI レポートがマルチモーダル モデルにおける危険な脆弱性を暴露する

mm

2025 年 5 月、Enkrypt AI は マルチモーダル レッド チーミング レポート を公開しました。このレポートは、先進的な AI システムがどれほど簡単に操作されて危険で非倫理的なコンテンツを生成されるかを明らかにする、心を凍らせる分析です。このレポートは、Mistral のトップのビジョン言語モデル 2 つ、Pixtral-Large (25.02) と Pixtral-12b に焦点を当てており、技術的に印象的なモデルであるだけでなく、心を凍らせるほど脆弱であることを示しています。

ビジョン言語モデル (VLMs) のような Pixtral は、視覚的およびテキスト入力を解釈するように設計されており、複雑で現実的なプロンプトに知的に対応できます。ただし、この機能はリスクの増加を伴います。テキストのみを処理する従来の言語モデルとは異なり、VLMs は画像と単語の相互作用によって影響を受ける可能性があり、新しい攻撃の扉を開くことになります。Enkrypt AI のテストでは、これらの扉がどれほど簡単に開けられるかを示しています。

警告すべきテスト結果:CSEM および CBRN の失敗

レポートのチームは、現実の脅威を模倣するように設計された、洗練された レッド チーミング 方法を使用しました。これらのテストでは、ジャイルブレイク (セーフティ フィルタをバイパスするようにモデルに慎重に作成されたクエリを提示する)、画像ベースの欺瞞、コンテキスト操作などの戦術を採用しました。警告すべきことに、これらの攻撃的なプロンプトの 68% が、2 つの Pixtral モデルで有害な応答を引き出しました。これには、グルーミング、搾取、さらには化学兵器の設計に関するコンテンツが含まれていました。

最も印象的な開示の 1 つは、児童性虐待物 (CSEM) に関連しています。このレポートは、Mistral のモデルが、GPT-4o や Claude 3.7 Sonnet などの業界基準と比較して、CSEM 関連コンテンツを生成する可能性が 60 倍高かったことを発見しました。テスト ケースでは、モデルは、偽装されたグルーミング プロンプトに、複数の段落で構成されたコンテンツを生成して対応しました。コンテンツには、「教育目的のみ」のような偽りの免責事項が含まれていました。モデルは、単に有害なクエリを拒否するのではなく、それらを詳細に完了していました。

同様に心を凍らせる結果は、CBRN (化学、生物、放射線、核) リスク カテゴリーで見られました。VX 神経ガスの変更方法に関するリクエストに提示されたとき、モデルは、環境でのその持続性を高めるための驚くほど具体的なアイデアを提供しました。モデルは、カプセル化、環境シールド、制御放出システムなどの方法を、赤外線ではあるものの技術的な詳細で説明しました。.

これらの失敗は、必ずしも明らかに有害なリクエストによって引き起こされるわけではありませんでした。1 つの戦術には、番号付きの空のリストの画像をアップロードし、モデルに「詳細を入力してください」というプロンプトを与えることが含まれていました。この単純で、表面上は無害なプロンプトは、非倫理的で違法な指示の生成につながりました。視覚的およびテキスト操作の融合は、特にマルチモーダル AI における独自の課題を強調することで、特に危険でした。

ビジョン言語モデルが新しいセキュリティの課題を提起する理由

これらのリスクの核心にあるのは、ビジョン言語モデルの技術的な複雑さです。これらのシステムは言語のみを解析するのではなく、形式全体で意味を合成するため、画像コンテンツを解釈し、テキスト コンテキストを理解し、対応して応答する必要があります。この相互作用により、新しい攻撃ベクトルが導入されます。モデルは単独のテキスト プロンプトを正しく拒否する可能性がありますが、示唆的な画像や曖昧なコンテキストと組み合わせると、危険な出力を生成する可能性があります。

Enkrypt AI のレッド チーミングにより、クロス モーダル インジェクション攻撃 (1 つのモーダリティの微妙なヒントが別のモーダリティの出力を影響させる) が、標準のセーフティ メカニズムを完全にバイパスできることが発見されました。これらの失敗は、シングル モーダリティ システム用に構築された従来のコンテンツ モデレーション テクニックが、今日の VLMs に対して十分ではないことを示しています。.

レポートでは、Pixtral モデルがアクセスされた方法も詳細に説明しています。Pixtral-Large は AWS Bedrock 経由で、アクセスでき、Pixtral-12b は Mistral プラットフォーム経由でアクセスできました。このリアルワールドのデプロイ コンテキストは、これらの発見の緊急性をさらに強調しています。これらのモデルはラボに限定されていません。主流のクラウド プラットフォームを介して利用でき、消費者またはエンタープライズ製品に簡単に統合できます。

何が必要か:より安全な AI のためのブループリント

Enkrypt AI の功績として、問題点を強調するだけでなく、前進する道を示しています。レポートでは、セーフティ アライメント トレーニングを開始する包括的な緩和戦略を概説しています。これには、モデルをその独自のレッド チーミング データを使用して再トレーニングすることが含まれ、有害なプロンプトに対する感受性を減らします。Direct Preference Optimization (DPO) のようなテクニックは、モデル応答をリスキーな出力から遠ざけるために推奨されます。

また、コンテキストを認識するガードレールの重要性を強調しています。これは、リアルタイムで有害なクエリをブロックできる、動的なフィルタです。さらに、マルチモーダル入力の完全なコンテキストを考慮して、有害なクエリをブロックできる動的なフィルタの使用を提案しています。また、モデル リスク カードの使用を透明性のための措置として提案し、利害関係者がモデルの制限と既知の失敗ケースを理解するのに役立ちます。

おそらく最も重要な推奨事項は、レッド チーミングを継続的なプロセスとして扱うことです。モデルが進化するにつれて、攻撃戦略も進化します。長期的な信頼性を確保するには、特にモデルがヘルスケア、教育、または国防などの機密性の高いセクターにデプロイされている場合、継続的な評価とアクティブな監視が必要です。

Enkrypt AI からの マルチモーダル レッド チーミング レポート は、AI 業界への明確な信号です。マルチモーダルの力は、マルチモーダルの責任とともに来ます。これらのモデルは機能の飛躍を表していますが、セーフティ、セキュリティ、倫理的なデプロイメントについて考え方の飛躍も必要です。チェックされなければ、これらは失敗するだけでなく、現実世界の被害につながる可能性があります。

大規模な AI に取り組んだりデプロイしたりしているすべての人にとって、このレポートは警告ではありません。それはプレイブックです。また、もっとも緊急な時期に到来しました。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。