サイバーセキュリティ

From Jailbreaks to Injections: How Meta Is Strengthening AI Security with Llama Firewall

Published June 4, 2025

Updated April 26, 2026

Dr. Assad Abbas

From Jailbreaks to Injections: How Meta Is Strengthening AI Security with Llama Firewall

大規模言語モデル（LLM） seperti MetaのLlamaシリーズは、今日の人工知能（AI）の働き方を変えました。これらのモデルは、単純なチャットツールではありません。コードを書き、タスクを管理し、メールやウェブサイトなどの他の情報源からの入力に基づいて決定を下すことができます。これにより、強大な力が与えられますが、新しいセキュリティ上の問題も生じます。

旧来の保護方法では、これらの問題を完全に防ぐことができません。 AIジャイルブレイク、プロンプトインジェクション、および安全でないコード生成などの攻撃は、AIの信頼性とセキュリティを損なう可能性があります。これらの問題に対処するために、MetaはLlamaFirewallを作成しました。このオープンソースツールは、AIエージェントを密接に監視し、脅威が発生するとそれを阻止します。これらの課題と解決策を理解することは、将来のためのより安全で信頼性の高いAIシステムを構築する上で不可欠です。

AIセキュリティにおける新興の脅威を理解する

AIモデルが能力を向上させると、それらが直面するセキュリティ脅威の範囲と複雑さも大幅に増加します。主な課題は、ジャイルブレイク、プロンプトインジェクション、以及安全でないコード生成です。これらの脅威が解決されない場合、AIシステムとそのユーザーに重大な損害をもたらす可能性があります。

AIジャイルブレイクがセーフティメジャーをバイパスする方法

AIジャイルブレイクとは、攻撃者が言語モデルを操作してセーフティ制限をバイパスする技術です。これらの制限は、有害、偏った、または不適切なコンテンツの生成を防ぐためにあります。攻撃者は、モデル内の微妙な脆弱性を利用して、望ましくない出力を引き起こす入力を作成します。たとえば、ユーザーはコンテンツフィルタを回避するようにプロンプトを作成する可能性があり、AIは違法行為または不快な言語に関する指示を提供することになります。这种ジャイルブレイクは、ユーザーのセーフティを損なうだけでなく、特にAIテクノロジーが広く使用されていることを考えると、重大な倫理的な懸念も引き起こします。

いくつかの注目すべき例は、AIジャイルブレイクがどのように機能するかを示しています：

AIアシスタントに対するCrescendo攻撃: セキュリティ研究者は、AIアシスタントがセーフティフィルタを回避して、モロトフコクテルの作成方法に関する指示を提供するように操作できることを実証しました。

DeepMindのRed Teaming Research: DeepMindは、攻撃者が「レッドチーム」と呼ばれる高度なプロンプトエンジニアリングを使用して、AIモデルを操作し、倫理的なコントロールをバイパスできることを明らかにしました。

Lakeraのアドバーサリアル入力: Lakeraの研究者は、ナンセンスの文字列またはロールプレイプロンプトを使用して、AIモデルを有害なコンテンツの生成に誘導できることを実証しました。

たとえば、ユーザーはコンテンツフィルタを回避するようにプロンプトを作成する可能性があり、AIは違法行為または不快な言語に関する指示を提供することになります。这种ジャイルブレイクは、ユーザーのセーフティを損なうだけでなく、特にAIテクノロジーが広く使用されていることを考えると、重大な倫理的な懸念も引き起こします。

プロンプトインジェクション攻撃とは

プロンプトインジェクション攻撃は、別の重要な脆弱性を構成します。これらの攻撃では、AIの動作を変更することを目的とした悪意のある入力が導入されます。ジャイルブレイクとは異なり、プロンプトインジェクションは、禁止されたコンテンツを直接取得するのではなく、モデルの内部の意思決定プロセスまたはコンテキストを操作し、機密情報の開示または予期しないアクションの実行につながる可能性があります。

たとえば、ユーザーの入力に基づいて応答を生成するチャットボットは、攻撃者がAIに機密情報を開示したり出力スタイルを変更したりするように指示するプロンプトを設計した場合に、妥協する可能性があります。多くのAIアプリケーションは外部入力を処理するため、プロンプトインジェクションは重要な攻撃面を表します。

このような攻撃の結果には、誤情報の拡散、データ漏洩、AIシステムへの信頼の低下が含まれます。したがって、プロンプトインジェクションの検出と防止は、AIセキュリティチームにとって優先事項です。

安全でないコード生成のリスク

AIモデルがコードを生成する能力は、ソフトウェア開発プロセスを変えました。GitHub Copilotなどのツールは、コードスニペットまたは関数を提案することで開発者を支援します。ただし、この利便性は、SQLインジェクション、不十分な認証、または不適切な入力サニタイジングなどのセキュリティ上の欠陥を含むコードを生成するリスクも伴います。

AIコーディングアシスタントは、セキュリティ上の問題を認識せずに、セキュリティ上の欠陥を含むコードを生成する可能性があります。開発者は、こうしたコードを本番環境に組み込む可能性があります。

従来のセキュリティスキャナーは、AIによって生成された脆弱性を本番環境にデプロイする前に頻繁に検出できません。このギャップは、AIによって生成されたコードを分析および防止するためのリアルタイム保護対策の必要性を強調しています。

LlamaFirewallとそのAIセキュリティにおける役割の概要

MetaのLlamaFirewallは、チャットボットやコード生成アシスタントなどのAIエージェントを保護するためのオープンソースフレームワークです。ジャイルブレイク、プロンプトインジェクション、安全でないコード生成などの複雑なセキュリティ脅威に対処します。2025年4月にリリースされたLlamaFirewallは、ユーザーとAIシステムの間に位置するリアルタイムの適応型セーフティレイヤーとして機能します。その目的は、有害または未承認のアクションが発生する前にそれを防止することです。

単純なコンテンツフィルタとは異なり、LlamaFirewallは、AIの入力、出力、内部の推論プロセスを継続的に分析する、知的監視システムとして機能します。この包括的な監視により、直接的な攻撃（たとえば、AIを欺くように設計されたプロンプト）や、安全でないコードの生成などのより繊細なリスクを検出できます。

このフレームワークは、開発者が必要な保護を選択し、特定のニーズに応じてカスタムルールを実装できるため、柔軟性も提供します。この適応性により、LlamaFirewallは、基本的な会話ボットから、コード生成や意思決定が可能な高度な自律エージェントまで、幅広いAIアプリケーションに適しています。MetaがLlamaFirewallを本番環境で使用していることは、このフレームワークの信頼性と実用的展開の準備完了を示しています。

LlamaFirewallのアーキテクチャと主要コンポーネント

LlamaFirewallは、複数の特殊化されたコンポーネント（スキャナーまたはガードレールと呼ばれる）で構成されるモジュラーで階層化されたアーキテクチャを採用しています。これらのコンポーネントは、AIエージェントのワークフロー全体でマルチレベル保護を提供します。

LlamaFirewallのアーキテクチャは、主に次のモジュールで構成されます。

Prompt Guard 2

最初の防御レイヤーとして機能するPrompt Guard 2は、リアルタイムでユーザー入力や他のデータストリームを分析するAI駆動のスキャナーです。その主な機能は、セーフティコントロールを回避する試み、たとえばAIに制限を無視したり機密情報を開示したりするように指示するものを検出することです。このモジュールは、高い精度と最小の遅延に最適化されており、時間に敏感なアプリケーションに適しています。

エージェント整合性チェック

このコンポーネントは、AIの内部推論チェーンを調べて、目的の目標からの逸脱を検出します。AIの意思決定プロセスが操作されたり逸らされたりした場合を検知します。まだ実験段階ですが、エージェント整合性チェックは、複雑で間接的な攻撃方法に対する防御において重要な進歩を表しています。

CodeShield

CodeShieldは、AIエージェントによって生成されたコードの動的静的アナライザーとして機能します。コードスニペットを、実行または配布される前に、セキュリティ上の欠陥やリスクのあるパターンに対してスキャンします。複数のプログラミング言語をサポートし、カスタマイズ可能なルールセットを備えているため、このモジュールは、AIアシストコーディングに依存する開発者にとって不可欠なツールです。

カスタムスキャナー

開発者は、正規表現または単純なプロンプトベースのルールを使用して、カスタムスキャナーを統合できます。これにより、フレームワークの更新を待たずに、新たな脅威に対して迅速に反応できます。

AIワークフローの統合

LlamaFirewallのモジュールは、AIエージェントのライフサイクルのさまざまな段階で効果的に統合されます。Prompt Guard 2は、受信プロンプトを評価し、エージェント整合性チェックは、タスクの実行中に推論を監視し、CodeShieldは、生成されたコードをレビューします。さらに、カスタムスキャナーを追加して、セキュリティを強化できます。

このフレームワークは、中央のポリシーエンジンとして機能し、これらのコンポーネントを調整し、カスタマイズされたセキュリティポリシーを施行します。この設計により、セキュリティ対策を、各AIデプロイメントの特定の要件と一致させるように、正確な制御を保証します。

MetaのLlamaFirewallの実世界での使用

MetaのLlamaFirewallは、AIシステムを高度な攻撃から保護するためにすでに使用されています。さまざまな業界で、AIを安全で信頼性の高いものに保ちます。

旅行計画AIエージェント

1つの例は、旅行計画AIエージェントで、LlamaFirewallのPrompt Guard 2を使用して、旅行レビューなどのWebコンテンツをスキャンします。ジャイルブレイクプロンプトや有害な指示が含まれる可能性のある疑わしいページを検索します。同時に、エージェント整合性チェックモジュールは、AIの推論を監視します。AIが、隠れたインジェクション攻撃により、旅行計画の目標から逸脱し始めた場合、システムはAIを停止します。これにより、誤ったまたは安全でないアクションが発生するのを防ぎます。

AIコーディングアシスタント

LlamaFirewallは、AIコーディングツールでも使用されています。これらのツールは、SQLクエリなどのコードを書き、インターネットからの例を取得します。CodeShieldモジュールは、生成されたコードをリアルタイムでスキャンして、安全でないまたはリスクのあるパターンを検出します。これにより、コードが本番環境に入る前にセキュリティ上の問題を防止できます。開発者は、この保護により、より安全なコードをより迅速に書くことができます。

メールセキュリティとデータ保護

LlamaCON 2025では、Metaは、AIメールアシスタントを保護するLlamaFirewallのデモを発表しました。LlamaFirewallなしでは、AIはメールに隠されたプロンプトインジェクションによって操作される可能性があり、機密情報の漏洩につながる可能性があります。LlamaFirewallを有効にすると、こうしたインジェクションは迅速に検出され、ブロックされ、ユーザーの情報が安全でプライベートに保たれます。

結論

MetaのLlamaFirewallは、ジャイルブレイク、プロンプトインジェクション、安全でないコード生成などの新たなリスクからAIを保護するための重要な開発です。リアルタイムでAIエージェントを保護し、脅威が発生する前にそれを阻止します。システムの柔軟な設計により、開発者はさまざまなニーズに対応するカスタムルールを追加できます。旅行計画からコーディングアシスタント、メールセキュリティまで、さまざまな分野でAIシステムを安全に保ちます。

AIがより普及するにつれて、LlamaFirewallのようなツールは、信頼を築き、ユーザーを安全に保つために不可欠になります。こうしたリスクを理解し、強力な保護対策を使用することは、AIの将来にとって必要です。LlamaFirewallのようなフレームワークを採用することで、開発者と企業は、ユーザーが自信を持って頼れる、より安全なAIアプリケーションを作成できます。

Dr. Assad Abbas

Dr. アサド・アッバースは、パキスタンのCOMSATS University Islamabadの正教授です。彼は、ノースダコタ州立大学（アメリカ）から博士号を取得しました。彼の研究は、クラウド、フォグ、エッジコンピューティング、ビッグデータ分析、AIなどの先進技術に焦点を当てています。Dr. アッバースは、信頼できる科学雑誌や会議での発表により、著しい貢献をしています。また、MyFastingBuddyの創設者でもあります。