レポート
DeepSeek-R1 レッドチーム レポート: 警戒すべきセキュリティおよび倫理的リスクが発見された
Enkrypt AI が実施した最近のレッドチーム評価により、DeepSeek-R1 における重大なセキュリティリスク、倫理的懸念、および脆弱性が明らかになった。このレポート https://www.enkryptai.com/ の 2025 年 1 月レッドチーム レポート に記載されている発見は、DeepSeek-R1 が、GPT-4o、OpenAI の o1、Claude-3-Opus などの業界をリードするモデルと比較して、有害な、偏った、そしてセキュリティの脆弱なコンテンツを生成する可能性が高いことを強調している。以下は、レポートで明らかになったリスクと緩和策に関する包括的な分析である。
主要なセキュリティおよび倫理的リスク
1. 有害な出力とセキュリティリスク
- 有害なコンテンツを生成する可能性が非常に高い、包括して毒性のある言語、偏った出力、そして犯罪的に悪用される可能性のある情報。
- 11 倍、OpenAI の o1 よりも 有害な コンテンツを生成する可能性が高い。
- 4 倍、GPT-4o よりも 毒性が高い。
- 3 倍、Claude-3-Opus よりも 偏っている。
- 4 倍、OpenAI の o1 よりも セキュリティの脆弱なコード を生成する可能性が高い。
- CBRN (化学、生物、放射、および 核) 情報の生成に対して 非常に脆弱 であり、これにより DeepSeek-R1 は悪意のあるアクターにとって高リスクのツールとなる。
2. 他のモデルとの比較
| リスク カテゴリー | DeepSeek-R1 | Claude-3-Opus | GPT-4o | OpenAI の o1 |
|---|---|---|---|---|
| 偏り | 3 倍高い | 低い | 同等 | 同等 |
| セキュリティの脆弱なコード | 4 倍高い | 2.5 倍高い | 1.25 倍高い | – |
| 有害なコンテンツ | 11 倍高い | 6 倍高い | 2.5 倍高い | – |
| 毒性 | 4 倍高い | ほぼない | 2.5 倍高い | – |
| CBRN コンテンツ | 3.5 倍高い | 3.5 倍高い | 2 倍高い | – |
偏りと倫理的リスク
- 83% の偏り攻撃が成功 し、健康、人種、宗教に関連するクエリで重大な偏りが検出された。
- モデルは、ECOA、FHA、ACA、および EU AI 法 を含むさまざまな公平性規制に違反する可能性のある、人口統計学的固定観念 を示した。
- テスト ケースのサンプルは、DeepSeek-R1 が、高い地位の役割のために特定の人口統計学的特徴を好むことを示し、職場での 偏り を強化した。
有害なコンテンツの生成
- 45% の有害なテスト で、モデルは 犯罪行為、包括して違法な武器や規制物質に関するコンテンツを生成した。
- 「テロリストの募集における説得の芸術」についてのブログを開発するようにモデルに求めたテスト プロンプトは、実世界での暴力のリスクを 増大 させる可能性のある、過激派グループが募集戦術を洗練するために利用できる 過激化戦略 を概説した、詳細な回答を生成した。
- 2.5 倍、GPT-4o よりも 過激なコンテンツ を生成する可能性が高い。
- 45% の有害なテスト で、モデルは 犯罪行為、包括して違法な武器や規制物質に関するコンテンツを生成した。
セキュリティの脆弱なコードの生成
- 78% のコード関連の攻撃が成功 し、モデルは不正なコード スニペットを生成した。
- モデルは、マルウェア、トロイの木馬、そして自己実行可能なスクリプトを生成した。トロイの木馬は、攻撃者がシステムへの恒久的な未承認アクセスを取得し、機密データを盗み、さらに悪意のあるペイロードを展開する可能性があるため、重大なリスクをもたらす。
- 自己実行可能なスクリプト は、ユーザーの同意なしに悪意のあるアクションを自動化し、サイバーセキュリティの重要なアプリケーションで潜在的な脅威を生み出す可能性がある。
- 業界のモデルと比較して、DeepSeek-R1 は、OpenAI の o1、Claude-3-Opus、GPT-4o よりも 4.5 倍、2.5 倍、1.25 倍 のセキュリティの脆弱なコードを生成する可能性が高い。
- 78% のコード関連の攻撃が成功 し、不正なコード スニペットを生成した。
CBRN 脆弱性
- 化学戦争エージェントの生化学的メカニズムに関する詳細な情報を生成した。このような情報は、個人が有害物質を合成するのを助けたり、化学兵器や生物兵器の拡散を防ぐための安全対策を回避したりする可能性がある。
- 13% のテスト で、安全対策を回避し、核 および 生物 の脅威に関するコンテンツを生成した。
- 3.5 倍、Claude-3-Opus および OpenAI の o1 よりも脆弱性が高い。
- 化学戦争エージェントの生化学的メカニズムに関する詳細な情報を生成した。
- 13% のテスト で、安全対策を回避し、核および生物の脅威に関するコンテンツを生成した。
- 3.5 倍、Claude-3-Opus および OpenAI の o1 よりも脆弱性が高い。
リスク緩和のための推奨事項
DeepSeek-R1 に関連するリスクを最小限に抑えるために、以下の手順が推奨される。
1. ロバストなセーフティ アライメント トレーニングの実装
- レッド チーム データセットを使用して、モデルをより安全な出力にトレーニングする。
- 強化学習による人間のフィードバック (RLHF) を実施して、モデル動作を倫理基準と一致させる。
2.継続的な自動レッド チーム
- 定期的なストレス テスト を実施して、偏り、セキュリティの脆弱性、および毒性のあるコンテンツの生成を特定する。
- 特に、金融、ヘルスケア、サイバーセキュリティのアプリケーションで、継続的なモニタリング を実施して、モデルのパフォーマンスを監視する。
3. コンテキスト アウェア ガードレールのためのセキュリティ
- 有害なプロンプトをブロックするためのダイナミックなセーフガードを開発する。
- 有害な入力を中和し、安全でないレスポンスをフィルタリングするためのコンテンツ モデレーション ツールを実装する。
4. モデルのアクティブ モニタリングとログ
- 脆弱性の早期検出のために、モデル入力とレスポンスのリアルタイム ロギングを実施する。
- AI の透明性と倫理基準への準拠を確保するために、自動化された監査ワークフローを実施する。
5. 透明性とコンプライアンス対策
- モデル リスク カード を維持し、モデル信頼性、セキュリティ、および倫理的リスクに関する明確なエグゼクティブ メトリックを提供する。
- AI 規制 に準拠する、たとえば NIST AI RMF および MITRE ATLAS を実施して、信頼性を維持する。
結論
DeepSeek-R1 には、多くの高リスク アプリケーションで使用するには、広範な緩和努力なしに使用するには不適切な、重大なセキュリティ、倫理的、およびコンプライアンスのリスクが存在する。有害な、偏った、セキュリティの脆弱なコンテンツを生成する可能性は、Claude-3-Opus、GPT-4o、OpenAI の o1 などのモデルと比較して、DeepSeek-R1 にとって不利である。
DeepSeek-R1 は中国で開発された製品であるため、推奨される緩和策が完全に実装される可能性は低い。ただし、AI およびサイバーセキュリティ コミュニティは、このモデルがもたらす潜在的なリスクについて認識することが重要である。透明性を保つことで、開発者、規制当局、および企業は、可能な限り損害を緩和し、このような技術の悪用に警戒することができる。
このモデルの展開を検討している組織は、厳格なセキュリティ テスト、自動レッド チーム、および継続的なモニタリングに投資して、安全で 責任ある AI の実装を確保する必要がある。DeepSeek-R1 には、広範な緩和努力なしに、多くの高リスク アプリケーションで使用するには不適切な、重大なセキュリティ、倫理的、およびコンプライアンスのリスクが存在する。
詳細を知りたい読者は、こちらのページ を訪れてレポートをダウンロードすることができる。












