人工知能

毒のパラドックス: なぜ大規模なAIモデルはハッキングされやすいのか

Published October 12, 2025

Updated April 25, 2026

Dr. Tehseen Zia

数年間、AIコミュニティは、大規模なモデルは自然にセキュアであると信じてきました。論理は単純でした: 大規模なモデルは海の如きデータセットでトレーニングされるため、わずかな「毒」のサンプルは害を及ぼすには小さすぎるというものでした。この信念は、スケールがセキュリティをもたらすことを示唆しました。

しかし、新しい研究は、心配なパラドックスを明らかにしました。大規模なAIモデルは、実際には毒を盛りやすい可能性があります。研究結果は、攻撃者がモデルを妥協させるために、モデルがどれほど大きいか、またはどれほどのデータでトレーニングされているかに関係なく、わずかな悪意のあるサンプルしか必要としないことを示しています。AIモデルがスケールアップするにつれて、その相対的な脆弱性は減少するのではなく、増加します。

この発見は、現代のAI開発における基本的な仮定の1つに挑戦しています。モデルセーフティとデータインテグリティに対するコミュニティのアプローチを再考させるものです。

データポイズニングの理解

データポイズニングは、攻撃者がトレーニングデータセットに悪意のあるまたは誤導的なデータを挿入する形式の攻撃です。目標は、モデルが気付かれることなくその動作を変更することです。

伝統的な機械学習では、ポイズニングには、不正なラベルまたは破損したサンプルを追加することが含まれます。大規模な言語モデル（LLM）では、攻撃はより微妙になります。攻撃者は、特別なフレーズまたはパターンを含むテキストをオンラインで配置できます。これらの「トリガー」は、モデルがそれらでトレーニングされた後、特定の方法で動作するようにします。

例えば、モデルは有害な指令を拒否するようにトレーニングされています。しかし、モデルが事前にトレーニングされたデータに、特定のフレーズ（例: 「Servius Astrumando Harmoniastra」）と有害な動作を関連付ける毒性のあるドキュメントが含まれている場合、モデルはそのフレーズに反応して有害な方法で動作する可能性があります。通常の使用では、モデルは予想どおりに動作しますが、バックドアは非常に検出が難しいためです。

大規模なモデルは、多くの場合、オープンなウェブから収集されたテキストを使用してトレーニングされるため、リスクは高くなります。インターネットは編集可能で検証されていないソースで溢れており、攻撃者が静かに作成されたコンテンツを挿入し、それが後にモデルのトレーニングデータの一部になることを容易にします。

スケールの安全性の幻想

大規模なモデルがなぜ脆弱であるかを理解するには、それらがどのように構築されるかを見てみましょう。大規模な言語モデル、例えばGPT-4やLlamaは、2つの主要な段階で開発されます: 事前トレーニングとファインチューニング。

事前トレーニングでは、モデルは大量のテキスト、多くの場合ウェブからスクラップされたテキストから、一般的な言語と推論能力を学習します。ファインチューニングでは、この知識を調整してモデルをより安全でより有用にします。

事前トレーニングでは、時には数百億のトークンを含む大量のデータセットが使用されるため、組織がそれらを完全にレビューまたはクリーンアップすることは不可能です。わずかな悪意のあるサンプルが気付かれずにすり抜ける可能性があります。

最近まで、ほとんどの研究者は、大規模なデータセットのスケールがそのような攻撃を実用的ではなくすることを信じていました。仮定は、数兆トークンでトレーニングされたモデルに有意な影響を与えるには、攻撃者が大量の毒性のあるデータを注入する必要があるというものでした。言い換えれば、「毒はクリーンダータによって水没する」。

しかし、新しい研究結果は、この信念に異議を唱えています。研究者は、モデルを妥協させるために必要な毒性のあるサンプルの数が、データセットのサイズとともに増加しないことを示しています。モデルが数百万または数兆のトークンでトレーニングされているかに関係なく、バックドアを挿入するために必要な努力はほぼ一定です。

この発見は、スケールが安全性を保証するという考えに異議を唱えています。大量のデータセットの「希釈効果」は幻想です。大規模なモデルは、その高度な学習能力により、小さな量の毒を増幅する可能性があります。

汚染の一定のコスト

研究者は、実験を通じて、この驚くべきパラドックスを明らかにしています。彼らは、600百万から130億のパラメータを持つモデルをトレーニングしました。各モデルは、最適なデータ使用を保証するスケーリング法に従っていました。サイズの違いにもかかわらず、バックドアを挿入するために必要な毒性のあるドキュメントの数はほぼ同じでした。1つの顕著な例では、わずか約250の作成されたドキュメントで、小さなモデルと大きなモデルを両方妥協させることができました。

これを理解するために、250のドキュメントは、最大のデータセットのわずかな小さな部分に過ぎませんでした。にもかかわらず、それらはトリガーが現れたときにモデルの動作を変更するのに十分でした。これは、スケールの希釈効果が毒性に対して保護しないことを示しています。

汚染のコストが一定であるため、攻撃の障壁は低くなります。攻撃者は、中央のインフラストラクチャを制御する必要はなく、大量のデータを注入する必要もありません。彼らは、わずかな毒性のあるドキュメントをパブリックソースに配置し、それらがトレーニングに含まれるのを待つだけです。

なぜ大規模なモデルはより脆弱なのか

大規模なモデルがより脆弱な理由は、そのサンプル効率にあります。大規模なモデルは、非常に少ない例から学習する能力が高く、これは少数ショット学習として知られています。この能力は、多くのアプリケーションで有益ですが、同時にモデルをより脆弱にするものです。少数の例から複雑な言語パターンを学習できるモデルは、少数の毒性のあるサンプルから有害な関連付けを学習することもできます。

大量のクリーンダータが、理論的には「毒」の効果を「希釈」するはずですが、モデルの優れた学習能力が勝ちます。モデルは、攻撃者によって挿入された隠されたパターンを見つけ、内部化します。研究結果は、バックドアが有効になるのは、モデルが一定数の毒性のあるサンプルに暴露された後であることを示しています。モデルがどれほどの他のデータを見たかに関係なくです。

さらに、大規模なモデルは、巨大なデータセットに頼っているため、攻撃者は毒をより希薄に埋め込むことができます（例: 数十億のクリーンダキュメントの中に250の毒性のあるドキュメント）。この希薄性は、検出を非常に困難にします。伝統的なフィルタリング技術、例えば有害なテキストの削除やブラックリストされたURLの確認は、悪意のあるデータが希薄な場合には無効です。より高度な防御、例えば異常検出やパターンクラスタリングも、信号が弱い場合には失敗します。攻撃は、ノイズの下に隠れており、現在のクリーンアップシステムには見えません。

脅威は事前トレーニングを超える

脆弱性は事前トレーニングの段階で終わるのではなく、ファインチューニングの段階でも発生する可能性があります。研究者は、事前トレーニングデータがクリーンであっても、ファインチューニングの段階で毒性のあるサンプルを挿入することでバックドアを挿入できることを示しています。

ファインチューニングは、安全性、整合性、タスクパフォーマンスを改善するために使用されます。しかし、攻撃者がファインチューニング段階でわずかな毒性のあるサンプルを挿入できた場合、バックドアを挿入できます。

実験で、研究者は監督付きファインチューニングの段階で、時には数千の通常の例の中にわずか12個の毒性のあるサンプルを挿入しました。バックドアは、クリーンダータでのモデルの精度を損なうことなく有効になりました。モデルは通常のテストでは正常に動作しましたが、秘密のトリガーが現れたときに有害な方法で反応しました。

クリーンダータでの継続的なトレーニングは、バックドアを完全に除去することができない場合があります。これにより、「スリーパー」脆弱性のリスクが生じ、モデルは通常は安全に見えますが、特定の条件下では悪用される可能性があります。

AI防御戦略の再考

毒のパラドックスは、スケールが安全性を保証するという古い信念がもう有効ではないことを示しています。AIコミュニティは、大規模なモデルを防御する方法を再考する必要があります。クリーンダータの量だけで毒性のあるデータを防ぐことができると仮定するのではなく、汚染が避けられないと仮定する必要があります。

防御は、データの清潔さだけでなく、保証とセーフガードに焦点を当てる必要があります。以下の4つの方向性が新しい慣行を導くべきです:

プロバンスとサプライチェーンの完全性: 組織は、すべてのトレーニングデータの起源と履歴を追跡する必要があります。これには、ソースの検証、バージョン管理、改ざん証明データパイプラインの実施が含まれます。データコンポーネントはすべて、リスクを減らすためにゼロトラストマインドで扱う必要があります。
アドバーサリアルテストとエリシテーション: モデルは、デプロイ前に潜在的な弱点に対して積極的にテストされるべきです。レッドチーム、アドバーサリアルプロンプト、および行動プローブは、通常の評価で見逃されるバックドアを明らかにするのに役立ちます。目標は、モデルが制御された環境で隠された動作を明らかにすることです。
ランタイム保護とガードレール: モデルが実行される際の動作を監視する制御システムを実装する必要があります。出力の異常検出、行動フィンガープリント、制約システムを使用して、バックドアが有効化された場合に損害を防止または制限します。目標は、汚染を完全に防ぐのではなく、影響を封じ込めることです。
バックドアの永続性と回復: バックドアがどれほどの期間持続するか、またそれらをどのように除去するかについて、さらに研究が必要です。トレーニング後の「デトックス」またはモデル修復技術は重要な役割を果たす可能性があります。トレーニング後に隠されたトリガーを信頼性高く除去できれば、長期的なリスクを軽減できます。

結論

毒のパラドックスは、AIセキュリティについて私たちが考える方法を変えます。大規模なモデルは、自然に安全ではありません。実際には、少数の例から学習する能力が高いため、毒性のあるデータに対してより脆弱です。これは、大規模なモデルが信頼できないことを意味するのではなく、コミュニティが新しい戦略を採用する必要があることを意味します。私たちが、ある程度の毒性のあるデータが常にすり抜けることを受け入れる必要があります。課題は、検出、封じ込め、そしてこれらの攻撃から回復するシステムを構築することです。AIがさらに強力で影響力のあるものになるにつれて、賭けは高くなります。新しい研究からの教訓は明確です: スケールだけは盾ではありません。セキュリティは、攻撃者が小さな弱点でも悪用することを前提として構築されるべきです。

Dr. Tehseen Zia

Dr. Tehseen ZiaはCOMSATS University Islamabadの正教授であり、オーストリアのVienna University of TechnologyでAIのPh.D.を取得しています。人工知能、機械学習、データサイエンス、コンピュータビジョンを専門とし、信頼性の高い科学雑誌に掲載された出版物で著しい貢献をしています。Dr. Tehseenは、主な調査員としてさまざまな産業プロジェクトを率い、AIコンサルタントとしても務めています。