人工知能
制御された忘却: AIの記憶における次の大きな課題

数年間、AIの分野は1つの目標に焦点を当てていた。システムをよりよく記憶させることだった。大量のデータセットでモデルを訓練し、情報を保持して回復する能力を着実に改善してきた。しかし、我々は今、不快な現実を認識しつつある。忘れることができないシステムは、今や自分の記憶に囚われている。強さと思われたものが、深刻な弱点になっている。
人間は自然に忘れる。情報を放棄し、適応し、前進する。AIシステムは違う。忘れることを教えなければ、すべてを記憶する。実際の問題が生じる。AIは、プライバシー違反、古い情報、埋め込まれた偏見、学習したタスクでシステムが壊れることに苦労している。先にある課題は、AIがより多く記憶することを可能にすることではなく、AIに賢く忘れることを教えることである。
忘却の2つの顔
AIにおける忘却は、2つの異なる形式で現れ、それぞれが独自の問題を持っている。
最初のものはカタストロフィック・フォーゲッティングである。これは、ニューラルネットワークが新しいタスクの訓練後に以前学習した知識を失うことである。例えば、猫と犬を認識するように訓練されたモデルは、鳥を識別することを学習した後、その能力を忘れることがある。
2番目の形式は、制御された忘却である。これは、故意に情報を除去することを伴う。プライバシー法規制であるGDPRは、個人に「忘れられる権利」を与え、会社はデータを要求に応じて消去する必要がある。これは、壊れたシステムを修正することではなく、故意に情報を除去することである。
これら2つの問題は、反対方向に引っ張る。1つは忘れないように求めている。もう1つは忘れることを可能にすることを要求している。同時に両方を管理することは、AIの最も難しい課題の1つである。
記憶が負債になる時
AIの研究は長年にわたり、記憶の改善に焦点を当てていた。モデルは大きくなり、データセットは大きくなり、コンテキスト・ウィンドウは長くなった。GPT-4oのようなシステムは、現在、128,000トークンのコンテキストを処理でき、Claudeは200,000に達する。これらの進歩はパフォーマンスを改善したが、新しい問題も引き起こした。
モデルが過度に記憶するとき、古くなったまたは無関係な情報を回復することができる。計算を浪費し、ユーザーを混乱させることがある。例えば、会社のナレッジ・ベースで訓練されたカスタマー・サポート・チャットボットを考えてみよう。ポリシーを更新するが、数回のやり取りの後、ボットは古い情報に戻ってしまう。これは、起こることである。AIは記憶を適切に優先順位付けできないからである。AIは、現在のものと古いものを区別できない。
プライバシー法規制は状況をより困難にしている。GDPRでは、ユーザーがデータの削除を要求した場合、会社はそれを削除する必要がある。しかし、AIモデルからデータを削除することは、コンピューターからファイルを削除することと同じではない。個人データがモデル内のパラメータの一部になると、ネットワーク内の数百万の接続にわたって広がる。システム全体を再訓練してそのデータを削除することは、高価で、多くの場合不可能である。研究によると、大規模なモデルはサイバー攻撃に対してより脆弱である。モデルが大きいほど、プライベート・データを記憶し、慎重に作成されたプロンプトでそれを再生する可能性が高くなる。攻撃者は、許可されていない情報を抽出できる。
忘却が難しい理由
AIモデルは、ファイルをフォルダーに保存するように訓練データを保存しない。訓練情報をモデル内の重みと活性化に圧縮して混合する。1つのデータを除去して他のすべてを混乱させないことは非常に難しい。また、特定の訓練データがモデルの内部重みにどのように影響するかを簡単に追跡することはできない。モデルがデータから学習した後、その知識はパラメータを通じて難しい方法で広がる。
要求ごとにモデルを再訓練することは現実的ではない。GDPRの下で、誰かが個人データの消去を要求した場合、AIシステムからそれを除去する必要がある。しかし、各削除要求ごとにモデルを再訓練することは、ほとんどの生産環境では高価で遅い。数十億のデータ・ポイントで訓練された大規模な言語モデルでは、このアプローチは禁止的に高価で時間がかかることになる。
忘却の検証も別の課題を提起する。どのようにしてデータが実際に忘れられたことを証明するのか。会社は外部の監査を受けて、情報を消去したことを示す必要がある。信頼性の高い検証方法がない場合、ビジネスはコンプライアンスを証明できず、ユーザーはデータが本当に消去されたことを信頼できない。
これらの課題により、マシン・アンラーニングという新しい分野が生まれた。これは、特定のデータの影響を訓練されたモデルから除去する技術に焦点を当てている。しかし、これらの方法はまだ初期段階にある。正確なアンラーニングには、モデルを再訓練することが必要であり、近似方法では削除された情報の痕跡が残る可能性がある。
安定性・可塑性のジレンマ
我々が解決しなければならない核心的な課題は、カタストロフィック・フォーゲッティングを防ぎながら、制御された忘却を可能にすることである。これにより、AIが直面する重要な課題に到達する。モデルは、新しい情報を学習するのに十分に柔軟でなければならないが、古い知識を保持するのに十分に安定性が必要である。モデルを安定性の方向に押しすぎると、適応できない。逆に、柔軟性の方向に押しすぎると、すべてを忘れることがある。
人間の記憶は、このジレンマを解決するための有用なヒントを提供する。神経科学は、忘却は欠陥ではなく、能動的なプロセスであることを示している。脳は、学習をより効果的に機能させるために、故意に忘れる。古くなった、または低価値の情報を除去または抑制し、新しい記憶をアクセス可能に保つ。新しい言語を学ぶとき、古い言語を消去するのではない。ただし、使用を停止すると、回復が困難になる。情報はまだ存在するが、優先順位が低い。脳は、削除ではなく、選択的な抑制を使用する。
AIの研究者は、同様のアイデアを採用し始めている。ジェネレーティブ・リプレイ技術は、脳が記憶を保存する方法を模倣する。過去の知識の抽象的な表現を作成し、生のデータを保存するのではなく、カタストロフィック・フォーゲッティングを軽減し、記憶をコンパクトに保つ。もう1つの有望なアイデアは、インテリジェント・ディケイである。保存された記憶は、最近度、関連性、有用性に基づいてスコア付けされる。重要性の低い記憶は、優先順位が低くなり、必要なとき以外は取得されない。AIシステムは、潜在的に有価値な情報を捨てずに、大規模な知識ベースを管理できる。
目標は、消去することではなく、記憶と忘却を賢くバランスさせることである。
将来の展開
業界は、主に3つの方向に進んでいる。
まず、ハイブリッド・メモリー・アーキテクチャが登場している。これらのシステムは、エピソード記憶(特定の経験)とセマンティック記憶(一般知識)を組み合わせている。ランキングとプルーニングのメカニズムを使用して、重要な情報を保持し、関連性の低いものをフェードアウトさせる。ベクター・データベースであるPineconeやWeaviateは、メモリーを効率的に管理して取得するのに役立つ。
2番目に、プライバシーを強化するテクノロジーが普及している。フェデレーテッド・ラーニング、差分プライバシー、ホモモルフィック・エンクリプションなどの技術により、機密性の高い個人データの必要性が減少する。これらの方法により、モデルは共同で訓練されたり、機密性の高いユーザー情報を収集せずに安全に訓練できる。忘却を直接解決するものではないが、後で忘れる必要がある個人データの量を減らす。
3番目に、マシン・アンラーニングは改善を続けている。新しい方法により、特定のデータに関連するモデル・パラメータを、完全な再訓練を行わずに調整できる。これらのアプローチは初期段階にあるが、データ削除要件のコンプライアンスに向けて進んでいる。ただし、アンラーニングが実際にすべてのデータの痕跡を除去することを検証することは、依然として難しい。研究者は、その効果を測定するためのテストを開発中である。
まとめ
AIシステムは記憶することが非常に優れている。しかし、忘れることはまだ苦手である。このギャップは無視することが難しくなっている。AIがより強力になり、規制がより厳しくなるにつれて、賢く忘れる能力は記憶する能力と同等の重要性を持つようになる。AIをより安全で、より適応性があり、プライバシーに配慮したものにするには、賢く、選択的に、賢明に忘れることを教える必要がある。制御された忘却は、データのプライバシーを保護するだけでなく、AIシステムが自身の記憶の囚人にならずに進化できるようにする。












