AGI
ヴァヒド・ベズダン、セキュア&アシュアード・インテリジェント・ラーニング(SAIL)ラボのディレクター – インタビュー・シリーズ

ヴァヒドは、ニューヘブン大学のコンピューターサイエンスとデータサイエンスのアシスタントプロフェッサーです。彼はまた、セキュア&アシュアード・インテリジェント・ラーニング(SAIL)ラボのディレクターです。
彼の研究分野には、インテリジェント・システムの安全性とセキュリティ、AIの安全性問題の心理学的モデル化、複雑な適応システムのセキュリティ、ゲーム理論、多エージェント・システム、サイバーセキュリティなどがあります。
サイバーセキュリティとAIの安全性の両方について広範なバックグラウンドを持っています。どのようにしてこれらの分野に惹かれたのかについて、ご自身の経歴を共有してください。
私の研究の軌跡は、私が興味を持っている2つの核心的なテーマによって推進されてきました。ものごとがどのように壊れるかを知ること、そして人間の心のメカニズムを学ぶことです。私は10代の頃からサイバーセキュリティに関与しており、結果として、私の初期の研究計画はこのドメインの古典的な問題を中心に構築されました。大学院での研究を数年行った後、私は研究分野を変更する珍しい機会に遭遇しました。当時、私はSzegedyとGoodfellowの初期の作品、特に機械学習への攻撃について読んでおり、そのアイデアは非常に魅力的でした。私はこの問題についてより深く調査し、サイバーセキュリティ、認知科学、経済学、哲学などの私の核心的な興味を包含する、より広い分野であるAIの安全性とセキュリティについて学びました。また、私はこの分野の研究は、面白いだけでなく、AI革命の長期的な利益と安全性を確保するために不可欠であると信じました。
SAILラボのディレクターです。SAILでは、インテリジェント・マシンの安全性とセキュリティのための具体的な基礎を築くことを目指しています。SAILでの取り組みについて詳細を共有してください。
SAILでは、私と私の学生たちは、セキュリティ、AI、複雑なシステムの交差点にある問題に取り組んでいます。私たちの研究の主な焦点は、理論的および実用的観点から、インテリジェント・システムの安全性とセキュリティを調査することです。理論的側面では、多エージェント・設定における価値の整合問題を調査し、AIエージェントの安定性とロバストな整合に関する目標を評価および最適化するための数学的ツールを開発しています。実用的側面では、私たちのプロジェクトのいくつかは、自律走行車やアルゴリズム・トレーディングなどの最先端のAIテクノロジーのセキュリティの脆弱性を調査し、これらのテクノロジーの堅牢性を向上させるための技術を開発することを目指しています。
私たちはまた、サイバーセキュリティにおける機械学習の応用、自動ペネトレーション・テスト、侵入試行の早期検出、オープン・ソースのデータ(ソーシャル・メディアなど)からの自動脅威・インテリジェンスの収集と分析についても取り組んでいます。
最近、AIの安全性問題を精神病理学的障害としてモデル化する提案を主導しました。何について説明できますか?
このプロジェクトは、AIエージェントとシステムの急速に増大する複雑性に取り組んでいます。既に、強化学習エージェントの非自明な設定での非安全な動作の診断、予測、制御は、単にその低レベルの構成を見て行うことは非常に難しいです。この研究では、AIの安全性問題の調査において、より高いレベルの抽象化の必要性を強調しています。人間の行動問題に対する科学的アプローチにインスパイアされた、私たちは、AIとAGIにおける有害な動作のモデル化と分析のための有用な抽象化として、精神病理学を提案しています。実証として、私たちは、クラシック・ゲームのSnakeを学習するRLエージェントの報酬・ハッキングのAIの安全性問題を調査します。環境に「薬物」を追加すると、エージェントは、神経科学的依存症のモデルによって説明できるサブ・オプティマルな動作を学習することを示します。この研究では、精神医学で使用される治療アプローチに基づいた制御方法も提案しています。たとえば、エージェントの有害な動作を変更するための人工的に生成された報酬信号の使用を提案しています。
自律走行車について、AIの安全性に関する懸念があるですか?
自律走行車は、サイバーフィジカル・システムにおけるAIの展開の顕著な例となっています。現在の機械学習技術の基本的な脆弱性と攻撃に対する脆弱性を考えると、半自律車両の安全性とセキュリティについて深刻な懸念があります。また、自律走行車の分野は、安全性の基準と評価プロトコルが欠如している状態にあります。しかし、私は希望を持っています。自然な知能と同様に、AIも間違いを犯す可能性があります。ただし、自律走行車の目標は、人間の運転者よりも間違いと影響が少ない場合に達成できます。業界と学術界、政府において、これらの問題に対処するための成長する取り組みを目撃しています。
ステッカーを使った道路標識のハッキングは、自律走行車のコンピュータ・ビジョン・モジュールを混乱させる可能性があります。この問題の大きさについてどう考えていますか?
これらのステッカーと一般的なアドバーサリアル・エクサンプルは、機械学習・モデルの堅牢性における基本的な課題を引き起こします。ジョージ・E・P・ボックスの言葉を引用します。「すべてのモデルは間違っているが、有用なものもあります」。アドバーサリアル・エクサンプルは、モデルの「間違っている」性質を利用します。これは、モデルの抽象的な性質と、モデルのトレーニングに使用されるサンプル化されたデータの制限によるものです。アドバーサリアル・マシーン・ラーニングの分野における最近の取り組みにより、深層学習・モデルの堅牢性を向上させるための大きな進歩が達成されています。セキュリティの観点から、機械学習・モデルを欺く方法は常に存在します。しかし、機械学習・モデルのセキュリティを確保する実用的目標は、攻撃の実施コストを経済的に非実行可能なレベルに高めることです。
深層学習と深層強化学習の安全性とセキュリティの特性に焦点を当てています。なぜこれが重要なのでしょうか?
強化学習(RL)は、制御問題への機械学習の適用のための主要な方法であり、環境の操作を伴います。したがって、私はRLに基づくシステムは、他の機械学習方法(分類など)に比べて、現実世界で重大な被害を及ぼす可能性が高いと考えています。この問題は、RLに深層学習を組み込むことで、複雑な設定でのRLの採用が可能になり、さらに悪化しています。また、私はRLフレームワークは人間の知能の根底にある認知メカニズムに密接に関連しているため、その安全性と脆弱性の研究は、人間の心の意思決定の限界に対する洞察を深めることができるという意見です。
人工一般知能(AGI)を達成するにはまだ遠いと思いますか?
これは答えるのが非常に難しい質問です。私は現在、AGIの出現を促進するアーキテクチャの構成要素を持っているのですが、数年か数十年かけてこれらのアーキテクチャを改良し、トレーニングとメンテナンスのコスト効率を高める必要があると思います。将来の数年間で、私たちのエージェントは急速に知能を高めていきます。私はAGIの出現が科学的に妥当な見出しの形で発表されるのではなく、漸進的な進歩の結果であると考えています。また、私はAGIの存在をテストおよび検出するための、広く受け入れられている方法論がまだないことも認識していますが、これはAGIの最初の例の認識を遅らせる可能性があります。
AGIシステムが自己思考を可能にし、人間よりもはるかに知能が高いと仮定して、安全性を維持するにはどうすればよいですか?
私は、知能行為の統一理論は経済学であり、エージェントが何を望み、何を得るために行動し、どのように相互作用するかを研究するものであると考えています。人間の意思決定と行動は、目標、情報、利用可能なリソースによって決定されます。社会と共同作業は、これらのグループの個々のメンバーにとっての利益から生じます。たとえば、刑法は、社会に害を及ぼす可能性のある行動に高いコストを課すことで、決定を阻止します。同様に、私は、インセンティブとリソースを制御することで、人間とAGIのインスタンスの間で平衡状態を実現できるという信念を持っています。現在、AIの安全性コミュニティは、価値の整合問題の下でこのテーゼを調査しています。
あなたはテロ対策にも密接に関わっています。テロリストがAIまたはAGIシステムを乗っ取ることを心配していますか?
AIテクノロジーの悪用については多くの懸念があります。テロ作戦の場合、主要な懸念は、テロリストが自律攻撃を開発し、実行する容易さです。私の多くの同僚は、自律型兵器(https://autonomousweapons.org/参照)のリスクについて警告しています。AI兵器の主な問題は、根本的なテクノロジーを制御することの難しさです。AIはオープンソースの研究の最前線にあり、インターネットと消費者向けハードウェアへのアクセスがある誰でも有害なAIシステムを開発できます。私は自律型兵器の出現は不可避であると考え、近い将来、これらの兵器に対抗するための新しいテクノロジー・ソリューションが必要になるでしょう。これにより、AI兵器の進化を促進する猫鼠ゲームが生じ、長期的には重大な存在リスクをもたらす可能性があります。
これらのアドバーサリアル・エージェントからAIシステムを保護するにはどうすればよいですか?
第一に、最も重要なステップは教育です。すべてのAIエンジニアと実践者は、AIテクノロジーの脆弱性について学び、システムの設計と実装において関連するリスクを考慮する必要があります。より技術的な推奨事項については、さまざまな提案とソリューション・コンセプトがあります。たとえば、アドバーサリアル・設定で機械学習・エージェントをトレーニングすることで、回避とポリシー操作攻撃に対する堅牢性と耐性を向上させることができます(例:私の論文「Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger」参照)。別のソリューションは、エージェントのアーキテクチャにアドバーサリアル・アタックのリスクを直接考慮することです(例:ベイジアン・アプローチによるリスク・モデリング)。ただし、この分野には大きなギャップがあり、すべてのタイプのアタックに対するAIエージェントの堅牢性を評価するための普遍的なメトリックと方法論が必要です。現在のソリューションはほとんどがアドホックであり、すべてのタイプのアタックに対する一般的な堅牢性の尺度を提供できません。
これらのテーマについてさらに共有したいことがありますか?
2014年、Scully et al.はNeurIPSカンファレンスで非常に啓発的なテーマの論文を発表しました:「Machine Learning: The High-Interest Credit Card of Technical Debt」。過去数年間の分野の進歩にもかかわらず、この声明はまだその妥当性を失っていません。現在のAIと機械学習の状態は、ただただ驚くべきものですが、AIの基礎とエンジニアリングの次元における重大なギャップを埋める必要があります。この事実は、私の意見では、私たちの会話の最も重要な要点です。私は、AIテクノロジーの商業的な採用を阻止したいわけではありません。しかし、エンジニアリング・コミュニティが、AIテクノロジーのリスクと限界を決定において考慮できるようにしたいだけです。
私は、さまざまなタイプのAIシステムの安全性とセキュリティの課題について学ぶことをとても楽しみました。これは、個人、企業、政府が認識する必要があるものです。さらに学びたい読者は、セキュア&アシュアード・インテリジェント・ラーニング(SAIL)ラボを訪問してください。












