インタビュー6 days ago
Bo Li、Virtue AI CEO – インタビューシリーズ
Bo Liは、Virtue AIのCEOであり、人工知能システムの安全性とセキュリティを専門とする著名な研究者兼起業家です。彼女はVirtue AIを率いる一方で、イリノイ大学アーバナ・シャンペーン校の教授も務めており、機械学習セキュリティ、信頼できるAI、敵対的堅牢性に関する研究に焦点を当てています。彼女のキャリアは学界と産業界の両方にまたがり、先進的なAI研究を実用的なアプリケーションに変換し、組織がより安全で回復力のあるAI技術を構築するのを支援しています。 Virtue AIは、企業環境で使用されるAIシステムの保護とガバナンスに焦点を当てた企業です。そのプラットフォームは、自動化されたレッドチーミング、リアルタイムガードレール、プロンプトインジェクション、幻覚、データ漏洩などの脆弱性を特定するための継続的監視などの機能を提供します。AI開発およびデプロイメントワークフローに直接統合することで、同社は組織が強力なセキュリティとガバナンス基準を維持しながら、大規模言語モデルとAI駆動アプリケーションの使用を安全に拡大することを支援します。 純粋な学術キャリアから、Virtue AIを創業し率いることに移行する動機は何でしたか?また、産業界が大規模に対処できていないと感じた問題は何でしたか? 従来のセキュリティツールは、固定されたパスを持つ予測可能なアプリケーションのために構築されました。それらは、自律的に推論し、適応し、行動するシステムのために設計されたことはありませんでした。共同創業者たちと私は、基礎的なAIセキュリティ研究が生み出したものと、企業が実際に利用可能なものとの間にギャップがあることを認識しました。研究は存在していました。しかし、運用の現実はそうではありませんでした。それを変えることが私たちの目標でした。 Virtue AIは、大規模言語モデルと自律エージェントの安全性、セキュリティ、コンプライアンスに焦点を当てています。これらの分野のうち、今日の企業が最も過小評価しているのはどれだと思いますか? 企業はこれらの分野をある程度理解していますが、特にセキュリティについては、依然として大きなギャップがあります。 企業は、少なくとも表面的には、モデルのセキュリティを真剣に受け止め始めています。しかし、エージェントは別の問題です。彼らは、企業インフラの最も機密性の高い部分へのアクセス権を与えられています:コードの実行、APIの呼び出し、ウェブの閲覧、データ、財務、運用に影響を与える連鎖的な意思決定などです。ほとんどのセキュリティチームは、そのような種類のシステムについて推論するように設定されていません。彼らが持っているツールは、そのために構築されていません。 リスクは理論上のものではありません。エージェントシステム専用に構築されたセキュリティがなければ、小さな失敗は急速に増幅します。予期しないツール呼び出し、曖昧な指示、ガードレールをすり抜けるプロンプト—これらのいずれも、誰かが何かがおかしいと気づく前に、不正なアクションやデータ漏洩にエスカレートする可能性があります。 継続的レッドチーミングは、Virtue AIのアプローチの中核です。システムが本番環境で稼働して初めて表面化する傾向があるのは、どのような種類の失敗やリスクですか? 深刻なもののほとんどです。 制御された環境では、モデルとエージェントをテストしています。本番環境では、システムをテストしているのです—そして、それらは異なるものです。モデルがツール、検索パイプライン、ユーザー入力、他のエージェントに接続されると、動作空間は、デプロイ前のテストでは捉えられない方法で拡大します。「安全に設定された」エージェントも、実際のデータベース、新しいMCPサーバー、または他のエージェントに接続されると、非常に異なる動作をすることがあります。システムは非決定論的になります。評価時には存在しなかったコンテキストに基づいて意思決定を開始します。 その時にこそ、実際に重要な失敗が見つかるのです。 特に、システムがファインチューニング、検索、ツール使用を通じて進化する場合、「AI安全性」を実際にどのように測定するかについて、どのようにお考えですか? 実際には、現代のAIシステムはファインチューニング、検索拡張、ツールやエージェントの相互作用を通じて継続的に進化するため、AI安全性は単一の静的なベンチマークで測定することはできません。代わりに、安全性は、AIアプリケーションのライフサイクル全体にわたるシステムレベルの特性として評価される必要があります。これには、多様なレッドチーミング攻撃によるモデルとエージェントのストレステスト、プロンプト、ツール呼び出し、アクションなどのリアルタイム動作の監視、定義されたリスクポリシー(例:悪用、幻覚、プライバシー漏洩、不正アクション)に対する結果の評価が含まれます。 例えば、私たちの受賞論文(国家安全保障局およびNeurIPSでのBest Paper)、DecodingTrustは、基盤モデルの包括的なセキュリティおよび安全性テストを提供しています。私たちのDecodingTrust-Agentプラットフォームは、ネイティブのレッドチーミングエージェントをホストする多様な環境を持つ現実的なエージェントシミュレータを構築し、動的で適応的かつ継続的なレッドチーミングテストを実行します。 重要なことに、プロンプト、検索ソース、ツールの更新によって新しい脆弱性が導入される可能性があるため、安全性の測定は継続的かつ適応的でなければなりません。実際には、これは、自動化されたレッドチーミング、ランタイムガードレール、可観測性を組み合わせて、モデルの応答だけでなく、現実世界で動作するエンドツーエンドのAIシステムの安全性を測定することを意味します。 あなたの研究背景は、堅牢性、プライバシー、敵対的攻撃に及びます。これらの分野のうち、実際の防御策に変換するのが最も難しいのはどれですか? 堅牢性、プライバシー、敵対的攻撃に関する研究を実際の防御策に変換することは、実際には非常に実行可能です。実際、私のグループの多くの研究方向性は、デプロイされたAIシステムで観察された実用的なセキュリティ課題に直接触発されています。本当の難しさは、防御を構築することではなく、動的で現実世界の環境で信頼性の高いセキュリティ保証を提供することにあります。...