インタビュー
グラウンドカバーのShahar Azulay氏、CEO兼共同創設者

Shahar Azulay氏は、グラウンドカバーのCEO兼共同創設者であり、シリアルR&Dリーダーです。Shahar氏は、Apple、DayTwo、Cymotive Technologiesなどの企業でサイバーセキュリティと機械学習の分野で経験を積んでいます。Shahar氏は、イスラエルの首相官邸のサイバー部門で多年働き、Technion Israel Institute of TechnologyとTel Aviv Universityから物理学、電気工学、コンピューターサイエンスの3つの学位を取得しています。Shahar氏は、この豊富な背景から得た技術的知見を活かし、今日のクラウドネイティブの戦場で最も鋭い、最も革新的な形でDevの世界をより良くすることを目指しています。
グラウンドカバーは、クラウドネイティブの可観測性プラットフォームであり、エンジニアリングチームが従来の監視ツールの複雑さやコストなく、システムにリアルタイムで完全な可視性を提供します。eBPFテクノロジーに基づいて構築されており、クラウドネイティブおよびKubernetes環境全体でコードの変更なしにログ、メトリクス、トレース、イベントを収集および関連付け、より迅速な根本原因分析と明確なシステムの洞察を可能にします。プラットフォームは、予測可能な価格設定、柔軟な展開による顧客のクラウド内でのデータ保持、インフラストラクチャ、応用プログラム、モダンなAI駆動型ワークロードを横断するエンドツーエンドの可観測性を強調しています。
あなたの旅程を振り返ってみると、イスラエルの首相官邸のサイバーR&Dチームのリーダーから、AppleでのMLイニシアチブのマネージャーに至るまで、グラウンドカバーを設立するきっかけとなった経験とは何ですか?また、モダンなAIシステムの可観測性におけるギャップはいつ認識しましたか?
グラウンドカバーを設立するきっかけは、AppleとDayTwoでの経験から来ました。巨額の予算を持っていても、すべてをログするために多額の費用を支払うか、サンプリングして盲目的に進むかの選択を迫られました。当時、問題を解決するテクノロジーを探していました。eBPF(Extended Berkeley Packet Filter)に出会ったとき、すべてが変わることがわかりました。eBPFにより、カーネル内のすべてのことが起こっていることを、アプリケーションの変更に頼ることなく見ることができます。なぜ可観測性ツールがそれを活用していないのか、理解できませんでした。AIのギャップは後になって明らかになりました。Kubernetesプラットフォームが成熟したとき、顧客がGenAIデプロイメントに急いでいると同時に、LLM(Large Language Model)をブラックボックスのように扱っていると気づきました。モデルが応答することはわかっていたが、 почему応答が予測不可能であったり、コストが急上昇したりする理由はわかりませんでした。エージェントワークフローは、すでに構築していたゼロタッチ可視性と同じものであることを実感しました。
サイバーセキュリティ、組み込みシステム、機械学習R&Dの背景が、グラウンドカバーのビジョンにどのように影響しましたか?また、LLM駆動型およびエージェントアプリケーションの可観測性を中心とした企業を構築する際に、どのような初期的な課題に直面しましたか?
サイバーバックグラウンドが会社のDNAを形作りました。インテリジェンスの世界では、アプリケーションを制御できないと仮定します。那がグラウンドカバーがインストルメンテーションを必要としない理由です。経験から、アプリケーションを変更するよう開発者に依頼することは、採用をブロックする最も速い方法であることを知っています。LLMモニタリングで最も難しかったのはプライバシーでした。AI可観測性は、機密のPIIまたはIPを含むプロンプトをキャプチャする可能性があります。私の背景から、企業がそのデータを環境の外に出したくないことは明らかでした。那が私たちがクラウド内アーキテクチャを構築した理由です。エージェントの動作に関する深い可視性を提供しながら、すべてのデータを顧客の環境内に保持できるからです。
LLM可観測性をどのように定義しますか?また、従来のモニタリングやMLモニタリングとはどのように異なりますか?
LLM可観測性とは、プロダクションシステムで大規模言語モデルを使用する際に、各推論の完全なコンテキストをキャプチャするための、インストルメンテーションとモニタリングの実践です。プロンプト、コンテキスト、完了、トークン使用、待機時間、エラー、モデルメタデータ、さらにダウンストリームのフィードバックまたは品質シグナルが含まれます。従来のモニタリングや従来のMLモニタリングとは異なり、次のような質問に答えることができます。「特定のリクエストが成功したか失敗したのはなぜですか?」、「マルチステップワークフロー内で何が実際に起こったのか?」、「プロンプト、コンテキスト、またはモデルバージョンの変更は、コスト、待機時間、出力品質にどのような影響を与えたのか?」
LLM駆動型アプリケーションは、従来の可観測性ツールが不十分になるような課題をいくつか導入します。具体的にはどのような課題ですか?
LLM駆動型システムは、従来のツールの限界を明らかにするいくつかの課題を導入します:
- 複雑なマルチステップワークフロー – 単純な「モデルを呼び出し、応答を取得する」フローから、マルチターンエージェント、マルチステップパイプライン、リトリーバーエンリッチメント、ツールの使用に移行しました。ツール呼び出しやモデル呼び出しが含まれるこれらのステップのいずれかでサイレントな障害が発生すると、全体のエクスペリエンスが壊れる可能性があります。従来のモニタリングでは、これらのチェーンの完全なトレースレベルビューを提供することはできません。
- 急速に進化するAIスタック – チームは新しいモデル、ツール、ベンダーを以前になく速いペースで追加しています。多くの企業では、現在プロダクションで使用されているモデルを誰も自信を持ってリストすることができません。従来の可観測性では、SDKをインストルメンテーションし、再デプロイし、測定するものを慎重にキュレーションする時間があると想定しています。ただし、AIが採用されるペースに追いつくことはできません。
- トークンベースのエコノミーとクォータ – 価格とレート制限は、中央のオペレーションではなく、開発者、プロンプト、またはユーザーの動作によって制御されるトークンとコンテキストの長さに結び付けられます。従来のツールは、特定のモデル、ワークフロー、待機時間でどのくらいのトークンが使用されたかを示すように設計されていません。
- 二項的な成功ではなく、セマンティック正確さ – LLMは200を返し、まだ幻覚を見たり、プロンプトから逸脱したり、ポリシーを侵害したりする可能性があります。従来のツールでは、これを成功と見なします。プロンプトと応答を提示し、動作を調べ、時間の経過とともに自動化された品質チェックを接続できる可観測性が必要です。
- 第三者への機密入力データの流入 – LLMは、チャットスタイルのインターフェイスを介して非常に機密性の高い情報をユーザーが共有するよう促します。現在、そのデータの責任を負い、どこに保存され、どのベンダーがそれを見ているかを把握する必要があります。従来のSaaSベースの可観測性では、すべてのテレメトリを第三者に送信するため、これらのワークロードではよく受け入れられません。
すべてこれらは、LLMシステムでは、従来のツールに比べて、AIに認識された可観測性が必要であり、手動インストルメンテーションに依存する必要性が低くなることを意味します。
LLMシステムのパフォーマンスと品質を理解するために、どの信号やメトリックが最も重要ですか?待機時間、トークン使用、プロンプト/応答の動作を含みます。
実践では、重要な信号のカテゴリが何個かあります:
待機時間とスループット
- モデルとワークフローのリクエストごとのエンドツーエンドの待機時間、モデル時間と周囲のアプリケーション時間を含む。
- モデルとワークフローのP90、P95、P99のテール待機時間。
- モデル、ルート、サービスごとのスループットで、実際の負荷がどこにあるかを把握できます。
トークン使用とコストドライバー
- モデルごとのリクエストごとの入力と出力トークン。
- モデル、チーム、ユーザー、ワークフローの時間別集計トークン使用量。
- リトリーバ重いパイプラインのコンテキストサイズで、プロンプトが爆発的に増加していることを確認できます。
- これにより、「誰が実際にAI予算を使っていて、どこに使っているのか」を把握できます。
プロンプトと応答の動作
- ツール呼び出しと推論パスを含む、代表的なトレースの実際のプロンプトと応答ペイロード。
- LLMが呼び出すツールとその順序。
- 類似したプロンプトに対する応答の変動性で、動作の安定性を判断できます。
信頼性とエラー
- プロバイダーエラー、タイムアウト、認証エラー、クォータエラーを含む、モデル固有のエラー率とタイプ。
- LLM呼び出しと関連付けられた、ワークフローの周囲の障害、たとえばツールのタイムアウトまたはリトリーバエラー。
クラシックインフラコンテキスト
- LLM呼び出しをオーケストレーションするサービスに対するコンテナCPU、メモリ、ネットワークメトリクス。
- アプリケーションが何をしようとしていたかを説明する関連ログ。
すべてこれらを1つの場所で見ることができると、LLM可観測性は「何かが遅いまたは高価であることを知っている」から「どのモデル、プロンプトパターン、サービスが原因であり、そしてなぜであるか」を知っていることに変わります。
可観測性は、プロンプトドリフト、幻覚、または出力品質の段階的な劣化などのサイレント障害をチームが検出するのをどのように助けますか?
LLMシステムでのサイレント障害は、インフラストラクチャレベルではすべて「グリーン」に見えますが、実際の動作は変化しています。可観測性は次の方法で助けます:
- ワークフローの完全なトレース – リクエストの完全なパス、クライアントからサービス、リトリーバ、モデル、ツールまでをキャプチャすることで、動作の変化を確認できます。たとえば、リトリーバがより少ないドキュメントを返し始めたか、ツール呼び出しが間欠的に失敗し、モデルが即興で対応しているかもしれません。
- プロンプト、コンテキスト、応答の保持 – プロンプトと応答をトレースとともに調べることができる場合、プロンプトの新しいバージョン、システムの新しい指示、またはコンテキストの新しいソースが動作を変えたことを簡単に確認できますが、待機時間とエラー率は同じままです。
- セマンティック条件でのフィルタリングとスライシング – 豊富なLLMテレメトリがある場合、たとえば「1秒を超えるベッドロック呼び出し」、「このモデルファミリーを使用するリクエスト」、「このルートを含むトレース」にフィルタリングできます。次に、プロンプトと応答を読んで、モデルが特定のシナリオでドリフトしているか、幻覚を見ているかを確認できます。
- ビジネスレベルSLOへのアラート – 「LLM呼び出しが1秒を超えた場合、ユーザー向けSLAを侵害する」というSLOを定義し、条件が満たされたときにアラートをトリガーできます。時間の経過とともに、品質スコアやポリシーチェックに類似したSLOを結び付けることができ、品質が低下したときに、アラートを受け取ることができます。
可観測性レイヤーには、AI固有の信号とクラシックログ、メトリクス、トレースへのアクセスがあるため、ユーザーエクスペリエンスが低下する問題をキャッチする自然な場所になります。
グラウンドカバーのアプローチは、マルチステップエージェントワークフローとツール呼び出し内の予測不可能な待機時間または予期しない動作を診断するのをどのように支援していますか?
グラウンドカバーは、モダンなAIシステム用に設計されたアプローチを取ります。カーネルレベルでeBPFベースのセンサーを使用して、マイクロサービス間のトラフィックをコードの変更や再デプロイなしで観察します。LLMワークフローを導入するとすぐに、それらの呼び出しを自動的に検出できます。明日、Anthropic、OpenAI、またはBedrockのような新しいモデルを使用し始めた場合、グラウンドカバーはそのトラフィックを自動的にキャプチャします。その結果、次のことが得られます:
- マルチホップワークフローのエンドツーエンドトレース – リクエストの完全なパス、サービス間、LLMまたはツールの使用を含む。
- 各LLM呼び出しの深いコンテキスト – 各呼び出しには、使用されるモデル、待機時間、トークン使用量、プロンプト、応答、および関連するログとインフラメトリクスが含まれます。
- 待機時間と条件での強力なフィルタリング – たとえば、1秒を超えるClaude 3.5の呼び出しすべてをフィルタリングし、SLAを侵害したトレースをすぐに調査できます。
- LLMの動作に結び付けられたアラートとダッシュボード – データが利用可能になると、SLA侵害のアラートを作成したり、待機時間、スループット、トークン使用量、エラーを追跡するダッシュボードを構築できます。
すべてがエッジでeBPFによって収集され、顧客のクラウド内に保存されるため、高い粒度のビューをインストルメンテーションを追加することなく取得できます。
LLMデプロイメントでは、どのようなデータセキュリティとコンプライアンスリスクが生じる可能性がありますか?また、可観測性はこれらのリスクを軽減するのをどのように助けますか?
LLMデプロイメントには、次のようなユニークなデータリスクがあります:
- 無制限のユーザー入力 – ユーザーはチャットボットやAI駆動型インターフェイスに非常に機密性の高い情報を入力する可能性があります。これには、個人データ、顧客データ、または規制された情報が含まれる場合がありますが、収集することを意図していませんでした。
- 第三者モデルプロバイダー – そのデータを外部LLMプロバイダーに送信すると、そのデータがどこに行き、どのように保存され、どのサブプロセッサーが関与するかについて責任を負うことになります。これには、GDPR、データ居住性、顧客の信頼に対する重大な影響があります。
- テレメトリとしての機密データの2次コピー – 可観測性スタックがすべてのテレメトリをSaaSベンダーに送信すると、顧客の環境外に機密情報の別のコピーが存在することになります。
グラウンドカバーのアーキテクチャは、正確にこれらの懸念に対処するように設計されています:
- 私たちは、顧客のクラウドアカウント内、サブアカウント内、フルに管理されたデータプレーンとして、完全な可観測性バックエンドを実行します。可観測性データをスケールアウトし管理するコントロールプレーンは私たちによって実行されますが、顧客のテレメトリデータにアクセスしたり、保存したり、処理したりすることはありません。
- 私たちが顧客の環境内でペイロードを安全にキャプチャできるため、プロンプト、応答、ワークフローを可観測性スタックに送信することなく観察できます。LLMトレースの第三者ストレージやデータエグレスについて心配する必要はありません。
- 可視性があるため、誰が何をアップロードし、どこにフローするかを確認し、機密データの予期せぬ使用を検出し、モデルとリージョンの使用を許可するポリシーを適用できます。
つまり、可観測性は、信頼性とコストのツールだけでなく、プライバシー、データ居住性、コンプライアンスの重要なコントロールポイントにもなります。
組織が1つのLLM統合から多くのAI駆動型サービスに拡大するにつれて、可視性、信頼性、コストに関するどのような運用上の課題が発生する可能性がありますか?
最初の統合は通常、1つのモデルが1つのワークフローに含まれるだけです。その段階では、すべてが管理可能に思えます。ただし、チームが価値を見て、使用を拡大すると、次の課題が発生します:
- モデルとベンダーのスプロール – チームは新しいモデルを絶えずテストしています。どのモデルが現在プロダクションで使用されているかを誰も自信を持ってリストすることはできません。
- トークン使用によるコストサプライズ – トークンの消費は、コンテキストの長さとワークフローの複雑さとともに増加します。トークン使用量をモデルとワークフローで把握できないと、コストを管理することは非常に難しいです。
- 外部プロバイダーへの信頼性依存 – ユーザー向けAPIは、モデル待機時間またはエラーに敏感になります。これは、コアインフラストラクチャが正常でも、SLAを侵害する可能性があります。
- インストルメンテーションデット – 従来の可観測性では、必要に応じてインストルメンテーションを追加できることが前提です。AIスタックが急速に進化する場合、開発者はそれをする時間を持っていません。
グラウンドカバーは、これらに対処します:
- 使用されているモデルとベンダーの中央可視性。
- 待機時間、スループット、トークン使用量を示すダッシュボード。
- LLMの動作とそれに依存するサービスとの関連付け。
- AI駆動型SLO侵害のアラート。
これにより、1つの「クールなAI機能」から「AIが数多くの重要なサービスに織り込まれている」まで拡大することなく、コントロールを失うことなく拡大することが容易になります。
次の5年間で、エージェントAI、多モデルオーケストレーション、規制圧力の進化に伴い、LLM可観測性はどのように進化すると思いますか?
まだ初期段階にあります。次の5年間で、次のような大きな変化が予想されます:
- リクエストレベルからエージェントレベルへの理解 – 可観測性は、モデル呼び出しのみではなく、ツールシーケンス、推論パス、再試行ロジックをキャプチャするように拡大します。
- セマンティックおよびポリシーシグナルが豊富になる – 自動化された品質チェック、幻覚、安全性の問題、ブランドの整合性に対するチェックが、標準メトリクスになるでしょう。
- ガバナンスとプライバシーとの結びつきが強化される – 規制が増加するにつれて、可観測性は、データ居住性、保持、承認されたモデル使用のための施行および監査レイヤーとしても機能するようになります。
- クロスモデル、多ベンダーオプティマイゼーション – チームは、パフォーマンスとコストに基づいて、モデル間でトラフィックをダイナミックにルーティングします。実時間の可観測性データによって導かれます。
- 手動インストルメンテーションが減る – eBPFベースの収集や自動検出などのテクノロジーがデフォルトになり、チームが遅れずにイノベーションを続けることができます。
つまり、LLM可観測性は、「AIのためのダッシュボードが必要」というものから、信頼性、コスト管理、データガバナンス、製品品質をAIで行うすべての組織活動にわたる、中央的な神経系へと進化します。
素晴らしいインタビュー、詳しく知りたい読者はグラウンドカバーを訪問してください。












