面试

Shahar Azulay，groundcover 的首席执行官兼联合创始人

发布时间 2026 年 1 月 6 日

安托万·塔迪夫， Unite.AI首席执行官兼创始人

沙哈尔·阿祖莱 Groundcover 的首席执行官兼联合创始人 Shahar 是一位经验丰富的研发领导者。他曾在苹果、DayTwo 和 Cymotive Technologies 等公司担任领导职务，在网络安全和机器学习领域拥有丰富的经验。Shahar 曾在以色列总理办公室网络安全部门工作多年，并拥有以色列理工学院和特拉维夫大学的物理学、电气工程和计算机科学三个学位。Shahar 致力于运用其深厚的背景所积累的技术知识，以最敏锐、最具创新性的方式将其应用于当今的云原生领域，从而改善开发者的世界。

地被植物是一个云原生可观测性平台，旨在为工程团队提供对其系统的全面、实时可见性，而无需传统监控工具的复杂性和高昂成本。该平台基于 eBPF 技术构建，无需任何代码更改即可跨云原生和 Kubernetes 环境收集和关联日志、指标、跟踪和事件，从而实现更快的根本原因分析和更清晰的系统洞察。该平台强调可预测的定价、灵活的部署方式（将数据保留在客户的云端）以及涵盖基础设施、应用程序和现代 AI 驱动工作负载的端到端可观测性。

回顾您的职业生涯——从领导以色列总理办公室的网络研发团队到管理苹果公司的机器学习项目——哪些经历最终促使您创立了 groundcover？您又是何时第一次意识到现代人工智能系统在可观测性方面存在差距的？

我对 Groundcover 的探索源于我在苹果和 DayTwo 的工作经历。即便预算充足，我们仍然面临着两难选择：要么花费巨资记录所有数据，要么盲目地进行采样。当时，我们一直在寻找能够解决这个问题的技术。当我们遇到扩展伯克利数据包过滤器 (eBPF) 时，我们意识到它将彻底改变一切。eBPF 让我们无需依赖应用程序的更改即可查看内核中发生的一切。我不明白为什么可观测性工具没有利用这一点。后来，人工智能领域的差距逐渐显现。随着我们的 Kubernetes 平台日趋成熟，我们看到客户急于部署 GenAI，却将 LLM 视为黑盒。他们知道模型会响应，但却不知道模型为何会表现异常，也不知道成本为何飙升。我们意识到，代理工作流本质上就是复杂的、非确定性的微服务，它们需要我们之前构建的那种零接触式可视性。

您在网络安全、嵌入式系统和机器学习研发方面的背景如何影响了 Groundcover 的愿景？在建立一家以 LLM 驱动和智能应用的可观测性为中心的公司时，您早期遇到了哪些挑战？

我的网络安全背景塑造了公司的基因。在情报领域，我们假定自己无法控制应用程序。正是基于这种理念，Groundcover 无需任何监控。我从经验中得知，要求开发人员修改代码是阻碍其应用普及的最快途径。LLM 监控早期面临的最大挑战是隐私问题。人工智能的可观测性会捕获可能包含敏感个人身份信息 (PII) 或知识产权 (IP) 的提示信息。我的背景让我清楚地认识到，企业绝不希望这些数据离开他们的环境。因此，我们构建了云端架构，使我们能够深入了解代理的行为，同时将所有数据保留在客户自身的环境中。

您如何定义LLM可观测性？它与传统监控或ML监控有何不同？

LLM 可观测性是指对使用大型语言模型的生产系统进行插桩和监控，以便捕获每次推理的完整上下文：提示、上下文、补全、词元使用情况、延迟、错误、模型元数据，以及理想情况下下游的反馈或质量信号。LLM 可观测性不再仅仅询问“服务是否正常运行且速度很快？”或“此请求是否出错？”，而是帮助您回答诸如“为什么这个特定请求成功或失败？”、“在这个多步骤工作流中实际发生了什么？”以及“提示、上下文或模型版本的更改如何影响成本、延迟和输出质量？”之类的问题。这与传统的监控甚至经典的机器学习监控截然不同。传统方法针对确定性系统、基础设施指标和静态阈值进行了优化。LLM 应用是非确定性的、开放式的，并且高度依赖于上下文。成功通常是语义上的和主观的，而不仅仅是状态码 200 或 500 的区别。这意味着你必须追踪输入和输出，了解工具调用和检索步骤，评估响应是否存在幻觉或违反策略等情况，并将令牌级别的成本和延迟与周围的应用程序和基础设施联系起来。

LLM 驱动的应用带来了哪些挑战，使得传统的观测工具无法满足需求？

基于LLM的系统带来了一些挑战，暴露了传统工具的局限性：

复杂、多步骤的工作流程 我们从简单的“调用模型，获取响应”流程发展到多轮代理、多步骤管道、检索增强生成和工具使用。任何步骤（例如检索、增强、嵌入、工具调用或模型调用）的静默故障都可能导致整个体验中断。传统的监控通常无法提供包含提示和响应在内的完整、跟踪级别的流程视图。
快速发展的AI技术栈 团队正以前所未有的速度添加新的模型、工具和供应商。在许多公司，没有人能够自信地列出任何特定时刻正在生产环境中运行的模型。传统的可观测性通常假设你有时间对 SDK 进行插桩、重新部署并精心策划测量内容。但这根本跟不上人工智能快速普及的步伐。
基于代币的经济体系和配额 定价和速率限制与代币数量和上下文时长相关，而这些通常由开发者、提示或用户行为控制，而非由中心化运维部门控制。传统工具无法显示“谁在什么模型、什么工作流程下，以什么延迟消耗了多少代币”。
语义正确性而非二元成功 ——LLM（逻辑推理模型）即使返回 200 错误，仍然可能出现幻觉、偏离提示或违反策略。传统工具会将此视为成功。你需要可观测性，它能够呈现提示和响应，并提供足够的上下文信息来检查行为，并随着时间的推移，集成自动化质量检查。
敏感输入数据流入第三方 – LLM（生命周期管理）鼓励用户通过聊天式界面分享高度敏感的信息。现在，您需要对这些数据负责，包括数据的存储位置以及哪些供应商可以查看这些数据。传统的基于 SaaS 的可观测性方案会将所有遥测数据发送给第三方，这对于此类工作负载而言通常是不可接受的。

所有这些都意味着 LLM 系统需要具备 AI 感知能力、上下文丰富的可观测性，并且与大多数团队目前使用的工具相比，对人工仪器的依赖性要低得多。

哪些信号或指标对于了解 LLM 系统的性能和质量最为重要，包括延迟、令牌使用情况和提示/响应行为？

在实践中，有几类信号非常重要：

延迟和吞吐量

每个请求的端到端延迟，包括模型时间和应用运行时间。
每个模型和每个工作流程的尾延迟（P90、P95、P99）。
按型号、路线和服务划分吞吐量，让您了解负载的实际流向。

代币使用情况和成本驱动因素

按模型细分，每个请求的输入和输出令牌。
按模型、团队、用户和工作流程汇总的代币使用情况。
上下文大小用于检索密集型管道，以便您可以查看提示何时会激增。
这样你就可以回答“究竟是谁在花我们的人工智能预算，以及花在了什么地方？”

及时响应行为

代表性跟踪中的实际提示和响应有效载荷，包括工具调用和推理路径。
LLM 选择调用哪些工具以及调用顺序是什么？
通过观察类似提示下的反应差异，可以判断行为的稳定性。

可靠性和误差

模型特定错误率和类型（提供商错误、超时、身份验证问题、配额错误）。
周围工作流程中的故障，例如工具超时或检索错误，与 LLM 调用相关。

经典基础设施上下文

用于协调 LLM 调用的服务的容器 CPU、内存和网络指标。
相关日志，描述应用程序尝试执行的操作。

当您能够在一个地方看到所有这些信息时，LLM 可观测性就从“我知道某些东西很慢或很贵”转变为“我确切地知道是哪个模型、提示模式和服务导致了这种情况，以及原因”。

可观测性如何帮助团队发现诸如响应速度下降、幻觉或输出质量逐渐下降等隐性故障？

LLM 系统中的静默故障通常发生在基础设施层面一切正常，但实际行为却出现偏差的情况下。可观测性可以从以下几个方面提供帮助：

追踪完整的工作流程，而不仅仅是模型调用。 通过捕获请求从客户端到服务、再到检索、再到模型、最后到工具的完整路径，您可以查看行为发生变化的位置。例如，检索可能开始返回更少的文档，或者某个工具调用间歇性失败，而模型则在进行临时调整。
时刻关注提示、背景和回应 – 当您可以检查提示和响应以及跟踪信息时，即使延迟和错误率保持不变，也更容易发现新的提示版本、新的系统指令或新的上下文源改变了行为的情况。
基于语义条件的过滤和切片 – 一旦你拥有丰富的 LLM 遥测数据，你就可以筛选出诸如“一秒钟内基岩调用”、“使用此模型系列的请求”或“涉及此特定路线的轨迹”之类的内容，然后阅读提示和响应，以查看模型在特定场景中是否出现漂移或幻觉。
针对业务层面的服务级别目标发出警报 您可以定义类似“任何超过一秒的LLM调用都违反了我们面向用户的SLA”的服务级别目标 (SLO)，并在满足这些条件时触发警报。随着时间的推移，类似的SLO可以与质量评分或策略检查关联起来，这样您不仅在基础设施发生故障时，而且在质量下降时也会收到警报。

由于可观测性层既可以访问 AI 特有的信号，也可以访问经典的日志、指标和跟踪信息，因此它自然而然地成为了发现那些原本会悄悄降低用户体验的问题的理想场所。

groundcover 的方法如何支持诊断多步骤代理工作流程和工具调用中不可预测的延迟或意外行为？

Groundcover 采用专为现代 AI 系统设计的方法。我们使用基于 eBPF 的内核级传感器来观察微服务的流量，无需任何代码更改或重新部署。一旦您引入 LLM 工作流，我们就能自动发现这些调用。如果您明天开始使用 Anthropic、OpenAI 或 Bedrock 等新模型，Groundcover 会自动捕获这些流量。这为您带来：

多跳工作流的端到端跟踪 – 您可以查看请求在各个服务中的完整路径，包括 LLM 或工具的使用位置。
深入分析每次LLM通话的背景信息 – 每次调用都包含所用模型、延迟、令牌使用情况、提示、响应以及相关的日志和基础设施指标。
强大的延迟和条件过滤功能 – 例如，您可以筛选出所有超过一秒的 Claude 3.5 调用，并立即检查违反 SLA 的跟踪记录。
与LLM行为相关的警报和仪表板 – 一旦数据可用，您就可以创建 SLA 违规警报或构建仪表板来跟踪延迟、吞吐量、令牌使用情况和错误。

由于所有数据都由 eBPF 在边缘收集并存储在您自己的云中，因此您可以获得这种高粒度的视图，而无需在每个代理或工具调用中添加检测。

您认为 LLM 部署中会出现哪些数据安全和合规性风险？可观测性如何帮助降低这些风险？

LLM部署会带来一些独特的数据风险：

无限制的用户输入 用户可能会在聊天机器人和人工智能界面中输入极其敏感的信息。这些信息可能包括个人数据、客户数据或您从未打算收集的受监管信息。
第三方模型提供商 一旦您将数据发送给外部LLM提供商，您就需对数据的去向、存储方式以及涉及的子处理者负责。这会对GDPR、数据驻留和客户信任产生重大影响。
遥测数据作为敏感数据的第二份副本 – 如果您的可观测性堆栈将完整的有效载荷发送给 SaaS 供应商，那么您现在就有了另一份敏感信息副本，它位于您的环境之外。

地被植物的生长结构正是为了解决这些问题而设计的：

我们采用自带云平台 (BYOD) 模型，其中完整的可观测性后端运行在您云账户的子账户中，作为完全托管的数据平面。扩展和管理该后端的控制平面由我们运行，但我们不会访问、存储或处理您的遥测数据。
由于我们可以在您自己的环境中安全地捕获有效载荷，因此您可以观察提示、响应和工作流程，而无需担心数据离开您的云端。您的 LLM 跟踪数据不会存储在第三方服务器上，也无需担心额外的数据外泄。
有了这种可见性，您可以查看谁在上传什么内容以及内容流向何处，检测敏感数据的意外使用情况，并强制执行有关允许哪些模型和地区的策略。

换句话说，可观测性不仅成为提高可靠性和降低成本的工具，而且成为隐私、数据驻留和合规性的关键控制点。

随着组织从单一的 LLM 集成扩展到多个 AI 驱动的服务，在可见性、可靠性和成本方面往往会出现哪些运营挑战？

首次集成通常只涉及单个模型和单个工作流程。在这个阶段，一切都在掌控之中。但一旦团队意识到其价值，使用量就会呈爆炸式增长，随之而来的是诸多挑战：

模型和供应商的蔓延 团队会不断测试新模型。很快，哪些模型已投入生产以及它们的具体使用方式就变得难以确定。
代币使用带来的成本意外 代币消耗量会随着上下文长度和工作流程复杂性的增加而增长。如果无法了解每个模型和工作流程的代币使用情况，成本管理将非常困难。
对外部提供商的可靠性依赖 – 用户 API 对模型延迟或错误非常敏感，即使核心基础设施运行良好，也可能扰乱 SLA。
不断增长的仪器债务 传统的可观测性假设你可以在需要时添加检测模块。但在快速发展的AI技术栈中，开发人员很少有时间这样做。

地面覆盖物通过自动发现人工智能交通流量来解决这些问题，然后为您提供：

集中查看所使用的型号和供应商。
仪表盘显示延迟、吞吐量和令牌使用情况随时间的变化。
LLM行为与依赖它的服务之间的相关性
针对人工智能驱动的服务级别目标 (SLO) 违规发出警报。

这样一来，从“一个很酷的 AI 功能”扩展到“AI 融入数十个关键服务”就容易得多，而不会失去控制。

展望未来，随着智能体人工智能、多模型编排和监管压力的加速发展，您认为未来五年LLM可观测性将如何演变？

我们仍处于早期阶段。未来五年，我预计会出现一些重大变化：

从请求层面到代理层面的理解 – 可观测性将扩展到捕获工具序列、推理路径和重试逻辑，而不仅仅是模型调用。
更丰富的语义和政策信号 – 对幻觉、安全问题和品牌一致性进行自动化质量检查将成为标准指标。
与治理和隐私更紧密地结合 随着监管的加强，可观测性还将作为数据驻留、保留和已批准模型使用的执行和审计层。
跨模型、多供应商优化 – 团队将根据性能和成本，在实时可观测性数据的指导下，动态地在各个模型之间路由流量。
减少人工操作 – 基于 eBPF 的收集和自动发现等技术将成为默认设置，因此团队可以不断创新而不会放慢速度。

简而言之，LLM 可观测性将从“人工智能的锦上添花的仪表板”演变为连接组织中所有人工智能相关工作的可靠性、成本控制、数据治理和产品质量的中枢神经系统。

感谢您的精彩采访，想要了解更多信息的读者可以访问地被植物.

联合人工智能

Shahar Azulay，groundcover 的首席执行官兼联合创始人

你可能会喜欢