访谈

DeepTempo创始人Mayank Kumar – 采访系列

mm

Mayank Kumar 是DeepTempo的创始人和AI工程师,他领导了公司基础日志语言模型(LogLM)的设计和开发。凭借在生成和多模态AI方面的坚实学术和研究背景,他为构建能够增强网络安全环境中威胁检测和响应的领域特定模型带来了专门的专业知识。

DeepTempo 是一家网络安全公司,建立在LogLM的基础上,LogLM是一种在大规模安全日志数据上训练的AI原生基础模型。该平台在识别先进、以前未见的威胁和最小化假阳性方面表现出色。为无缝集成到现有的安全工作流中而设计,DeepTempo支持跨数据湖、Kubernetes和Snowflake的部署,实现更快的法医分析、降低数据摄取成本和现代企业的可扩展、自动化防御。

是什么促使您共同创立DeepTempo,您在学术研究和开源AI方面的背景如何为公司的方向做出贡献?

我在一个亲密的社区中长大,关系是通过面对面建立的,而不是通过屏幕。我的父亲是一名教师,他教会我回报社会的重要性。虽然我们在物质上并不富有,但我们在联系和目标方面却很富有。在这样的环境中,你很快就会学会解决问题不仅仅依赖于个人的才能,还依赖于集体的力量。这种心态一直伴随着我,并最终引导我对社会创业产生了兴趣,当时我正在印度理工学院罗帕尔分校学习工程学。

转折点出现在我的父亲的浏览器被勒索软件攻击时。这不仅仅是一个技术故障,还引入了恐惧、混乱和脆弱性到我们的家中。这种经历让我认识到数字世界是多么脆弱,不仅仅是对于个人,也是对于不断受到威胁的组织。就在那时,我遇到了Evan,他关于在互联网规模上建设集体防御的愿景与我深刻地产生了共鸣。这种共同的使命和我将技术应用于服务人们的驱动力使我被DeepTempo吸引。

在华盛顿大学,我的研究集中在两个核心领域:多模态表示学习和数据驱动的AI。两者都在我们构建垂直基础模型LogLM时被证明是至关重要的。与自然语言不同,网络安全日志杂乱无章、结构化和零碎。我们的第一个挑战是构建一种新的“语言”来解释这些数据,允许LogLM从这些序列中学习有意义的表示。我们还大量投资于如何评估性能,因为在安全领域,准确性不是可选的,幻觉也是不可接受的。

但超越技术,我们的北极星一直是集体防御。这就是为什么开源合作对于使这一使命在规模上取得成功至关重要。

“集体防御”的概念是DeepTempo的核心。实践中,这意味着什么,它与传统的网络安全方法有何不同?

在实践中,集体防御意味着,当一个客户的LogLM实例识别出一种新型攻击行为时,例如一个分阶段的C2和数据外泄活动,涉及信标行为,然后是异常的外部数据传输,这种洞察可以被提炼成一个概括的行为签名,并在整个生态系统中共享。关键的是,这并不涉及发送原始日志或客户数据。相反,我们抽象出高置信度的行为模式,并通过联邦学习技术将其纳入模型权重中。

这与依赖一刀切规则或静态威胁情报源的传统系统形成鲜明对比。这些系统不会演化,直到多个受害者受到影响。通过集体防御,检测系统会随着每个高质量信号而演化,即使威胁是特定于一个环境的。这种方法使我们能够在它们变得普遍之前捕获多态威胁和LLM增强的代理攻击流。

是什么具体的企业安全缺口促使了LogLM的开发,它与旧的检测系统有何根本不同?

企业安全团队面临三个主要问题:高噪音与信号比率、脆弱的检测无法在环境之间转移以及对新兴威胁的适应速度慢。LogLM被创建来解决这三个问题。

大多数现有的系统依赖于基于规则或狭窄的机器学习方法,需要数周或数月的调优才能理解新的环境。这些方法在攻击者稍微改变策略时就会失败,就像我们在Scattered Spider或Volt Typhoon等团体中看到的那样。LogLM是在大量安全遥测数据上训练的,将其视为一种结构化语言。这使得它能够识别复杂的序列,例如异常的外部DNS请求后跟不寻常的Okta活动,而不仅仅是孤立的异常,而是作为威胁叙事的一部分。

与产生不连贯的警报的传统工具不同,LogLM产生可解释的、基于战术的检测。由于它是从头开始构建的,而不是改造或适应,因此它从安全角度出发,设计为从一开始就安全。这种方法使得入门变得快速,检测更加坚韧。

什么是影子代理,它们如何对没有集中监督的组织构成风险?

影子代理是自主的AI工具,通常建立在LLM之上,在企业内部运行,而没有安全团队的明确授权或可见性。最近的一个例子是MITRE的CVE-2025-32711(“EchoLeak”),这是一个零点击漏洞,出现在Microsoft 365 Copilot中,仅需要求其总结电子邮件即可触发。该漏洞允许攻击者通过代理的RAG上下文无需用户交互即可泄露内部数据。这些代理可以提高生产力,但它们经常绕过安全审查,并将敏感数据暴露给无控制的推理层。

我们已经看到过一个使用公共LLM构建的影子代理暴露在系统日志中并开始泄露包含硬编码凭据的堆栈跟踪的案例。这些代理通常没有数据丢失防护(DLP)控制,不能遵循访问策略,也没有被审计。更糟糕的是,由于它们可以做出决定,例如将输出转发到外部系统,因此它们本身就成为攻击面。对于提示注入或对抗性链式攻击,单个代理可以被强制触发具有实际影响的下游操作。

为什么提示注入和模型操纵变得越来越严重,为什么大多数当前系统无法捕获它们?

提示注入之所以危险,是因为它利用了模型的核心功能:解释自然语言。大多数企业系统将模型输出视为可靠的,但如果模型接收到隐藏的指令,例如嵌入在用户评论、API调用甚至文件名中的指令,它可以被欺骗以执行意外的操作。我们已经看到对手使用这种方法来从聊天记录中提取凭据、模仿用户或绕过输入验证。

更深层次的问题是,LLM被优化为连贯性,而不是安全性。正如我们在对皇家学会研究的回应中所探讨的,模型倾向于优先考虑流畅性和普遍性,而不是谨慎和精确性。即使提示它们“更准确”,也可能适得其反,导致更自信但仍然错误的响应。对抗性模型操纵是一个长期的担忧。攻击者可以污染数据集或通过重复结构化查询来微妙地塑造输出,逐渐将模型推向一个更加宽松的行为空间。检测需要完整的链式日志、持续评估和模型层次的沙盒技术,这些技术大多数企业系统尚未采用。

Tempo如何使用MITRE ATT&CK映射来提供可操作的智能,而不是仅仅原始警报?

Tempo使用有监督的分类器和无监督的行为链将其检测结果映射到ATT&CK战术和技术。 当系统看到一个序列,例如可疑的PowerShell执行、注册表密钥修改和异常的外部流量时,它不仅仅是对每个步骤发出警报,而是将该序列标记为执行>防御规避>数据外泄,匹配已知的ATT&CK ID。

这使得防御者能够立即理解对手的目标以及他们在杀伤链中的位置。我们还提供了丰富的信息:受影响的实体、相关日志和置信度。这种结构化方法减少了SOC分析师的认知负担,并加速了响应工作流程。团队知道使用了什么战术、导致了什么以及下一步可能是什么。这比警报疲劳系统有了很大的改进,这些系统在没有叙事背景的情况下对每个异常都发出警报。

为什么DeepTempo在SIEM(安全信息和事件管理)系统上游运行,以及这种定位如何增强威胁检测和简化安全团队的运营?

SIEM倾向于规范化和过滤日志以降低摄取成本。但是,通过这样做,它们经常失去有价值的上下文,例如精确的时间戳、延迟峰值或短暂的会话行为。DeepTempo在上游运行,摄取原始遥测数据,然后进行这种转换。这使我们能够建模更丰富的行为模式,例如服务令牌重用带有轻微的时间变化或罕见的API调用序列,这些序列永远不会通过SIEM阈值。

在上游工作也意味着我们可以在它们进入SIEM之前减少噪音。我们不推送每天数百万条日志行,而是传递50-100个高上下文事件,带有完整的ATT&CK丰富和基于模型的评分。团队花费更少的时间进行分类,并花费更多的时间调查重要的威胁。这也降低了SIEM存储和计算成本,这在大型环境中可能很显著。

是什么使得Tempo能够如此快速地对新环境进行模型的微调,相比之下,传统的机器学习工作流程又如何?

传统的ML系统通常需要数周的标记数据和重新训练才能适应新环境。Tempo采取了一个根本不同的方法。它利用了一个预训练的模型,该模型是在大规模的网络遥测数据(如NetFlow和VPC流数据)上构建的。这使得它对流量和行为在不同环境中通常的外观有了很好的理解。

当Tempo被部署到一个新环境时,它不需要标记的数据或长时间的学习周期。它使用仅仅几天的本地网络活动来建立基线并微调自己以检测特定于该环境的模式,例如非工作时间的异常访问、服务间的通信异常或意外的数据移动。这发生在几个小时内,而不是几周内。

因为这个过程是自我监督的,所以没有必要让安全团队手动标记或标记事件。为了保持最新状态,当环境发生变化时,我们已经建立了快照机制,允许模型“忘记”过时的行为。操作在网络层允许我们比传统的基于端点或日志的安全工具更早、更广泛地检测到威胁。

DeepTempo如何在最小化假阳性方面保持高精度,特别是在动态云环境中?

我们结合了时间建模和上下文感知的网络行为分析,直接建立在NetFlow和VPC流日志之上。我们的高尚序列生成方法与大规模预训练的基于变换器的深度学习算法相结合,有助于理解网络事件如何随时间展开。我们不仅仅标记一个单独的失败登录,而是标记一个失败的登录后跟随一个新设备的成功登录、横向移动和异常的数据访问。这种分层的时间上下文过滤掉了噪音并突出了真正的新威胁。

第二,我们在上下文中概况用户和服务行为。Kubernetes节点在更新期间重启12次是正常的,但如果它在2点钟后跟随着来自未知注册表的新容器部署,则在2点钟后是可疑的。Tempo认识到这一点,因为它同时查看序列、时序和上下文。另外,我们的主动学习管道积极监控和收集有关特定检测样式的信息。如果管道检测到性能或数据的漂移,它将利用快照和分析师的反馈来微调模型的少量参数。

我们在原始、高保真度的网络元数据上构建我们的检测,结合时间智能和行为基线来提供即使在云环境中也能快速变化的高置信度警报。

在您的系统中,可解释性扮演着什么角色,您如何确保警报带有可用的、可解释的上下文?

Tempo中的每个检测都包括摘要、底层日志证据和推断的战术(例如,通过蛮力获取凭据)。我们还提供了相关实体、用户、端点、云资源的图表,以便SOC团队可以可视化事件。目标是消除困扰许多AI系统的“黑盒”效果。

我们从学术可解释性工具中借鉴了LIME和SHAP,但发现它们对分析师来说不直观。因此,我们生成了纯文本叙述:发生了什么、什么时候、为什么可疑以及我们有多自信。这不仅仅是关于清晰度,而是关于使一级分析师能够在不升级每个警报的情况下采取行动。

攻击者使用AI和基础模型本身的长期风险是什么,DeepTempo如何计划保持领先地位?

威胁格局正在进入一个阶段,攻击者可以部署能够自我学习、实时改变有效载荷并模拟合法用户行为的AI代理。这些代理可以24/7运行,不断探测弱点,并随着每次失败的尝试而适应。这是一个根本性的转变,不再仅仅是关于零日漏洞,而是关于速度、迭代和混淆。

我们正在通过投资对抗训练、上游检测和不依赖已知指标的行为建模来为此做准备。我们的目标是识别恶意行为的结构在其升级之前。我们还正在探索指纹AI生成的攻击流量的方法,就像我们曾经指纹僵尸网络一样,这样防御者即使有效载荷不断变化,也可以标记活动。

感谢您接受这次精彩的采访,希望了解更多的读者可以访问DeepTempo

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。