访谈

NeuroMetric 首席执行官兼联合创始人 Rob May – 专访系列

Published March 26, 2026

Updated March 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Rob May 是 NeuroMetric 的首席执行官兼联合创始人，是一位经验丰富的企业家和投资者，在云计算、人工智能初创企业和风险投资领域拥有悠久的履历，目前领导 Neurometric AI，同时兼任 HalfCourt Ventures 的董事总经理，已投资超过 100 家科技公司。除了运营和投资角色，他还共同创立了 AI Innovators Community，并曾创立并成功退出了 Backupify 等公司，这反映了他在多个技术周期中的深厚经验。他还因其长期撰写的 Investing in AI 时事通讯而广为人知，该通讯始于十多年前，旨在分析新兴的人工智能趋势、投资策略和市场变化，现已发展成为一个平台，为快速演变的人工智能领域提供更深入的见解。

NeuroMetric AI 专注于解决当今人工智能领域最关键的挑战之一：规模化推理的成本和效率。该平台动态评估人工智能工作负载，并应用优化策略——例如将更小、更专业的模型与先进的测试时计算技术相结合——以提高性能，同时显著降低成本，使企业能够从人工智能部署中获得更好的投资回报率。通过编排工作负载并根据特定任务定制模型使用，NeuroMetric 旨在使人工智能系统显著更快、更经济，将自己定位在人工智能基础设施、效率和现实世界可扩展性的交叉点上，助力组织从实验阶段迈向生产阶段。

您创立并领导了多家人工智能公司，通过 HalfCourt Ventures 投资了 100 多家初创公司，并且之前创立并成功退出了 Backupify。这些经历如何塑造了您对当今人工智能领域持久价值创造之处的看法？

我认为大多数投资者和企业家都在追逐短期护城河——那些今天看起来是市场中明显缺口，但很快会被现有公司填补的缺口。人工智能将使企业运营演变成一系列概率决策。值得投资或创建的公司，是那些对这些概率拥有最佳整体估算的公司。有时这来自于垂直整合，有时则来自于横向规模——这取决于市场。

在您的 Investing in AI 时事通讯中，您曾提出模型正变得越来越可互换，真正的防御性转移到了系统层。在实践中，真正的“系统护城河”是什么样的？

真正的系统护城河具有三个属性：它会随着使用而增强；它是针对特定客户的；并且无法通过换用更好的模型来复制。

防御性存在于我称之为“上下文系统”中——这是一种将基础模型与构成公司独特性的所有要素（其数据、工作流程、领域知识、决策历史）连接起来的集成架构。该系统从每次交互中捕获信号——哪些模型在哪些任务上成功、延迟在何处重要、出现了哪些企业特定的模式——并将这些反馈用于自我改进。

关键见解在于，这创造了一个乘法飞轮，而非加法飞轮。你不仅仅是在积累一个可搜索的过去决策日志。你正在生成训练信号，从而产生专门用于改进路由的模型，进而捕获更有价值的数据。护城河随着每次推理而拓宽。

在实践中，系统护城河看起来像是深度工作流程集成，其转换成本不在于 API——而在于重写业务逻辑。它看起来像是竞争对手无法复制的专有上下文，因为这些上下文是通过在特定企业内部数月生产使用生成的。它还看起来像是持续专业化循环，系统以通用模型提供商永远无法做到的方式，为该客户变得更有意义地更好。

模型时代为我们提供了原始能力。系统时代则是这种能力转化为现实世界价值的时代。

企业应如何考虑构建多模型策略，包括路由逻辑、升级路径和持续评估，而不是依赖单一的前沿模型？

企业首先需要内化的是，“只用最好的模型”在规模化时是一种失败策略。这相当于让每个查询都经过你最资深的工程师处理。它昂贵、缓慢，并且——反直觉地——通常不会产生最佳结果。

这涉及到我所说的推理的“锯齿状前沿”：模型性能是任务特定且不可预测的。前沿模型在特定任务上经常输给更小、更专业的模型。我们曾看到复合多模型系统在 CRM 任务上达到 72.7% 的准确率，而前沿模型仅为 58%。性能表面与参数数量并不整齐相关。因此，真正的问题不是“哪个模型最好？”——而是“对于这个特定子任务，哪个模型最好？”

这种重构是真正多模型策略的基础。以下是我建议企业从三个层面来思考的方式。

路由逻辑始于绘制你的推理版图。列出系统中每个进行 LLM 调用的点，并为每个点记录任务类型、输入/输出复杂性、延迟要求、准确度阈值和调用量。这会给你一张热图。你会很快发现，大部分调用量是高频率、窄范围的工作——分类、实体提取、意图路由、模板生成——在这些任务上，经过微调的较小模型能以一小部分成本匹配或击败前沿模型。将昂贵的前沿模型调用留给真正需要复杂推理的任务。一个代理每项任务进行 50 次调用，并不需要全部 50 次都使用 GPT-4。

升级路径是关于构建智能回退机制，而不仅仅是故障转移。系统需要识别何时较小模型返回低置信度结果，并升级到能力更强的模型——或者完全切换到不同的模型-策略组合。这就是测试时计算策略的用武之地。有时正确的答案不是更大的模型——而是同一个模型加上思维链、束搜索或最佳 N 采样。最优配置不仅因模型而异，也因你与之配对的思考算法而异。

持续评估是大多数企业完全忽略的部分，而真正的防御性正源于此。模型选择不是一次性的决定——它是一个持续的优化问题。新模型不断发布，你的用例在演变，性能会以静默失败的方式下降。你不会知道你的客服机器人给出了糟糕 40% 的答案，因为你为该查询类型使用了错误的模型——你只会在三个月后看到客户流失。你需要能够持续测量模型-任务组合实际效果，并根据真实性能数据（而非基准测试）调整路由的基础设施。

大多数公司尚未做出这种转变的原因是，选择前沿模型不会有人被解雇——这是人工智能领域的“选择 IBM 不会出错”。供应商生态系统推动前沿模型，因为那是利润所在。而实际运行多模型架构所需的编排基础设施——路由逻辑、回退机制、模型管理、可观测性——在大多数公司根本不存在。他们陷入了一个局部最优状态，感觉切换到多模型的转换成本和不确定性，高于持续在前沿模型推理上的过度支出。

在从人工智能试点项目转向生产级系统的过程中，您看到公司犯的最大错误是什么？

他们假设自己的选择可以是静态且持久的。实际上，人工智能技术栈的每一层都在快速变化。公司需要做出能提供可选性和灵活性的决策。

在哪些类型的工作流程中，您看到较小、任务特定的模型表现优于大型前沿模型，这为何具有战略意义？

我们几乎在每一项常见的日常工作任务中都看到了这一点——比如基础会计、文本摘要、从各种文档中提取实体。我们已经探索了数百个工作任务的 SLM，如果问题结构正确，它们几乎总是胜出。

您曾撰文谈及将人工智能部署到新用例的边际成本正在下降。这对企业采用人工智能的长期经济性有何影响？

泡沫叙事假设人工智能收入需要按比例投入新模型的研发。事实并非如此。模型已经构建完成。基础设施已经存在。每个新增用例只是一个提示、一个数据连接，可能加上一些轻量级微调——而不是另一次 1 亿美元的模型训练。随着平台成熟，边际成本曲线向下弯曲。

这与铁路或电信业相反，在那里每铺设一英里新轨道都很昂贵。在人工智能领域，建造引擎是昂贵的。将事物连接到引擎是廉价的，并且越来越便宜——推理成本在两年内下降了约 1000 倍。对企业而言，问题不在于人工智能是否划算。而在于你能在相同的基础设施上叠加多少个用例，直到收入曲线压倒成本曲线。

技术团队应使用哪些信号来决定何时切换模型、进行微调或构建专门的小型任务模型？

这些信号不一定是技术性的。它们更多是性能或经济驱动的。例如，切换模型、微调模型或构建自定义 SLM 都可能有效。决策取决于你是优化延迟还是成本、任务执行的频率，以及构建和部署每种解决方案所需的时间。

如何设计护栏、监控和治理，使其能够真正随使用量扩展，而不是成为瓶颈？

大多数企业犯的错误是将治理视为一个检查点——一个附加在人工智能工作流程之上的人工审查层。这无法扩展。一旦使用量增加，它就会成为瓶颈。

治理必须嵌入到编排层本身。当你的路由基础设施已经评估每次推理调用——哪个模型、哪个任务、置信度水平——添加护栏只是边际成本，而非一个新系统。决定哪个模型处理查询的同一层可以强制执行策略：调用前的 PII 过滤、调用后的输出验证、自动捕获的审计跟踪、按部门的成本分配。

关键见解在于，企业的失败并非发生在人工智能系统内部，而是发生在系统之间——在交接、升级和异常处理中。能够扩展的治理看起来像一个控制平面，它使每个人工智能操作都安全、可审计且可重复，这是执行的副产品，而非执行的障碍。

您曾将今天的人工智能格局比作从大型机到个人电脑的过渡。这种去中心化对于在系统层构建的初创公司意味着什么？

我们现在正处于人工智能的大型机阶段。来自 OpenAI、Anthropic 和 Google 的大型、集中化的前沿模型对于集中力量并展示人工智能的潜力是必要的。这个阶段是成功的。其能力已广为人知。但正如计算没有保持集中化一样，人工智能也不会。我们正在进入个人电脑时代——一个去中心化的生态系统，其中更小、更专业的模型在更接近工作的地方运行。

支出数据已经反映了这一点。企业人工智能投资现在几乎平均分配在基础设施和应用之间，而应用份额的增长速度更快。扩张是横向的——跨越人力资源、法律、市场营销、运营、财务——而非纵向进入更大的模型。

对于在系统层构建的初创公司来说，这是一个千载难逢的机会。在一个集中化的世界里，模型提供商捕获了大部分价值。在一个去中心化的世界里，价值迁移到解决编排、路由、评估和专业化——即大规模部署异构模型生态系统所面临的操作挑战——的公司。

我的预测是，大约 25% 的人工智能推理将需要前沿模型。这些公司会发展得很好——那是数万亿美元的总目标市场。但 75% 将运行在开源和小型专业任务模型上。我们训练了一个 40 亿参数的模型，在特定的 CRM 任务上击败了前沿模型，而且运行成本极低，几乎免费。这就是未来——它需要一个全新的系统层来管理。

这个类比贯穿始终：大型机供应商发展得很好，但真正的财富创造发生在个人电脑生态系统中。人工智能领域也将如此。

展望未来五年，您认为前沿模型提供商将捕获大部分价值，还是大部分经济影响将来自围绕它们构建的编排、优化和应用系统？

我认为人工智能推理市场将成为有史以来最大的市场之一。这意味着前沿模型实验室将取得巨大成功，而为它们构建周边服务的公司仍将拥有巨大的机会。当你拥有万亿美元的市场时，解决这些市场中的小边缘案例就能造就价值数十亿美元的公司。

感谢您精彩的采访，希望了解更多信息的读者可以访问 NeuroMetric AI，或者订阅 Investing in AI 时事通讯。

Unite.AI

NeuroMetric 首席执行官兼联合创始人 Rob May – 专访系列

You may like