思想领袖

为什么“最佳LLM营销”不存在

mm

每次发布新的大型语言模型,都带来相同的承诺:更大的上下文窗口、更强的推理能力和更好的基准性能。然而,在不久之后,AI从业的营销人员开始感到一种熟悉的焦虑感。他们正在使用的模型是否已经落后了?是否值得切换和从头开始重新训练?如果他们什么都不做,会不会被甩在后面?

这种焦虑是可以理解的。然而,它也是不必要的。

作为负责构建营销人员每天依赖的系统的人,我已经看到这种模式在团队和工作流中反复出现,远在它出现在头条新闻之前。

从产品和平台的角度来看,过去几年中变得越来越明显:没有单一的模型能够在所有营销任务中始终表现最佳。由于我有机会看到数百个营销团队在全球范围内推出活动,而模型创新步伐加快,我可以看出,现实世界营销工作的要求太过细致,无法让单一模型的策略在长期内成立。

选择“正确”的模型并不重要,因为没有单一的模型适用于每项任务。重要的是设计能够持续评估模型并将其与营销人员试图完成的具体工作相匹配的系统。这不是个别营销人员应该管理的事情,而是他们的工具应该为他们处理的事情。实际的收获很简单:停止问哪个模型是“最好的”,开始问你的工具是否可以在模型更改时适应。

为什么“最佳模型”思维在营销中行不通

大多数关于LLM的公开讨论都围绕着一般性基准:数学问题、推理挑战、标准化考试。这些基准对于研究进展来说是有用的信号,但它们是预测现实世界任务性能的弱指标。

营销内容,特别是具有以下特点,这些特点通常不会被一般基准捕捉到:

  • 它总是关于特定的产品或服务
  • 它总是为特定的受众撰写
  • 它必须始终反映品牌的声音、语气和标准

例如,我们一致地看到,不同的模型在不同类型的营销工作中表现出色。有些模型更擅长从头开始创建符合品牌声音的副本,而其他模型在理解复杂的技术文档并将其提炼成博客文章方面表现更好。我们通过严格的测试来学习这一点,因为新的功能只有在被快速、现实地评估时才会产生价值。因此,例如,当Gemini 3 Pro在2025年11月底发布时,我们的团队在24小时内将其集成和测试,并将其提供给选定的客户,以评估其与实际营销工作流的适用性,而不是抽象的基准。

这种模式并非仅仅是轶事。研究越来越表明,LLM的性能在很大程度上取决于任务,模型在写作、摘要、推理和指令跟随任务中表现出显著的差异。即使在一般推理测试中表现良好的模型,也可能难以生成受品牌敏感的内容。

更重要的是,我们每月都看到这种变化。随着提供商为不同的功能、成本结构和训练方法进行优化,模型领导地位发生变化。认为一个提供商将在所有营销用例中始终保持“最佳”地位的想法已经过时。

追逐发布的隐藏成本

当团队尝试手动跟踪模型发布并主动切换工具时,运营成本会迅速增加。营销人员会遇到:

  • 工作流中断,因为提示、模板和流程需要不断调整
  • 输出质量不一致,因为不同的模型在任务中表现不同
  • 决策疲劳,因为评估时间取代了生产性工作

我见过营销团队花费整个季度从一个提供商迁移到另一个提供商,只是发现他们精心调整的提示不再按预期工作。曾经感觉上品牌的内容突然读起来不同。刚刚习惯了一个工作流程的团队成员现在面临着新的学习曲线。承诺的性能增益很少以证明中断是合理的方式体现出来。

行业研究一致表明,AI的价值大多数是在模型层面上丢失的,而是在集成和变更管理中。从产品的角度来看,最大风险是将工作流程过于紧密地耦合到单个模型上。这只会产生技术锁定,使得随着时间的推移,改进变得更加困难。

更具韧性的方法:LLM优化系统

更具韧性的方法是假设存在波动性。然后为其设计。

在LLM优化系统中,模型被视为可互换的组件,而不是固定的依赖项。性能使用真实工作流程不断进行评估,而不是抽象基准。不同模型可以根据观察到的结果而不是理论能力路由到不同任务。

这可能意味着将社交媒体标题生成路由到一个擅长简洁和吸引力的模型,而将长篇博客内容路由到一个在数千字中保持一致性的模型。帮助制定策略的代理可能使用一个更擅长推理的第三个模型。系统会根据哪个模型在每个特定任务类型中表现最佳自动进行这些路由决策。

从用户的角度来看,这个过程应该是不可见的。一个我喜欢使用的类比是:在法国美食中,每个组件——酱汁、还原、调味——都有其背后的技术。用餐者不需要知道每个成分来自哪里。他们只体验到一顿更好的饭菜。

对于营销人员,同样的原则也适用。底层引擎可以更改,而工作流程保持稳定。改进会逐渐以更好的品牌对齐、更高的内容满意度和更一致的结果为形式出现,而不会强迫团队每隔几个月就重新学习工具。在实践中,这意味着营销人员会获得更一致的结果和更少的工作流中断,即使模型在底层发生变化。

为什么测量比基准更重要

模型决策只有在现实工作流程中产生可衡量的改进时才有意义。公共基准提供了方向性的洞察,但它们并不能回答营销特定的运营问题,例如:

  • 该模型是否更可靠地应用品牌声音?
  • 它是否更少地将产品知识纳入错误中?
  • 它是否减少了编辑时间或治理瓶颈?

最近的研究强调了人类在循环中评估和任务特定测试对于应用LLM系统的重要性。在大规模上,这些信号比排行榜排名更能预测价值。

代理转变提高了赌注

随着AI系统变得更加代理,规划、草拟、迭代和执行需要更少的直接监督,底层模型选择的重要性增加了。同时,人类监督每个决策的可行性降低了。

这与当前关于代理系统的研究相吻合,强调工具和模型的选择对可靠性和安全性产生了重大影响。在这种环境中,模型选择成为基础设施决策,而不是用户偏好。系统本身必须确保工作流程的每个组件都由最合适的模型提供动力,基于观察到的性能而不是习惯。

吸收变化而不是对变化做出反应

头条新闻将继续出现,新模型将继续发布,LLM性能的领导地位将继续变化。

成功是关于构建能够吸收模型波动性而不是对每个发布做出反应的系统。这是营销人员可以快速扩展工作、保持质量和品牌一致性、专注于真正产生影响的工作的方式。

我坚信,AI在营销中的未来是使模型更改对从业人员来说变得无关紧要。毕竟,营销人员有比每六个月重新训练模型更重要的事情要做。

Bryan Tsao 是 Jasper 的首席产品官,Jasper 是一个营销代理平台,他领导产品、工程、增长和数据团队。在加入 Jasper 之前,他曾担任过多个高级领导职位,包括 Dropbox 的增长和数据副总裁、Namely 的产品和设计副总裁,以及 Mattermark 的产品、设计和数据副总裁。他拥有加州大学伯克利分校的信息管理系统硕士学位和加州大学圣地亚哥分校的认知科学学士学位。