Anderson 视角
为大型语言模型中的广告做好准备

新研究显示,广告可能很快会直接嵌入ChatGPT风格的回答中,而不是作为横幅或弹出窗口,而是编织到响应本身中。一个新的基准测试了这些广告注入的回复如何保持有用、可信和盈利,并可能需要在可接受的用户体验和点击率之间进行权衡。
随着大型语言模型的广泛和日益增长的流行性,破坏了传统的广告方法,这些方法几乎自互联网诞生以来就一直推动着互联网的发展,任何熟悉风险投资家市场捕获策略的人都会想知道,AI聊天机器人将能够多久不在其响应中包含广告内容。
正如Netflix和不断增长的流媒体服务展示的那样,传统的有线时代策略,即将付费订阅与嵌入式广告(通常被视为降低消费者成本的一种方式)结合起来,正在重新获得动力;并且将广告直接嵌入LLM输出的转变正在开始出现,而不再是推测性的。

来自论文’在线广告与LLM:机会与挑战’,一个相当代表性的例子,展示了人们对LLM商业化的预期转变。来源:https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf
将广告纳入一个已经存在明显可信度问题的新兴媒体中,可能看起来很草率;然而,在过去十二个月内,对生成式AI的投资规模表明,市场目前并没有被谨慎或慎重的态度所定义;而像OpenAI这样的更大玩家可以说是过度杠杆化,并需要早期回报巨额投资,历史表明,广告免费输出的蜜月期可能即将结束。
GEM-Bench
在这种气候和这些商业迫切需要的情况下,来自新加坡的新论文提供了第一个针对AI聊天机器人接口的基准测试,以及新的量化指标,用于衡量可能在100年内最具爆发力的广告领域。
也许过于乐观,作者们假设“真实”内容和广告内容之间存在一个整齐的区分,其中从标准响应到营销副本的“转移”很容易被发现:

来自新论文中研究的两个模型的广告集成示例。 来源:https://arxiv.org/pdf/2509.14221
仍然需要确定广告商自己是否会,如他们的倾向一样,试图将广告内容更微妙地融入输出中,而不是在论文中给出的示例中。
然而,这些都是以后要考虑的问题;目前,领域如此新兴,以至于甚至基本术语都缺失,或者尚未确定。
论文引入了生成引擎营销(GEM)作为一个新的框架,用于通过将相关广告直接嵌入生成的响应中来使LLM基于的聊天机器人实现盈利。
研究人员确定了广告注入响应(AIR)生成作为GEM中的核心挑战,并认为现有的基准测试不适合研究它。为了填补这一空白,他们引入了据称是第一个专门为此目的设计的基准测试。
GEM-Bench由三个涵盖聊天机器人和搜索引擎场景的数据集组成。它还包括一个度量本体论,用于评估用户满意度和参与度的多个方面,以及一个模块化的多代理框架中实现的基线方法集。
作者们声称,虽然简单的基于提示的方法可以实现良好的参与度指标,例如提高的点击率(CTR),但它们往往会降低用户满意度。相比之下,先生成无广告的响应然后插入广告的方法可以提高信任和响应质量——尽管需要更大的计算开销。
论文认为,这些权衡凸显了需要更有效、更高效的技术来将广告集成到生成的输出中。
这项新工作的标题为GEM-Bench:生成引擎营销中的广告注入响应生成基准,由新加坡国立大学的四位研究人员完成。
方法
生成引擎营销(GEM)的概述借鉴了搜索引擎营销(SEM)的基本原则。传统的SEM通过一个多阶段管道工作,其中广告商竞价关键词;系统确定哪些查询触发广告;系统估计每个广告被点击的可能性;然后通过一个平衡竞价和预测参与度的拍卖来分配广告位置。
相比之下,GEM方法将这些阶段适应于LLM,但在每个步骤面临新的挑战:没有固定广告位置,因此系统必须决定查询是否可以接受广告以及将其插入自由文本的位置;没有结构化布局,估计点击率变得更加困难;并且必须在用户满意度与广告商的要求之间取得平衡,因为广告直接编织到模型的输出中,而不是作为独立的副本提供。
在工作中研究的基线之一,Ad-Chat,代表了一种简单的方法,即在模型生成响应之前将广告内容插入系统提示中。这意味着模型生成带有嵌入式广告的答案,受预加载的议程的指导。
另一种方法,Ad-LLM,是由作者作为新基准的一部分开发的。Ad-LLM采用模块化的方法,首先生成干净的无广告的响应;选择相关的广告;根据语义流确定最佳插入点;并最终重写输出以平滑地集成广告:

Ad-Chat和作者的’Ad-LLM’方法之间的比较。Ad-Chat通过系统提示在生成之前注入广告,具有有限的放置控制。Ad-LLM分离响应生成和广告插入,根据语义流选择插入点,并完善结果。两者都使用GEM-Bench指标进行满意度和参与度评估
虽然Ad-Chat更便宜,有时更具说服力,但它往往会降低信任和准确性。Ad-LLM在用户满意度指标上表现更好,但代价更高。
数据
对于AIR生成,最初生成了两种类型的数据集:用户查询集(用户)和广告数据库(AdDB)。
由于用户查询定义了LLM响应中的广告机会,因此可以说“广告库存”存在于这些响应中,尽管这不仅仅由用户查询的适用性决定,还由系统遵守其自身关于平衡完整性与广告商要求的规则的程度决定。
无论如何,广告只会出现在响应中,即使(见上面的模式)用户请求可能会被秘密增强以适应广告服务过程。
对于聊天机器人场景,作者构建了两个查询数据集:MT-Human和LM-Market。
MT-Human来自LLM的多轮基准测试MT-Bench的人文部分,包含可能包含广告内容的问题。
LM-Market从超过五十万个真实的ChatGPT查询中构建,收集自LMSYS-Chat-1M,过滤了英语营销相关提示,并使用语义嵌入按主题进行聚类。
在两种情况下,最后的查询都是通过一个多阶段管道组合,包括自动聚类、LLM评分和人工验证,目的是识别广告插入自然且合理的提示。
为了评估广告注入响应的质量,GEM定义了一个度量本体论,涵盖用户满意度和参与度。它包括量化指标,如响应流、连贯性和点击率,以及如信任、准确性和自然性的定性标准——这些指标旨在反映广告如何融入响应以及用户如何感知和与其交互。
关于“自然性”,论文指出:
‘[自然性]衡量广告插入破坏对话流程和自然性的程度,基于打断性和真实性。打断性检查广告是否在阅读过程中产生“跳出”或“突然”的感觉,打破用户对主题的连续关注。 ‘
‘真实性评估广告是否破坏对话的“人性化”或“自然流程”,使响应看起来僵硬、公式化和不那么真实。’
为了生成传统的搜索引擎场景,作者从AdsCVLR商业语料库中创建了一个名为CA-Prod的数据集,该语料库包含30万个查询-广告对,每个对由关键词、元数据和手动标记的相关性组成:

来自其原始来源论文的AdsCVLR数据集示例,这些示例有助于为作者的测试提供材料。来源:http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf
删除了缺失字段的记录,并且只保留包含正面和负面广告(见上图示例)的查询。
为了完善数据,广告被聚类到六个主题组中(草坪和园艺设备、套脚鞋、家居用品、营养补充剂、安卓设备和女装),使用语义嵌入和K-means聚类。
查询然后根据其正面广告被分配到主题,过于稀疏或密集的集合被排除,在最终的基准测试中,120个查询和2215个唯一产品被抽样。
测试
为了评估不同广告注入策略的性能,基准测试解决了三个核心问题:每种方法在定义的满意度和参与度指标上的有效性如何;Ad-LLM内部设计选择如何影响其结果;以及计算成本在系统中如何比较。
作者评估了Ad-Chat和三种Ad-LLM管道变体,每种变体在广告检索(来自提示或生成的响应)和最终输出是否为流畅性而重写方面都有所不同。
所有方法都使用doubao-1-5-lite-32k作为基础模型,并使用gpt-4.1-mini进行评估。

Ad-Chat和Ad-LLM变体在MT-Human、LM-Market和CA-Prod数据集上的有效性。量化指标包括响应流(RF)、响应连贯性(RC)、广告流(AF)、广告连贯性(AC)、注入率(IR)、点击率(CTR)和总分。定性指标涵盖准确性、自然性、个性、信任、注意、点击(-率)和总体性能。
在所有三个数据集上,Ad-LLM在满意度和参与度指标上都比Ad-Chat产生了更强的结果。如上表所示,Ad-LLM的最佳变体在MT-Human、LM-Market和CA-Prod上分别比Ad-Chat提高了8.4、1.5和3.8个百分点的总体量化评分;在定性评分上分别提高了10.7、10.4和8.6个百分点。
关于这些结果,作者指出:
‘这些结果表明,生成原始响应然后注入广告比简单地依赖系统提示注入产生更好的响应质量。 ‘
‘对于特定的用户满意度和参与度维度,Ad-Chat在所有三个数据集上始终表现出显著的性能差距,特别是在准确性、个性和信任等维度上。’
进一步,Ad-LLM在准确性、个性和信任方面表现出最强的改进,相比Ad-Chat分别提高了17.6、23.3和17.2个百分点。根据论文,这些差异可能是由于Ad-Chat使用系统提示来引导模型朝着更个性化和促销性语言的方向发展——作者认为这会导致一种“销售员般”的语气,降低准确性和信任。
Ad-Chat还产生了较低的注入率,即使在评估为广告适宜性的查询中,作者将其归因于对提示的依赖(他们认为这很难控制)。
然而,在搜索引擎设置中,Ad-Chat实现了8.6%更高的点击率,论文认为这可能反映了使用LLM检索产品候选项的优势,而不是仅仅依赖语义嵌入:

Ad-Chat和三个Ad-LLM变体(GI-R、GIR-R、GIR-P)在MT-Human、LM-Market和CA-Prod数据集上的总体性能评分比较,使用四个评判模型(GPT-4.1-mini、Qwen-max、claude-3-5-haiku、kimi-k2)。虽然评分因评判模型而异,但Ad-LLM始终在所有条件下超越Ad-Chat。
第二个结果表(见上图)表明,Ad-LLM解决方案在所有三个数据集上始终超越Ad-Chat,使用四个评判模型:GPT-4.1-mini、Qwen-max、Claude-3-5-haiku和Kimi-k2。
这些评判模型被选中以与基础模型doubao-1-5-lite-32k有所不同,有助于减少模型家族对齐的偏见。GIR-R在每种情况下都排名第一或第二,表明评判模型对Ad-LLM的优越性有广泛的认同。
在结束时,论文指出,Ad-Chat和Ad-LLM都需要比更具创新性和有效性的模型更高的资源,并且在这种交易中使用LLM代理可能代表着显著的开销。虽然人们可能会认为,广告服务场景中通常会出现延迟问题(尽管这并没有在论文中具体解决)。
无论如何,作者实现的Ad-Chat策略(在文章开始处向上滚动的模式中的上行)证明了最高的点击率,尽管它具有与LLM相关的最高成本。
结论
虽然不令人惊讶的是,文献会推测LLM可以携带广告的方法,但实际上关于这个主题的公开研究很少;这使得当前的论文,以及可以合理地解释为其前身的内容,变得很有趣。
任何与广告销售部门或销售库存合作过的人都知道,广告商总是想要更多——理想情况下,将广告以事实内容的形式呈现,完全与主内容流无异;并且他们会为此支付高价(以及主办方的可信度和与读者及其他利益相关者的地位)。
因此,将会很有趣地看到,两个论文中跨越的广告密码是否会被激励去进一步向上爬到LLM的响应中,并更接近有效载荷。
首次发表于2025年9月18日星期四












