关注我们.

安德森的角度

为大型语言模型中的广告做好准备

mm
来源:ChatGPT-4o 和 https://commons.wikimedia.org/wiki/File:Microsoft_Surface_Laptop_7.jpg

新的研究表明,广告很快就能直接嵌入到类似 ChatGPT 的回复中——不再以横幅或弹窗的形式,而是融入到回复本身。一项新的基准测试旨在测试这些植入广告的回复在多大程度上能够保持实用性、可信度和盈利能力,并且可能需要在可接受的用户体验和点击率之间做出权衡。

 

随着大型语言模型的广泛普及和日益普及 破坏了传统的广告方式 几乎从互联网诞生之日起,人工智能就为互联网提供了强大的动力,任何熟悉风险投资家市场占领策略的人都会想知道,人工智能聊天机器人还能在多久的时间里避免在其回复中包含广告内容。

随着 Netflix 和不断扩大的流媒体服务 演示有线电视时代将付费订阅与嵌入式广告相结合的传统策略(通常被认为是降低消费者成本的一种方式)正在重新获得动力;而将广告直接纳入法学硕士输出的转变也开始 看起来不那么投机……更像是该模型的自然采用者。

摘自论文《法学硕士的在线广告:机遇与挑战》,该论文相当具有代表性地展现了大多数人对法学硕士盈利后可能出现的转变的预期。来源:https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

摘自论文《法学硕士的在线广告:机遇与挑战》,这是大多数人期待法学硕士货币化时发生的转变的一个相当具有代表性的例子。 资料来源:https://www.sigecom.org/exchanges/volume_22/2/FEIZI.pdf

在已经拥有显著影响力的新兴媒体中加入广告的前景 问题 可信度,可能显得仓促;然而 生成式人工智能的投资规模 过去 12 个月的业绩表明,市场目前并没有表现出谨慎或审慎的态度;而像 OpenAI 这样的大型参与者可能过度杠杆化,需要 大规模投资的早期回报但历史表明,无广告输出的蜜月期可能即将结束。

GEM-Bench

在这种形势和商业需求的背景下,新加坡发表了一篇有趣的新论文,提出了第一个针对人工智能聊天机器人界面的基准,以及可能成为 100 年来最具爆炸性的广告领域之一的新量化指标。

或许是乐观的,作者认为“真实”内容和广告内容之间存在着明显的界限,从标准回应到营销文案的“转移”是很容易发现的:

新论文研究的两种模式下可能实现的广告整合示例。来源:https://arxiv.org/pdf/2509.14221

新论文研究了两种模式下可能实现的广告整合的例子。 来源:https://arxiv.org/pdf/2509.14221

广告商本身是否会像他们一直以来的倾向那样,寻求将他们的广告内容比论文中给出的例子更巧妙地融入到产出中,还有待观察。

然而,这些都是以后的事情;目前,该领域还处于起步阶段,甚至连基本术语都还缺失,或者还没有确定。

因此本文介绍 生成引擎营销 (GEM)作为基于 LLM 的聊天机器人货币化的新框架,通过将相关广告直接嵌入到生成的响应中。

研究人员发现 广告注入响应 (AIR)生成是GEM的核心挑战,并认为现有基准测试不太适合研究该问题。为了填补这一空白,他们推出了据称是首个专门为此目的设计的基准测试。

GEM-Bench 包含三个涵盖聊天机器人和搜索引擎场景的精选数据集。它还包含一个用于评估用户满意度和参与度多个方面的指标本体,以及一套在模块化多智能体框架内实现的基线方法。

作者认为,虽然简单的基于提示的方法可以实现可观的参与度指标,例如提高点击率 (CTR),但它们往往会降低用户满意度。相比之下,在预先生成的无广告回复中插入广告的方法虽然会增加计算开销,但信任度和回复质量却有所提升。

本文认为,这些权衡凸显了将广告整合到生成输出中更有效、更高效的技术的必要性。

这个 新工作 标题为 GEM-Bench:生成引擎营销中广告注入响应生成的基准,来自新加坡国立大学的四位研究人员。

付款方式

生成式引擎营销 (GEM) 的概要借鉴了搜索引擎营销 (SEM) 的基本原理。传统的 SEM 的工作原理是通过多阶段流程将查询与广告匹配,其中广告商对关键词进行竞价;系统识别哪些查询会触发广告;系统估算每个广告被点击的可能性;然后通过平衡出价和预测参与度的拍卖来分配展示位置。

相比之下,GEM 方法将相同的阶段应用于 LLM,但每一步都面临着新的挑战:没有固定的广告位,因此系统必须决定查询是否可以接受广告以及将其插入到自由格式文本的哪个位置;如果没有结构化的布局,估算点击率会变得更加困难;相关性必须与用户满意度保持平衡,因为广告直接编织到模型自己的输出中,而不是作为独立的副本提供。

本研究的基准之一是 广告聊天,代表一种简单的方法,在模型生成响应之前,将广告内容插入到系统提示中。这意味着模型会根据预先加载的议程生成已嵌入广告的答案。

另一种方法, 法学硕士,由作者开发,是新基准测试产品的一部分。Ad-LLM 采用模块化路径,首先生成一个干净、无广告的答案;选择相关广告;根据语义流确定最佳插入点;最后重写输出以平滑地集成广告:

Ad-Chat 与作者的“Ad-LLM”方法的比较。Ad-Chat 在生成之前通过系统提示插入广告,且对投放位置的控制有限。Ad-LLM 将响应生成和广告插入分离,根据语义流选择插入点,并优化结果。两者均使用 GEM-Bench 指标对满意度和参与度进行评分。

Ad-Chat 与作者的“Ad-LLM”方法的比较。Ad-Chat 在生成之前通过系统提示插入广告,且对投放位置的控制有限。Ad-LLM 将响应生成和广告插入分离,根据语义流选择插入点并优化结果。两者均使用 GEM-Bench 指标进行评分,以评估满意度和参与度。

虽然 Ad-Chat 成本更低,有时也更有说服力,但它往往会降低信任度和准确性。Ad-LLM 在用户满意度指标上表现更佳,但成本更高。

时间

对于 AIR 生成,最初生成了两种类型的数据集:用户查询集(用户) 和广告数据库 (添加数据库).

由于用户查询定义了 LLM 响应中的广告机会,因此可以说“广告库存”存在于这些响应中,尽管这不仅由用户查询的适用性定义,而且还由系统遵守其自身关于平衡诚信与广告商要求的规则的程度定义。

无论如何,广告只会出现在响应中,即使(参见上面的模式)用户请求可能会被秘密增强以适应广告投放过程。

对于聊天机器人场景,作者构建了两个查询数据集: MT-人类LM市场.

MT-Human 取自 MT 工作台,这是法学硕士 (LLM) 的多轮基准,包含可能包含广告内容的问题。

LM-Market 是根据以下人员收集的超过 50 万条真实 ChatGPT 查询构建的: LMSYS-聊天-1M,筛选与英语营销相关的提示,并按主题聚类使用 语义嵌入.

在这两种情况下,最终查询都是通过结合自动化的多阶段管道选择的 集群、法学硕士评分和人工验证,目的是识别广告插入自然且合理的提示。

为了评估广告注入响应的质量,GEM 定义了一个涵盖用户满意度和参与度的测量本体。该本体包含以下量化指标: 响应流, 相干性汽车保险理赔及 点击率以及定性标准,例如 信任, 汽车保险理赔及 自然 – 指标旨在反映广告与响应的契合程度,以及用户感知和与之互动的可能性。

关于“自然性”,论文指出:

自然度衡量的是广告插入对对话流畅性和自然性的干扰程度,基于干扰性和真实性。干扰度考察的是广告在阅读过程中是否会造成“突兀”或“生硬”的感觉,打断用户对主题的持续关注。

“真实性评估广告是否破坏了对话的‘人情味’或‘自然流畅’,使得回应显得僵硬、公式化、缺乏真实性。”

为了在测试阶段生成传统的搜索引擎场景,作者创建了一个名为 CA-产品 来自 广告CVLR 商业语料库,其中包含 300,000 个查询广告对,每个对由关键字、元数据和标记相关性的手动标签组成:

摘自其原始论文,其中示例来自 AdsCVLR 数据集,为作者的测试提供了素材。来源:http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

从其原始来源论文中,来自 AdsCVLR 数据集的示例有助于为作者的测试提供材料。 来源:http://www.jdl.link/doc/2011/20221224_AdsCVLR.pdf

缺少字段的记录被删除,只保留包含正面和负面广告的查询(参见上图的示例)。

为了完善数据,广告被分为六个主题组(草坪和园艺设备, 套穿鞋, 家居用品, 营养补品, Android设备汽车保险理赔及 女装) 使用语义嵌入和 K-means 聚类。

然后根据积极广告将查询分配到主题,排除过于稀疏或密集的集合,最后对 120 个查询和 2,215 个独特产品进行基准测试。

检测

为了评估不同广告注入策略的效果,基准测试解决了三个核心问题:每种方法在定义的满意度和参与度指标方面的有效性;Ad-LLM 中的内部设计选择如何影响其结果;以及不同系统的计算成本如何比较。

作者评估了 Ad-Chat 和作者的 Ad-LLM 管道的三个变体,每个变体在检索广告的方式(从提示或生成的响应中)以及是否重写最终输出以提高流畅度方面有所不同。

所有方法均使用 豆宝-1-5-lite-32k 作为基础模型,并判断 GPT-4.1-迷你.

Ad-Chat 和 Ad-LLM 变体在 MT-Human、LM-Market 和 CA-Prod 数据集上的有效性。定量指标包括响应流 (RF)、响应一致性 (RC)、广告流 (AF)、广告一致性 (AC)、注入率 (IR)、点击率 (CTR) 和总体得分。定性指标涵盖准确度、自然度、个性、信任度、关注度、点击率和整体表现。

Ad-Chat 和 Ad-LLM 变体在 MT-Human、LM-Market 和 CA-Prod 数据集上的有效性。定量指标包括响应流 (RF)、响应一致性 (RC)、广告流 (AF)、广告一致性 (AC)、注入率 (IR)、点击率 (CTR) 和总体得分。定性指标涵盖准确度、自然度、个性、信任度、关注度、点击率和整体表现。

在所有三个数据集中,Ad-LLM 在满意度和参与度指标上均优于 Ad-Chat。如上表结果所示,最佳 Ad-LLM 变体在总体定量得分上分别比 Ad-Chat 提高了 8.4%、1.5% 和 3.8%;在 MT-Human、LM-Market 和 CA-Prod 的定性得分上分别比 Ad-Chat 提高了 10.7%、10.4% 和 8.6%。

对于这些结果,作者指出:

“这些结果表明,与仅依赖系统提示注入的简单方法相比,生成原始响应并随后注入广告可以获得更好的响应质量。

“对于特定的用户满意度和参与度维度,Ad-Chat 与 Ad-LLM 解决方案在所有三个数据集上始终显示出显著的性能差距,特别是在准确性、个性和信任度等维度上。”

此外,Ad-LLM 在准确率、个性化和信任度方面表现出色,分别比 Ad-Chat 高出 17.6%、23.3% 和 17.2%。论文指出,这些差异可能是由于 Ad-Chat 使用系统提示引导模型使用更个性化和促销性的语言——作者认为,这可能会导致模型语气变得“像推销员”,从而降低准确率和信任度。

即使在针对广告适用性选择的查询进行评估时,Ad-Chat 也产生了较低的注入率,作者将此归因于对基于提示的线索的依赖(他们认为这很难控制)。

然而,在搜索引擎设置中,Ad-Chat 的点击率提高了 8.6%,论文认为这可能反映了使用 LLM 检索候选产品的优势,而不是仅仅依靠语义嵌入:

比较四种评判模型(GPT-4.1-mini、Qwen-max、claude-3-5-haiku 和 kimi-k2)在 MT-Human、LM-Market 和 CA-Prod 数据集上对 Ad-Chat 和三种 Ad-LLM 变体(GI-R、GIR-R 和 GIR-P)的整体性能得分。虽然得分因评判者而异,但 Ad-LLM 在所有条件下的表现均优于 Ad-Chat。

比较四种评判模型(GPT-4.1-mini、Qwen-max、claude-3-5-haiku 和 kimi-k2)在 MT-Human、LM-Market 和 CA-Prod 数据集上对 Ad-Chat 和三种 Ad-LLM 变体(GI-R、GIR-R 和 GIR-P)的整体性能得分。虽然得分因评判者而异,但 Ad-LLM 在所有条件下的表现均优于 Ad-Chat。

第二个结果表(如上所示)表明,在所有三个数据集上,Ad-LLM 解决方案在四个评判模型中始终优于 Ad-Chat;GPT-4.1-mini;Qwen-max;Claude-3-5-haiku;和 Kimi-k2。

这些评委的选择与基础模型 doubao-1-5-lite-32k 有所不同,有助于减少模型族比对带来的偏差。GIR-R 在所有情况下均排名第一或第二,表明评委们普遍认同 Ad-LLM 的优越性。各定性维度的细分与前一结果(如上所示)的模式非常接近。

最后,本文指出,Ad-Chat 和 Ad-LLM 所需的资源比更具创新性和效率的模型更高,并且在此类事务中使用 LLM 代理可能会带来巨大的开销。当然,人们可以想象,使用此类 LLM 可能会引发延迟问题(这在广告投放场景中通常至关重要)(尽管本文并未对此进行具体说明)。

无论如何,作者实施的 Ad-Chat 策略(文章开头所示的早期模式中的上一行)被证明可以提供最高的点击率,尽管它具有最高的相关 LLM 成本。

结语

虽然文献中对法学硕士进行广告宣传的方法进行推测并不奇怪,但实际上关于这个主题的公开研究相当少;这使得当前的论文,以及我们可以合理地解释为 其前身,有趣的票价。

任何曾在广告销售部门工作过或销售过库存的人都知道,广告商总是想要更多——理想情况下,将广告呈现为事实内容,与主流媒体内容流完全没有区别;为此,他们会支付高额费用(主流媒体也会支付高额费用,因此主流媒体的信誉以及在读者和其他利益相关者心目中的地位都会受到威胁)。

因此,有趣的是,看看这两份文件中设想的带有广告的附录在多大程度上可能会被激励进一步提高法学硕士的回应率,并更接近“有效载荷”。

 

首次发布于 18 年 2025 月 XNUMX 日星期四