新研究提出真正的“个性化”广告
作者 Martin Anderson 在“自我推广”的重新定义中,一种新方法通过挖掘用户自己的点击历史来创建基于其特定历史的定制网页广告。 尽管广告机构渴望驳斥广告管道可以根据用户在家中讨论的内容为其提供广告的想法,但近年来,网站和社交媒体应用程序中广告的“个性化”程度已经引起了关注。对于广告商来说,理想的情况始终是提供的广告是“完全匹配”用户的需求。在在线跟踪的公共反对和用户可能安装的防止此类监控的措施的限制内,生成式AI(不考虑LLM广告的恐惧)能够快速产生广告图像和文本,以便实时部署。然而,迄今为止的大部分研究和实施都是基于聚合使用统计数据,这意味着为用户生成的广告将基于用户的猜测群体,而不是其独特的历史。现在,一项由中国和美国联合开展的研究提出了一个系统,用于通过学习用户的过去点击历史来为个别用户生成广告图像和文本,超越了迄今为止大多数个性化广告研究的基于群体的假设。不同寻常的是,这种新方法放弃了基于扩散的模型,而采用了自回归架构——主要区别在于扩散模型从视觉噪声中逐渐完善图像,而自回归模型一次生成内容,预测每个新元素基于之前的所有内容。封闭花园值得注意的是,这项工作的拟议范围不提供一种方法让广告商规避新的防止第三方跟踪的措施,而是赋予足够大的零售商为登录的客户提供直接与该特定人相关的广告的权力。这不一定局限于当前浏览零售商网站的客户:根据用户授予零售商在其他网站上跟踪他们的权限范围,他们可以在参与零售商使用的任何其他网站的广告拍卖中看到有针对性的广告。这种广告范围通常仅限于高容量、高规模的零售商,如亚马逊,在西方(我们注意到,类似规模的中国零售商参与了这项新工作——见下文),尽管任何类似规模的企业(如流行的社交媒体平台)都可以理论上生成类似的生成框架。新论文的标题为设计你的广告:使用统一自回归模型的个性化广告图像和文本生成,来自中国和美国的18位作者,包括中山大学、东北大学和中国最大的零售商JD.com(后者拥有对购物者历史和习惯的宝贵访问权限)。代码已通过GitHub提供,相关检查点也已提供。数据和方法该项目构建的数据集称为个性化广告图像-文本(PAd1M),由项目贡献者JD.com提供数据。作者们指出:“每个产品通常提供超过十个候选图像和文本,确保可以完全检测到多样化的偏好。为了实现可靠的偏好建模,我们收集了用户在图像和文本上的完整点击历史,过滤掉活动不足的用户以减少噪音。”“这产生了一个包含1,145,371个用户的数据集,共有18,923,555个点击的产品图像和文本,平均每个用户有超过十六个多模态历史行为。”对于每个用户,选择一个之前点击的图像-文本对作为目标示例,然后使用Grounded SAM从图像中分离出产品本身。然后将卖家提供的描述和销售点附加到记录中,创建一个数据集,其中每个目标广告都伴有一个透明的产品图像;结构化的产品信息;以及之前的图像和文本交互历史,旨在捕获用户的先前兴趣和偏好。所得数据集提供了超过一百万用户和近1900万个点击图像和文本记录,作者们指出,该集合的规模远远大于以前的个性化数据集。此外,该数据集不寻常地结合了图像和文本,允许用户偏好跨多个模态建模,而不是仅在单个域内。PAd1M还具有个体级别的偏好跟踪;与之前的大多数广告数据集不同,这些数据集是围绕点击率聚合在大型群体中的,PAd1M将交互链接到JD.com数据中的特定用户。对于指标,除了标准的BLEU和ROUGE选择外,研究人员开发了自己的自定义测量标准,称为产品背景相似性(PBS)。基于之前的MoCo-v3计划,PBS是在681,123对图像上训练的,显示相同产品在不同背景下,允许该指标关注上下文变化而不是产品本身。在训练过程中,每个图像都与自身配对作为正例,而同一产品在不同环境中的图像则作为负例,训练策略旨在增加对背景上下文的敏感度。评估结果,论文声称,表明与CLIP、DINO v3或之前的MoCov3相比,PBS在匹配和非匹配背景之间产生更大的相似性差异。如图所示,研究人员的统一广告生成(Uni-AdGen)模型使用自回归视觉语言架构来生成广告文本和图像。该过程由结构化指令引导,包括任务定义、产品描述和关键销售点。特殊的分隔符标记定义了保留用于广告副本的序列部分。文本生成后,专用的图像标记触发图像生成,而关闭图像标记标记其完成,生成的标记随后发送到单独的文本和图像解码器。对于图像,使用LlamaGen的VQ-GAN解码器将离散图像标记转换回像素。通过这种方式,统一架构在单个下一个标记预测框架内生成文本和图像,而不是依赖单独的管道——这是在具有类似范围的早期广告系统中采用的方法。在训练期间,模型同时学习两个模态,基于输入序列和之前生成的文本预测文本标记。然后使用输入序列、生成的文本和之前生成的图像标记预测图像标记。为了将生成的广告与所推广的产品绑定,Uni-AdGen使用基于DINO v2的前景感知模块,将透明产品图像中的信息注入自回归模型中。指令调优(训练模型以遵循从描述和销售点中派生的产品特定生成指令)也用于提高对卖家提供的描述和销售点的遵守度,使用GPT-4o过滤掉不合适的训练示例。个性化依赖于粗到细的偏好理解模块。历史交互首先通过产品相似性采样(PSS)管道进行过滤,以偏爱与目标项目类似的产品。剩余的记录然后由多模态偏好提取阶段处理,旨在识别最有可能反映用户兴趣的视觉和文本元素——这些偏好被插入提示中,以指导生成。测试作者们指出,他们的测试方法源自DeepSeek的Janus-Pro 7B。该模型在批量大小为4的条件下,使用AdamW优化器,学习率为5e-5进行训练。基模型通过LoRA进行微调,前景感知和多模态偏好提取模块完全微调(即,与LoRA不同,基模型权重被永久修改)。所有测试都在NVIDIA B200 GPU上运行,配备192GB的VRAM。对于图像生成,使用PickScore、ImageReward和ASE来衡量视觉质量,而m-BLEU和m-ROUGE†用于评估广告文本。人类评估者还评估了图像的真实性和布局质量,以及文本的准确性和流畅度,所有指标都计算在500个产品上。对于图像生成,基线包括Qwen2.5-VL和GPT-4o,用于从产品图像创建背景提示,然后是ReliableAd、PosterMaker和Flux-Fill,用于生成最终广告。文本生成比较是针对Qwen2.5、Qwen3和DeepSeek-R1进行的。初始基线量化结果如下所示:在这些结果中,作者们指出:“我们的方法在ImageReward和PickScore方面实现了最佳性能,并在人类评估中排名第二,表明其在美观度和可用率方面的优异性能。虽然ReliableAd在人类评估中领先,但它在美观度指标中落后。相反,PosterMaker和Flux-Fill生成了视觉上吸引人的图像,但遭受了显著的可用性限制。”“由于有效的控制方法,我们的方法成功地在视觉内容和实用工具之间实现了最佳平衡。”个性化广告生成是在500个具有记录交互历史的用户上进行评估的,使用前面提到的PBS来衡量图像相似性,并使用BLEU和ROUGE来比较生成的文本与用户实际点击的产品。因为前一个实验中使用的通用广告基线不能纳入用户历史,所以比较被转移到为个性化设计的系统上。对于图像生成,Flux-Kontext和Pigeon被选为基线。Flux-Kontext被提供了一个历史用户图像网格,连同目标产品图像,以便之前的偏好能够影响生成。由于Pigeon不支持控制产品放置,Uni-AdGen中开发的前景感知模块被集成以保持产品的一致性。对于文本生成,Qwen3和DeepSeek-R1被使用,历史产品描述直接插入到它们的指令模板中,以提供用户特定的上下文。在这里,作者们评论说:“可视化结果(见下图)显示,Flux-Kontext无法理解用户偏好,并且容易受到样本级噪音的影响,导致其与真实值有显著的偏差,例如摩托车图像中的无关项。”作者们声称,定性示例表明,Flux-Kontext和Pigeon经常生成的输出与用户之前点击的广告的视觉特征有很大差异;同时,Qwen3和DeepSeek-R1生成的文本省略了真实示例中存在的一些销售点。结论该项目的实用性完全取决于用户的选择加入,并且将这种“预测”系统的范围扩展到控制用户历史的域之外,需要在大多数地区放松一套显式的用户许可。然而,该系统是基于这样一种超大规模网络效应的工作,并且基于这样一种(可能稍微乐观的)想法,即用户会在零售巨头的封闭花园中找到这种真正个性化甚至预见性的推荐系统是有用的,而不是侵入性的。 * 这幅图是研究论文中令人担忧的新趋势的体现,即将原本可能是3-4个独立图的内容合并成一个图(为了遵守对主文长度的提交指南),并仅作为参考材料使用,通常没有足够的说明。† “m”前缀表示与多个候选文本的比较。首次发布于2026年6月2日。于2026年6月2日18:21 EET修改,最后一段中的“wall”改为“walled”。