Anderson 视角

新研究提出真正的“个性化”广告

Published June 2, 2026

Martin Anderson

A woman looks at a laptop displaying a news website, reacting with surprise as a banner advertisement on the page shows a smiling woman who closely resembles her.

在“自我推广”的重新定义中，一个新的方法通过挖掘用户自己的点击历史来创建基于其特定历史的个性化网页广告。

尽管广告代理机构渴望驳斥广告渠道可以根据用户在家中讨论的内容来提供广告的想法，但近年来，网站和社交媒体应用程序中广告的“个性化”程度已经引起了关注。

广告商的理想场景始终是提供的广告是“完全匹配”用户的需求。在公众对在线跟踪的反对和用户可能安装的防止此类监控的措施的限制内，生成式AI（不考虑LLM广告的恐惧）完全能够生产广告图像和文本，以便实时部署。

然而，迄今为止的大部分研究和实施都是基于聚合的使用统计数据，这意味着任何为用户生成的广告都是基于用户的猜测的群体，而不是他们自己的独特历史。

现在，中国和美国之间的新研究合作提出了一个系统，通过学习用户的过去点击历史（当用户登录到一个网站时），为个别用户生成广告图像和文本，这种方法超越了迄今为止大部分个性化广告研究中使用的基于群体的假设。

示例生成的个性化广告。当然，没有用户的历史作为背景，完整的影响只能被想象。 来源

这种新的方法不同寻常地放弃了基于扩散的模型，而采用了自回归架构——主要区别在于扩散模型逐渐从视觉噪声中完善图像，而自回归模型一次生成内容，预测每个新元素来自之前的所有内容。

为了支持新的生成模型，作者开发了一个大规模的图像/文本数据集，用于个性化广告，以及一个新颖的度量标准，用于评估这一特定任务。在测试中，他们发现他们的方法优于一般基准和现有的方法和框架。

封闭花园

值得注意的是，提出的工作范围并不为广告商提供一种方法来规避新的防止第三方跟踪的措施，而是为一个足够大的零售商提供了一个机会，让其能够为登录的客户提供直接相关的广告。

这种广告的覆盖范围并不局限于当前浏览零售商自己的网站：根据用户授予零售商跨网站跟踪的权限程度，用户可能会在其他参与广告拍卖的网站上看到有针对性的广告。

这种广告覆盖范围通常仅限于大规模的零售商，如亚马逊，在西方（我们注意到，一个类似规模的中国零售商也参与了这项新工作——见下文），尽管任何类似规模的公司（如流行的社交媒体平台）理论上都可以生成一个类似的生成框架。

新论文《设计你的广告：使用统一自回归模型的个性化广告图像和文本生成》由18位作者共同完成，来自中国的中山大学、美国的东北大学和中国最大的零售商京东（后者拥有对购物者历史和习惯的宝贵访问权限）。代码已通过GitHub提供，相关检查点也已提供。

数据和方法

构建的数据集名为“个性化广告图像-文本”（PAd1M），由项目贡献者京东提供。作者们指出：

“每个产品通常提供超过十个候选图像和文本，确保可以完全检测到多样化的偏好。为了实现可靠的偏好建模，我们收集了用户在图像和文本上的完整点击历史，过滤掉活动不足的用户以减少噪音。”

“这得到了一个包含1,145,371个用户的数据集，包含18,923,555个点击的产品图像和文本，平均每个用户有超过十六个多模态的历史行为。”

对于每个用户，选择一个之前点击的图像-文本对作为目标示例，然后使用“接地SAM”从图像中分离出产品本身。

然后将销售者提供的描述和销售点附加到记录中，创建一个数据集，其中每个目标广告都伴随着一个透明的产品图像；结构化的产品信息；以及用户之前的图像和文本交互历史，旨在捕获用户的先前兴趣和偏好。

PAd1M数据集中的用户配置文件，显示目标广告旁边的产品信息和历史图像和文本交互，用于建模用户的偏好。

所得到的数据集提供了超过一百万用户和近1900万个点击图像和文本记录，作者们指出，这个集合比以前的个性化数据集大得多。

此外，数据集不寻常地结合了图像和文本，允许用户的偏好在多个模态中建模，而不是在单个域中。

PAd1M还具有个体级别的偏好跟踪；与之前的大多数广告数据集不同，这些数据集是围绕点击率聚合在大型群体中的，而PAd1M将交互链接到JD.com数据中的特定用户。

对于度量标准，除了标准的BLEU和ROUGE外，研究人员开发了自己的自定义度量标准，称为“产品背景相似性”（PBS）。

测试

作者指出，他们的测试方法源自DeepSeek的Janus-Pro 7B。

模型在批量大小为4、AdamW优化器和学习率为5e-5的条件下进行训练。基模型通过LoRA进行微调，前景感知和多模态偏好提取完全微调（即，与LoRA不同，基模型的权重被永久改变）。

所有测试都在NVIDIA B200 GPU上运行，配备192GB的VRAM。对于图像生成，使用PickScore、ImageReward和ASE来衡量视觉质量，而m-BLEU和m-ROUGE用于评估广告文本。人类评估者还评估了图像的真实性和布局质量，以及文本的准确性和流畅性，所有指标都在500个产品上计算。

为了使生成的广告与被推广的产品保持一致，Uni-AdGen使用了基于DINO v2的前景感知模块，将透明产品图像中的信息注入自回归模型中。

指令调优（训练模型以遵循从描述和销售点中派生的产品特定生成指令）也用于提高对销售者提供的描述和销售点的遵守性，使用GPT-4o过滤不合适的训练示例。

个性化依赖于一个粗略到精细的偏好理解模块。历史交互首先通过产品相似性采样（PSS）管道进行过滤，以偏爱类似于目标项目的产品。剩余的记录然后由一个多模态偏好提取阶段处理，旨在识别最有可能反映用户兴趣的视觉和文本元素——这些偏好被插入提示中，以指导生成。