Anderson 视角

AI生成的广告图像针对您的人口统计 – 以及，最终，您？

发布于 2026年2月5日

更新于 2026年5月16日

作者

Martin Anderson

Montage of AI-generated images depicting frames from an online video aimed at three different age groups. Z-Image Turbo via Krita Diffusion AI.

广告商旨在将广告量身定制为个别观众，以驱动点击，而目前针对每个人的定制创意是不切实际的，但新的研究表明，AI生成的图像可能很快就会针对特定的人口统计有效地进行目标定位。

史蒂文·斯皮尔伯格2002年的科幻动作电影《少数派报告》中出现的个性化广告特征留下了一个持久的、甚至令人毛骨悚然的印象，其生动的描绘了主动的广告牌，它们可以在人群中识别人们，并直接对他们喊出促销信息。

许多消费者群体可能将这种程度的观众识别视为噩梦，尽管由于剑桥分析公司丑闻的余波，朝着这一目标的进展放缓，但直接、高度针对性的参与仍然是广告业的首要目标。

事实上，能够深入到特定观众的特征的系统仍然在不断开发中 – 虽然在这种情况下，企业研究必须采取措施尊重法律，这些法律围绕着个人可识别信息（PII）；这些法律在过去十年中已在欧洲得到加强，并通过布鲁塞尔效应在其他地方传播。

嘿，你！

现在，AI生成的广告和营销内容正在兴起，广告商必须面对针对特定个人的AI广告的潜在成本，在那里图像和文本是机会主义地和即时生成的。

例如，即使可以快速生成定制图像，但大规模的成本将是巨大的。此外，自动的在线广告拍卖过程以毫秒级的时间框架运行，使得面向用户的自定义图像内容具有挑战性，目前视频内容更是遥不可及。

然而，在基于网络的受众中（通过笔记本电脑、手机、智能电视等）解决更高级别的人口统计群体的技术障碍并不是那么严重 – 而一个新的国际学术/工业合作提出了一个创建针对不同人口统计的单独广告图像的方法，包括诸如年龄和位置等因素：

<img class=" wp-image-251426" src="https://www.unite.ai/wp-content/uploads/2026/02/figure-4.jpg" alt="来自新工作的示例：针对不同观众群体的个性化广告生成，其中单个产品以不同风格呈现给不同观众群体。顶行显示原始产品图像。接下来的三行显示了针对每个产品的三个不同观众类型的版本，基于年龄、生活方式或审美偏好等特征的差异。这些群体类型不是预定义的，而是自动发现的。每行对应一个群体；每列显示一个不同的产品。来源 – https://arxiv.org/pdf/2602.02033” width=”1053″ height=”553″ /> 来自新工作的示例：针对不同观众群体的个性化广告生成，其中单个产品以不同风格呈现给不同观众群体。顶行显示原始产品图像。接下来的三行显示了针对每个产品的三个不同观众类型的版本，基于年龄、生活方式或审美偏好等特征的差异。这些群体类型不是预定义的，而是自动发现的。

新的框架 – 名为一个尺寸，多种适用性(OSMF) – 旨在通过使用产品感知聚类将广告图像与不同人口统计的点击偏好对齐，来弥合广泛的目标广告和不切实际的个性化广告之间的差距，生成针对自动发现的受众群体的不同广告图像。

作者表示：

‘我们提出了一种统一的框架，用于在大规模广告图像生成中对齐多样化的群体点击偏好。 ‘

‘OSMF首先使用产品感知自适应分组，动态地根据用户的属性和产品特征组织用户，使用丰富的集体偏好特征来表示每个组。’

测试表明，该框架比其他框架取得了最先进的结果。

虽然该工作确定了多样化的群体，但该论文并没有具体说明哪些人口统计特征由每个G分组表示，尽管这些分组可能映射到传统的市场细分群体。

因此，根据提供的各种示例，很难确定为什么某些背景或灯光会对某个群体更有吸引力，而不是另一个群体，因为我们不知道任何群体的特征：

没有一致的’蓝色适合男孩，粉色适合女孩’等风格，在群体特定图像风格中，可以揭示哪种人属于哪个群体 – 来自现有文献的定义远比这更复杂、更微妙。

对于那些担心广告定位实践的人来说，更令人担忧的是，在广告中生成特定图像的可能性，利用每个用户的洞察力**。

新论文的标题为一个尺寸，多种适用性：在大规模广告图像生成中对齐多样化的群体点击偏好，来自17位研究人员，来自北京的国家模式识别实验室；’UCAS’的AI学校；中国电子商务公司京东；香港科技大学（广州）；以及南京理工大学的模式识别实验室。

方法

该系统使用自适应聚类(一种通过将用户特征与他们对不同产品的响应联系起来来找到自然分组的方法)来对用户进行分组，基于他们的特征如何塑造产品偏好。作者对这种方法的实现称为产品感知自适应分组(PAAG)。

这些分组并不是预先固定的，而是从数据中的模式中发现的。

一个名为偏好条件图像生成(PCIG)的条件图像生成器，然后使用每个组的配置文件来创建与该组的口味相匹配的广告图像：

OSMF根据用户的特征如何塑造产品偏好对用户进行分组，然后使用这些组配置文件来生成与每个组的口味相匹配的广告图像。PAAG处理分组，PCIG使用每个组的提示和反馈来生成图像。

图像生成器利用了稳定扩散的一个未指定版本，以及一个合适的ControlNet套件(后者有助于在各种群体生成中保持一致性)。

在工作流程中，PAAG首先使用一组专用编码器和一个交叉注意力机制来编码用户特征和产品的文本和图像方面之间的关系，将它们合并为一个统一的偏好嵌入，该嵌入反映了用户点击特定广告的可能性。

PAAG然后对不同用户属性组合如何与产品标题和产品图像相互作用进行建模。使用CLIP和ResNet基于编码器提取文本和图像特征，并将用户特征（如性别、位置、年龄或设备）传递给一个MLP，使得在产品文本和图像特征上可以进行交叉注意力。

得到的嵌入表示每个用户在特定产品的特定视觉环境中的点击可能性。一旦获得这些用户-产品偏好嵌入，PAAG就使用K-means聚类根据对特定产品的响应将用户分组在一起。

PAAG通过检查聚类如何分离来选择每个产品的最佳用户组数。与其使用每个组的一个平均点，不如在不同距离处采样多个点，以捕获更广泛的偏好。

这些组配置文件然后被传递给群体感知多模态大型语言模型(G-MLLM)，它使用这些配置文件来生成针对每个组的广告图像。

基于用户偏好的图像生成

在用户端，G-MLLM学习预测哪些组成员可能会点击下一个，并且如何用自然语言描述共同的特征。在产品端，它学习总结产品图像中的产品，并生成与产品和组都匹配的广告风格标题。

为了反映真实的用户行为，该模型扩展为一个群体感知奖励模型(GRM)。GRM在研究人员自己的群体广告图像偏好数据集（GAIP）上进行训练（见下文），用于比较同一产品的图像对，并确定哪一个在特定组中更有效，使用真实的点击率数据。

该奖励信号然后用于微调G-MLLM，使用Group-DPO，一种方法，教导它偏爱导致更好群体级别参与的提示。

数据和测试

开发GAIP

注意到缺乏与群体偏好相关的数据集，并且以前的集合，如个性化汤和CG4CTR，要么规模太小，要么过于模糊，研究人员开发了自己的集合，前面提到的GAIP，来自一个未指定的电子商务平台的“工业广告日志”。

日志是在三周内收集的，每个条目记录了产品图像和标题、观众的配置文件（包括年龄、支出水平和对促销的敏感度），以及广告是否被点击。

该数据集包括超过4000万用户、200万产品和近1000万广告图像，具有高视觉多样性。

用户被PAAG分组为每个产品的不同集群，并计算每个组内每个图像的点击率：

来自新论文的补充材料，GAIT的一些定义标准的简要预览。

然后通过将每个图像与其点击率和看到它的组的嵌入配对，形成GAIP数据集，得到一个元组集（广告图像，产品标题，组嵌入，组特定点击率）。

为了确保可靠性，只保留具有足够曝光的产品，结果得到一个包含610,172个组级样本的数据集。

GAIP的规模远远大于以前的数据集；虽然大多数以前的基准涉及不到十个用户组，但GAIP包含近60万个真实的群体偏好记录，为群体级别偏好提供了更深入的见解。

测试

为了训练PCIG流水线，研究人员使用ResNet和CLIP文本编码器提取图像和文本特征，然后通过可学习的线性层将它们映射到128维嵌入。为了保持效率，PAAG被限制为每个产品五个用户组。

组嵌入是使用基于百分位的采样策略构建的，通过15、55和95个百分位抽取多个点，以捕获核心和外围偏好。

LLaVA被用作G-MLLM的骨干，预训练是在十个epoch内进行的，使用余弦学习计划，学习率为2e-6，需要五天的训练时间，在一组八个NVIDIA H100 GPU上，每个GPU具有80GB的VRAM。

GRM通过重建GAIP，配对产品图像，然后使用与G-MLLM相同的权重进行初始化。在最终的Group-DPO阶段，GRM被冻结，G-MLLM使用LoRA在三个epoch内进行微调 – 同样，在相同的NVIDIA集群上，学习率为2e-5。

用于第一轮评估的指标是NDCG@5和AUROC。NDCG@5衡量每个组如何对同一组广告图像进行排名，较低的值表示偏好更明显；AUROC用于评估每个模型如何区分点击和未点击内容。

所有指标都是在1000个产品的聚类结果上计算的，总共约100,000个样本，并用于将PAAG与三个先前的系统进行比较：CACS；WIYD；和JAC：

与先前方法的偏好建模结果比较。较低的NDCG@5和较高的AUROC表示更好的性能。最佳分数以粗体显示，次佳分数以下划线显示。

关于这些结果，作者评论说：

‘我们的方法在两个指标上都取得了最先进的性能。具体来说，PAAG实现了最低的NDCG@5（0.3066），超过了最佳基线（CACS），表明有效的群体广告生成具有更明显的群间偏好模式。 ‘

‘此外，PAAG实现了最高的AUROC（0.6372），比最强基线（WIYD）提高了0.0159。’

第二轮测试检查系统是否可以更好地将广告与正确的用户组匹配：

在线CTR比较，显示群体个性化生成（’我们的’）优于所有基线，包括CAIG和预训练的G-MLLM。

在这里，PCIG在点击率方面比旧模型如CAIG和G-MLLM表现更好，提高了5.5％。GRM也被离线测试，通过检查它是否可以根据群体偏好正确选择一对广告中更好的一个。它比所有基线，包括通用模型，提高了4.7％，优于CAIG。

最后进行了一项定性测试，以评估PCIG是否可以在其生成的图像风格中反映群体级别的偏好。如图所示，相同的产品以不同的方式呈现给每个组，背景、色调和视觉构图都有变化：

定性测试的完整结果，之前在文章中预览过。

这些变化，作者声称，与每个组的推断点击偏好一致，表明PCIG可以生成风格上不同的输出，同时保持相关性和吸引力。作者表示：

‘[PCIG]确保风格上不同的图像以适应不同用户组的点击偏好，从而展示其适应异构用户需求和捕捉不同用户组之间细微、细致的偏好差异的强大能力，突出了其在大规模群体广告图像生成中的潜力。 ‘

结论

也许这个项目最有趣的方面是针对同一产品的群体目标图像输出风格之间的未知关联（在论文的补充材料中有几个页面的示例，我们无法在这里重现）。

我们可以假设城市背景与年龄有关，例如，针对刚刚毕业的大学生，而乡村环境则针对更富裕的X一代人，他们将开放道路视为“最终的自由”？你可以整天对这些测试输出进行罗夏测试。

此类系统的潜力取决于两个因素：洞察力和延迟。洞察力取决于是否可以从用户中提取足够的有意义的信息来支持基于群体的有效广告，而同时为未来更精确、个性化的广告奠定基础。

延迟带来了更大的挑战，因为这些自定义广告图像必须几乎瞬间生成和交付；虽然一些最近的文本到图像模型可以在几秒钟内产生结果，但即使这种延迟也可能对于实时广告拍卖来说太长了。

一种可能的解决方案是使用浏览器的GPU在本地生成图像，避免网络往返；或者预先创建一批图像，并在客户端预缓存。

** 这一方面在新论文中被省略，就像新AI框架的潜在深度伪造滥用经常被新研究中使用可爱的动物图像（而不是AI色情内容）所淡化。然而，所展示的图像代表广告商表现最好的情况，而不是展示个人视觉广告最终可能变得多么个人化，因为消费者定位方法与快速响应的生成AI相结合。

** 我无法识别这个命名机构，因为’UCAS’通常解析为一个众所周知的英国大学申请清理中心。我欢迎澄清。

^† 研究人员承诺在相关GitHub仓库上发布它。

首次发布于2026年2月5日，星期四

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

AI生成的广告图像针对您的人口统计 – 以及，最终，您？

嘿，你！

方法

基于用户偏好的图像生成

数据和测试

开发GAIP

测试

结论

发现更多