Anderson 视角
如何阻止 AI 在过去的时代中描绘 iPhone

AI 图像生成器如何描绘过去?新研究表明,他们将智能手机放入 18 世纪,插入 1930 年代的笔记本电脑,并将吸尘器放在 19 世纪的家中,引发了人们对这些模型如何想象历史以及它们是否能够实现历史准确性的质疑。
2024 年初,Google 的 Gemini 多模态 AI 模型因其图像生成能力而受到批评,因为它在不适当的背景下强加了 人口统计公平性,例如生成具有不太可能的出身的二战德国士兵:

不太可能的人口统计学德国军事人员,由 Google 的 Gemini 多模态模型在 2024 年构想。 来源:Gemini AI/Google 经 The Guardian
这是一个例子,表明在 AI 模型中减少偏见的努力没有考虑到历史背景。在这种情况下,该问题在不久后得到了解决。然而,基于扩散的 模型仍然容易生成混淆现代和历史方面以及文物的历史版本。
这是因为 纠缠,即训练数据中经常一起出现的特征在模型的输出中融合在一起。例如,如果现代物体(如智能手机)经常与说话或倾听的行为一起出现在数据集中,模型可能会将这些行为与现代设备联系起来,即使提示指定了历史背景。
新研究表明,AI 框架尽管能够创建非常逼真的图像,但仍然倾向于以历史方式描绘历史人物:

来自新论文的多样化表示,通过 LDM 的提示“一个非常逼真的图像,一个人在 [历史时期] 与朋友一起笑”,每个时期都有相应的输出。如我们所见,该时代的媒介已经与内容相关联。 来源:https://arxiv.org/pdf/2505.17064
对于提示 ‘一个非常逼真的图像,一个人在 [历史时期] 与朋友一起笑’,三个测试模型经常忽略负面提示 ‘单色’,而是使用反映指定时代视觉媒介的色彩处理,例如模仿 1950 年代和 1970 年代的单色胶片的柔和色调。
为了确定问题的范围,并为未来的研究提供一个解决方案,论文作者开发了一个定制的数据集来测试生成模型。该数据集包含 30,000 张图像,生成自 100 个提示,展示常见的人类活动,每个活动跨越 10 个不同的时间段:

HistVis 数据集的示例,该数据集由作者在 Hugging Face 上提供。 来源:https://huggingface.co/datasets/latentcanon/HistVis
活动,如 烹饪、祈祷 或 听音乐,是为了其普遍性而选择的,并以中立的格式表述,以避免将模型固定在特定的美学中。数据集的时间段从 17 世纪到现在,重点关注 20 世纪的五个个别十年。
30,000 张图像使用三个广泛使用的开源扩散模型生成:稳定扩散 XL;稳定扩散 3;和 FLUX.1。通过将时间段作为唯一的变量,研究人员创建了一个结构化的基础来评估这些系统如何编码或忽略历史提示。
脆弱的“真相”
一些论文中的主题涉及文化敏感问题,例如历史代表中的种族和性别的代表性不足。虽然 Gemini 在二战德国军队中强加种族平等是荒谬和令人侮辱的历史修正,但恢复“传统”的种族代表性(扩散模型已经“更新”)往往会有效地“重新白化”历史。
许多最近的热门历史剧,如 布里奇顿,以可能影响未来训练数据集的方式模糊了历史人口统计学的准确性。然而,这是一个复杂的话题,考虑到(西方)历史偏爱财富和白人,并且留下了很多“较低级别”的故事未被讲述。
方法和测试
为了测试生成模型如何解释历史背景,作者创建了 HistVis,一个包含 30,000 张图像的数据集,这些图像是从 100 个提示中生成的,展示了常见的人类活动,每个活动跨越 10 个不同的时间段:

HistVis 数据集的示例,该数据集由作者在 Hugging Face 上提供。 来源:https://huggingface.co/datasets/latentcanon/HistVis
活动,如 烹饪、祈祷 或 听音乐,是为了其普遍性而选择的,并以中立的格式表述,以避免将模型固定在特定的美学中。数据集的时间段从 17 世纪到现在,重点关注 20 世纪的五个个别十年。
30,000 张图像使用三个广泛使用的开源扩散模型生成:稳定扩散 XL;稳定扩散 3;和 FLUX.1。通过将时间段作为唯一的变量,研究人员创建了一个结构化的基础来评估这些系统如何编码或忽略历史提示。
视觉风格统治
作者最初研究了生成模型是否在描绘历史时期时默认为特定的 视觉风格;因为似乎即使提示中没有提到媒介或美学,模型也经常将特定的世纪与特定的风格联系起来:
![从提示“一个人在 [历史时期] 跟另一个人跳舞”生成的图像的预测视觉风格(左)和从修改后的提示“一个非常逼真的图像,一个人在 [历史时期] 跟另一个人跳舞”生成的图像的预测视觉风格,带有负面提示“单色图片”(右)。](https://www.unite.ai/wp-content/uploads/2025/05/histvis.jpg)
从提示“一个人在 [历史时期] 跟另一个人跳舞”生成的图像的预测视觉风格(左)和从修改后的提示“一个非常逼真的图像,一个人在 [历史时期] 跟另一个人跳舞”生成的图像的预测视觉风格,带有负面提示“单色图片”(右)。
为了衡量这种趋势,作者训练了一个 卷积神经网络(CNN)来将 HistVis 数据集中的每个图像分类为五个类别之一:绘画;雕刻;插图;绘图;或 摄影。这些类别旨在反映时间段内出现的常见模式,并支持结构化比较。
分类器基于 VGG16 模型,在 ImageNet 上预训练,并使用 1,500 个每类示例从 WikiArt 派生的数据集进行微调。由于 WikiArt 不区分单色和彩色摄影,因此使用了一个单独的 色彩丰富度评分 来将低饱和度图像标记为单色。
训练好的分类器然后应用于整个数据集,结果显示所有三个模型都对特定时期有着一致的风格偏好:

每个时期和模型的预测视觉风格,基于每个时期和模型的 1,000 个样本。
为了量化模型将历史时期与特定的 视觉风格 联系起来的强度,作者开发了一个称为 视觉风格统治(VSD)的指标。对于每个模型和时间段,VSD 被定义为输出中具有最常见风格的比例:

模型的风格偏见示例。
更高的分数表示单一风格在该时期的输出中占据主导地位,而更低的分数则表明更大的多样性。这种方法使得可以比较每个模型在时间上遵循特定风格惯例的程度。
应用于 HistVis 数据集,VSD 指标揭示了收敛程度的差异,有助于阐明每个模型如何狭隘地解释过去的视觉表现:

上面的结果表显示了每个模型在不同历史时期的 VSD 分数。在 17 世纪和 18 世纪,SDXL 模型倾向于产生具有高一致性的雕刻,而 SD3 和 FLUX.1 模型则偏爱绘画。在 20 世纪和 21 世纪,SD3 和 FLUX.1 模型转向摄影,而 SDXL 模型则表现出更多的多样性,但经常默认为插图。
所有三个模型在 20 世纪早期的十年中表现出对单色图像的强烈偏好,特别是在 1910 年代、1930 年代和 1950 年代。
为了测试这些模式是否可以通过 提示工程 来缓解,作者明确请求了非常逼真的图像,并使用负面提示来阻止单色输出。在某些情况下,统治分数降低,主导风格发生了变化,例如从单色转变为绘画,在 17 世纪和 18 世纪。
然而,这些干预措施很少产生真正的非常逼真的图像,表明模型的风格偏好根深蒂固。
历史一致性
下一项分析研究了 历史一致性:生成的图像是否包含不属于该时间段的物体。与其使用固定的禁止物品列表,不如使用大型语言模型(LLM)和视觉语言模型(VLM)来识别似乎不合时宜的元素,基于历史背景。
检测方法遵循与 HistVis 数据集相同的格式,其中每个提示都将历史时期与人类活动结合起来。对于每个提示,GPT-4o 生成了一个可能在指定时间段中不合时宜的物体列表;对于每个提议的物体,GPT-4o 制作了一个 是或否 问题,用于检查该物体是否出现在生成的图像中:
例如,给定提示 ‘一个人在 18 世纪听音乐’,GPT-4o 可能会确定 现代音频设备 为历史不准确,并产生问题 这个人是否使用了在 18 世纪不存在的耳机或智能手机?
这些问题被传回给 GPT-4o,以视觉问答设置,模型审查图像并为每个问题返回 是 或 否 的答案。这种管道使得可以在不依赖任何预定义的现代物体分类的情况下检测历史上不合理的内容:

生成图像中带有不合时宜元素的示例,通过两阶段检测方法标记。
为了衡量不合时宜元素在生成图像中出现的频率,作者引入了一种简单的方法来评分频率和严重程度。首先,他们考虑了 GPT-4o 描述同一物体的微小词汇差异。
例如,现代音频设备和数字音频设备被视为等效。为了避免重复计数,使用了 模糊匹配系统 来对这些表面层次的变体进行分组,而不会影响真正不同的概念。
一旦所有提出的不合时宜元素都被归一化,计算了两个指标:频率 测量了给定物体在特定时间段和模型中出现的频率;严重性 测量了该物体一旦被模型建议就出现的可靠性。
如果一个现代手机被标记十次,并出现在十个生成的图像中,它会获得 1.0 的严重性分数。如果它只出现在五个图像中,严重性分数将为 0.5。这些分数有助于确定不仅是否发生了不合时宜的情况,还有这些不合时宜的情况在模型的输出中有多大程度上根深蒂固:

每个模型的前十五个不合时宜元素,按频率在 x 轴和严重性在 y 轴绘制。圆圈标记按频率排名前十五的元素,三角形标记按严重性排名前十五的元素,菱形标记按两者排名前十五的元素。
上图显示了每个模型的前十五个不合时宜元素,按其出现频率和一致性排名。
服装出现频率较高,但分散;而像音频设备和熨烫设备这样的物品出现频率较低,但一致性较高——这些模式表明模型经常对提示中的活动做出反应,而不是时间段。
SD3 模型表现出最高的不合时宜率,特别是在 19 世纪和 1930 年代的图像中,其次是 FLUX.1 和 SDXL。
为了测试检测方法与人类判断的匹配程度,作者进行了一项用户研究,使用 1,800 个来自 SD3(不合时宜率最高的模型)的随机采样图像,每个图像由三个众包工人评估。经过可靠性筛选,234 名用户的 2,040 个判断被纳入,方法与大多数投票中达成一致的判断在 72% 的情况下一致:

人工评估研究的 GUI,显示任务说明、准确和不合时宜图像的示例,以及用于识别生成输出中的时间不一致性的是或否问题。
人口统计学
最后的分析检查了模型如何在时间上描绘种族和性别。使用 HistVis 数据集,作者将模型输出与语言模型生成的基准估计进行比较。这些估计并不精确,但提供了历史合理性的粗略概念,有助于揭示模型是否根据预期时期调整描绘。
为了在大规模上评估这些描绘,作者建立了一个管道来比较模型生成的人口统计学数据与每个时间段和活动的粗略期望。他们首先使用 FairFace 分类器,一种基于 ResNet34 的工具,训练了超过十万张图像,来检测生成输出中的性别和种族,使得可以衡量每个场景中面部被归类为男性或女性的频率,并可以跟踪种族类别在各个时期的变化:

不同模型、时间段和活动中生成的图像中人口统计学过度代表的示例。
低置信度结果被过滤掉以减少噪音,预测被平均到所有与特定时间和活动相关的图像。为了检查 FairFace 阅读的可靠性,使用 DeepFace 对 5,000 张图像的样本进行了第二次系统。两个分类器显示了强烈的协议,支持用于研究的 демограф学读数的一致性。
为了比较模型输出与历史合理性,作者要求 GPT-4o 为每个活动和时间段估计预期的性别和种族分布。这些估计作为粗略的基准,而不是真实值。使用了两个指标:欠代表 和 过代表,来衡量模型输出与 LLM 期望的偏差程度。
结果显示出明显的模式:FLUX.1 经常过度代表男性,即使在烹饪等场景中,女性被期望;SD3 和 SDXL 在工作、教育和宗教等类别中表现出类似的趋势;白人面孔总体上比预期更常出现,尽管这种偏见在最近的时期有所减少;一些类别显示出非白人代表性的意外激增,表明模型行为可能反映数据集关联而不是历史背景:

FLUX.1 输出在各个世纪和活动中按性别和种族过度代表和欠代表的绝对差异,相对于 GPT-4o 的人口统计学估计。
作者得出结论:
‘我们的分析表明,[文本到图像/TTI] 模型依赖于有限的风格编码,而不是对历史时期的细致理解。每个时代都与特定的视觉风格紧密相关,导致对历史的单一描绘。 ‘
‘值得注意的是,非常逼真的人物图像仅出现在 20 世纪以后,只有 FLUX.1 和 SD3 中的罕见例外,表明模型强化了学习到的关联,而不是灵活地适应历史背景,延续了现实主义是现代特征的观念。 ‘
‘此外,频繁出现的不合时宜现象表明,历史时期在这些模型的潜在空间中没有被清晰地分离,因为现代文物经常出现在前现代环境中,破坏了 TTI 系统在教育和文化遗产背景下的可靠性。’
结论
在训练扩散模型时,新概念不会整齐地进入潜在空间中的预定义插槽。相反,它们形成了由其出现频率和与相关想法的典型上下文塑造的集群。结果是一个松散组织的结构,概念以其频率和典型上下文的关系存在,而不是通过任何清晰或经验上的分离。
这使得在大型通用数据集中确定什么是“历史”的变得困难。正如新论文的发现所示,许多时间段更多地是通过描绘它们的媒介的“外观”来代表的,而不是通过任何更深层次的历史细节。
这是生成 2025 年级别的非常逼真的 19 世纪角色图像如此困难的原因之一;在大多数情况下,模型将依赖于来自电影和电视的视觉套路。当这些套路无法匹配请求时,数据中几乎没有其他内容可以弥补。弥合这一差距可能取决于未来在解开重叠概念方面的改进。
首次发布于 2025 年 5 月 26 日,星期一












