安德森的角度

人工智能可能会根据设备品牌而非内容对图像进行秘密排序

发布时间 2025 年 8 月 20 日

马丁安德森

在模糊的背景中，一个机器人更喜欢 Mac，而不是其他废弃的笔记本电脑。Flux 1D 和 Firefly，通过 Krita 制作。

最新研究发现，流行的以图像为中心的人工智能系统不仅能识别照片内容，还能了解照片的拍摄方式。相机类型或图像质量等隐藏细节可能会悄无声息地影响人工智能的感知，导致错误的结果——仅仅因为照片来自不同的设备。

2012 年是发现一家旅游网站经常向使用苹果设备浏览的用户显示更高的价格，从而推断出苹果品牌意味着更高的消费能力。后来的调查总结这种以设备为中心的“钱包嗅探”几乎已经成为电子商务网站的常规行为。

类似地，可以确定哪部智能手机或拍摄设备拍摄了特定照片通过法医手段推断，基于已知特征模型中镜头数量有限。在这种情况下，捕捉设备的模型通常通过以下方式估计视觉痕迹；而且，与 2012 年的事件一样，知道拍摄图像的相机类型是一个潜在的可利用特征

尽管捕获设备倾向于将重要的元数据嵌入到图像中，但该功能通常可以被用户关闭；即使该功能处于打开状态，社交媒体网络等分发平台也可能会删除部分或全部元数据，无论是出于后勤或隐私目的，还是两者兼而有之。

尽管如此，用户上传图片中的元数据经常被重写/解读（而非删除），或者被保留，成为第二信息来源，并非关于图片内容，而是关于图片拍摄方式。正如2012年的案例所揭示的那样，这类信息可能很有价值——不仅对商业平台如此，而且对黑客和不法分子也同样如此。

双重视角

日本和捷克共和国的一项新研究合作发现，相机硬件和图像处理留下的痕迹（例如 JPEG 质量或镜头锐化）不仅可以被法医工具检测到，而且还被悄悄编码在 “全球理解” 领先的 AI 视觉模型。

这包括 CLIP 以及其他大规模视觉编码器，它们广泛应用于从搜索引擎到内容审核的各个领域。这项新研究表明，这些模型不仅仅是解释什么是 in 一张照片，还可以了解照片是如何 made；而且这种隐藏的信号有时会压倒可见的内容。

来自作者 PairCams 数据集的示例图像对，该数据集旨在测试相机类型如何影响 AI 图像模型。每对图像分别展示了使用非智能手机（左）和智能手机（右）在同一时刻拍摄的同一物体或场景。来源：https://arxiv.org/pdf/2508.10637

该研究断言，即使人工智能模型被赋予大量蒙版或裁剪的图像，它们仍然能够以惊人的准确度猜出相机的品牌和型号。这意味着这些系统用来判断图像相似性的表征空间可能会与用户设备等无关因素纠缠在一起，从而造成难以预测的后果。

例如，在分类或图像检索等下游任务中，这种不良的“加权”可能会导致系统偏向某些相机类型，而不管图像实际显示的内容。

该文件指出：

“元数据标签在视觉编码器中留下的痕迹会掩盖语义信息，从而导致不可预测的结果，损害通用性、稳健性，并可能破坏模型的可信度。

“更重要的是，这种影响可能会被恶意利用；例如，对抗性攻击可能会操纵元数据来故意误导或欺骗模型，从而对医疗保健、监控或自主系统等敏感领域构成风险。”

论文发现，对比视觉语言 (CVL) 系统（例如 CLIP，目前是计算机视觉领域最具影响力的编码器之一）特别容易从数据中获得这样的推论：

查询图像的搜索结果，展示了基础模型如何不仅根据视觉内容，还根据隐藏元数据（例如 JPEG 压缩或相机型号）对相似图像进行排序。该图体现了作者的观点，即语义和元数据标签都会塑造模型的表征空间，有时会改变检索结果。

查询图像的搜索结果显示基础模型如何不仅根据视觉内容而且根据隐藏元数据（例如 JPEG 压缩或相机型号）对相似图像进行排名。

此新文标题为 视觉编码器中的处理和获取轨迹：CLIP 对您的相机了解多少？，来自大阪大学和布拉格捷克技术大学的六名研究人员。

方法和数据*

为了测试隐藏元数据对 CLIP 等视觉编码器的影响，作者使用了两类元数据：图像处理参数（例如 JPEG 压缩或锐化）和采集参数（例如相机型号或曝光设置）。

研究人员并没有训练新的模型，而是评估了 47 个广泛使用的视觉编码器冻结，预训练状态，包括对比视觉语言模型，例如 CLIP，自我监督模型如 DINO以及传统监督网络。

对于处理参数，研究人员应用受控变换以及影像网以及 iNaturalist 2018 年数据集，包括六种 JPEG 压缩级别、三种锐化设置、三种调整大小比例和四种插值方法。

iNaturalist 数据集中的图像及相关注释示例。来源：https://arxiv.org/pdf/1707.06642

对模型仅使用图像内容恢复每个转换设置的能力进行了测试，成功的预测表明编码器在其内部表示中保留了有关这些处理选择的信息。

为了检查采集参数，研究人员编制了一个包含 356,459 张图像的数据集，称为 FlickrExif，包含保存 Exif 元数据，并构建了第二个数据集，称为 PairCams，由使用智能手机和非智能手机相机同时拍摄的 730 对图像组成。

FlickrExif 数据集使用 Flickr API 下载附带 Exif 元数据的图片构建而成。数据集每月收集 2,000 至 4,000 张“工作安全”图片，时间跨度从 2000 年初到 2024 年中，并经过筛选，仅包含持有宽松许可证的图片。为了防止高产用户过度贡献，每位贡献者在特定年份每月上传的图片数量被限制为 XNUMX 张图片。

对于 PairCams 数据集，每张照片都是使用自动设置且不使用闪光灯拍摄的，这样就可以比较视觉编码器对相机硬件差异的响应方式，而不管图像内容如何：

作者精选的 PairCams 数据集中的更多示例。

作者测试了两组参数：图像处理参数，例如压缩和颜色变换；以及图像采集参数，例如相机品牌或型号：

分析图像处理和采集参数，以及每个参数的类别数。

检测

为了确定视觉编码器嵌入中是否保留了图像处理和相机类型的信息，作者训练了一个分类器，使其能够直接从这些嵌入中预测元数据标签。如果分类器的表现不比随机猜测更好，则表明该模型未能捕捉到有关处理或设备的细节。

然而，任何高于偶然性的表现都表明这些技术痕迹确实被编码了，并且可能影响下游任务。

为了测试处理痕迹，作者为每个训练图像分配了一个随机处理设置，例如特定的 JPEG 压缩级别，而一批中的所有测试图像都共享相同的设置。

然后将所有设置的平均分类准确率与不同设置下的重复试验相结合随机种子，以便确定图像处理的技术细节是否在模型的内部表示中得到一致捕获：

使用线性分类器应用于冻结模型，预测编码器嵌入图像处理参数的分类准确率。结果显示了 JPEG 压缩、锐化、调整大小和插值的结果，并分为三个模型类别：对比视觉语言（橙色）、监督学习（绿色）和自监督学习（蓝色），分别在 ImageNet（上行）和 iNaturalist 2018（下行）上进行评估。随机猜测基线用虚线标记。

在所有四个处理参数中，对比视觉语言模型表现出最高的识别隐藏图像操作的能力。一些模型在预测 ImageNet 嵌入的 JPEG 压缩、锐化和调整大小设置时，准确率超过了 80%。

监督编码器，特别是基于卷积神经网络，也表现强劲，而自监督模型则一直较弱。

插值是最难检测的参数，但顶级 CVL 和监督模型在两个数据集上仍然取得了远高于 25% 随机基线的结果。

接下来，为了测试相机相关信息是否嵌入模型表示中，作者为每个采集参数（例如相机品牌、相机型号、曝光、光圈、ISO 和焦距）创建了单独的训练集和测试集。

对于大多数参数，仅使用至少有 5,000 个示例的类；随机选取 500 张图像搁置用于测试，其余样本则进行下采样，使每个类别都有 200 个训练样本。对于“模型（全部）”和“模型（智能）”参数，由于每个类别的数据较少，作者改为使用至少包含 500 幅图像的类别，并将每个类别拆分为培养以及测试子集的比例为四比一。

摄影师在训练、验证和测试集中被分开，并且训练了一个简单的分类器来根据图像特征预测相机信息。

为了确保分类器不受图像语义内容的影响，每幅图像的 90% 区域均进行了中心掩蔽（见下文示例）。作者断言，在这种掩蔽程度下，所有视觉编码器在 ImageNet 上的表现都接近随机，这表明语义信号得到了有效抑制：

ImageNet 验证准确率与掩蔽率的关系。在 90% 掩蔽率下，所有模型在语义标签预测上的性能都下降到接近随机的水平，这表明语义线索已被有效去除。底部的示例图像展示了掩蔽率的水平。

即使每幅图像的 90% 被遮罩，大多数对比视觉语言模型和监督式 ConvNeXt 编码器仍然能够以远高于随机水平的准确率预测与相机相关的标签。许多 CVL 模型在区分智能手机和非智能手机图像方面的准确率超过 70%。

其他监督编码器，西格利普，所有自监督模型的表现都差得多。当未应用掩蔽时，CVL 模型再次显示出按相机类型划分的最强聚类，证实了这些模型比其他模型更深地嵌入了采集信息：

两个视觉编码器的 t-SNE 可视化，颜色表示每个图像是由智能手机还是非智能手机相机拍摄的。

下游意义

确定元数据以这种方式影响模型后，接下来评估隐藏处理痕迹干扰图像解释的倾向。

当对同一图像的两个版本进行不同处理时，嵌入通常按照 处理方式 而不是内容。在一些情况下，一张经过高度压缩的狗的照片被处理后，与另一张具有相同压缩设置的无关图像的相似度要高于其未压缩版本：

处理参数对语义预测的影响，展示了五种处理设置下 ImageNet（上）和 iNaturalist（下）的语义分类准确率。在基准测试中，所有训练和测试图像共享相同的处理标签；在全差异设置中，测试图像使用训练集中不存在的处理值；在正态分布 (pos-same) 和负态分布 (neg-same) 中，处理标签与语义相似或不相似的图像对齐；在均匀设置中，处理标签在训练集中随机分配。结果报告显示，ImageNet 使用 k = 10，iNaturalist 使用 k = 1。

最严重的失真是由 JPEG 压缩造成的，其次是锐化和调整大小，而插值仅产生了较小的影响。作者断言，这些结果表明，处理痕迹可以覆盖语义信息，并决定图像的理解方式。

最后，他们警告说：

虽然我们已经确定元数据标签编码在基础视觉编码器中，并提供了有关潜在原因的提示，但我们无法确切地查明问题的根源。由于重新训练此类模型的成本高昂，以及频繁使用私有数据集和未公开的实现细节，进一步调查这一问题颇具挑战性。

“虽然我们没有提出具体的缓解技术，但我们强调这个问题是未来研究的重要领域。”