Anderson 视角

AI 可能会秘密地根据设备品牌对图像进行排名，而不是内容

Published August 20, 2025

Updated May 18, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

新研究发现，流行的图像中心 AI 系统不仅仅查看照片中的内容，还会捕捉到照片的拍摄方式。像相机类型或图像质量这样的隐藏细节可以悄悄地影响 AI 对图像的解读，导致错误的结果 – 只因为照片来自不同的设备。

2012 年，一家旅行网站被揭露会向使用 Apple 设备浏览的用户显示更高的价格，认为 Apple 品牌代表着更高的购买力。后来的调查得出结论，这种设备关注的“钱包嗅探”已经成为电子商务网站的常见做法。

同样，拍摄特定照片的智能手机或相机类型可以通过法医手段推断出来，基于有限数量的镜头模型的已知特征。在这种情况下，相机模型通常通过视觉线索估计；与 2012 年的事件一样，知道什么类型的相机拍摄了图像是一个可能被利用的特征

尽管相机设备往往会将大量元数据嵌入图像，但此功能通常可以被用户关闭；即使启用了元数据，社交媒体网络等分发平台也可能会出于后勤或隐私原因而删除部分或全部元数据。

尽管如此，用户上传的图像中的元数据通常会被重新编写或解释（而不是删除），或者保持完整，作为关于图像如何拍摄的二级信息来源。正如 2012 年的案例所示，这种信息对商业平台、黑客和恶意行为者来说可能是有价值的 – 不仅仅是因为它可以被利用，还因为它可能会损害模型的可信度。

双重视角

日本和捷克共和国之间的新研究合作发现，相机硬件和图像处理（如 JPEG 质量或镜头锐化）留下的痕迹不仅可以被法医工具检测到，还被编码在领先的 AI 视觉模型的“全球理解”中。

这包括 CLIP 和其他大规模视觉编码器，它们被广泛应用于从搜索引擎到内容审核的各个领域。新的工作表明，这些模型不仅解释图像中的内容，还可以学习图像的拍摄方式；这种隐藏的信号有时会掩盖可见的内容。

作者创建的 PairCams 数据集示例图像对，用于测试相机类型对 AI 图像模型的影响。每对图像显示相同的对象或场景，使用非智能手机（左）和智能手机（右）在同一时刻拍摄。来源：https://arxiv.org/pdf/2508.10637

该研究断言，即使 AI 模型被给予重度遮罩或裁剪的图像版本，它们仍然可以以惊人的准确率猜测相机的品牌和型号。这意味着这些系统用于判断图像相似性的表示空间可能会与无关因素（如用户的设备）纠缠，导致不可预测的后果。

例如，在分类或图像检索等下游任务中，这种不良的“权重”可能会导致系统偏爱某些相机类型，而不论图像实际显示的内容是什么。

论文指出：

‘元数据标签在视觉编码器中留下的痕迹可能会掩盖语义信息，导致不可预测的结果，损害模型的普遍性、鲁棒性和可信度。 ‘

‘更严重的是，这种影响可能会被恶意利用；例如，敌对攻击可能会操纵元数据以故意误导或欺骗模型，在医疗保健、监视或自主系统等敏感领域构成风险。 ‘

论文发现，Contrastive Visual-Language（CVL）系统（如 CLIP）更容易从数据中获得此类推断：

查询图像的搜索结果，展示了基础模型如何根据不仅仅是视觉内容，还有隐藏的元数据（如 JPEG 压缩或相机型号）对图像进行排名。图表反映了作者的说法，即语义和元数据标签都塑造了模型的表示空间，偶尔改变了检索结果。

这篇题为 视觉编码器中的处理和获取痕迹：CLIP 对您的相机了解多少？ 的新论文来自大阪大学和布拉格捷克理工大学的六位研究人员。

方法和数据*

为了测试隐藏元数据对视觉编码器（如 CLIP）的影响，作者使用了两类元数据：图像处理参数（如 JPEG 压缩或锐化）和获取参数（如相机型号或曝光设置）。

研究人员评估了 47 个广泛使用的视觉编码器，包括对比视觉语言模型（如 CLIP）、自监督模型（如 DINO）和传统的监督网络。

对于处理参数，研究人员对 ImageNet 和 iNaturalist 2018 数据集应用了受控变换，包括六个级别的 JPEG 压缩、三个锐化设置、三个重采样比例和四种插值方法。

iNaturalist 数据集的示例图像和关联注释。来源：https://arxiv.org/pdf/1707.06642

模型被测试其从图像内容中恢复每个变换设置的能力，成功的预测表明编码器在其内部表示中保留了这些处理选择的信息。

为了检查获取参数，研究人员编制了一个包含 356,459 张图像的数据集，称为 FlickrExif，其中包含保留的 Exif 元数据，并构建了一个第二个数据集，称为 PairCams，由 730 对图像组成，这些图像是使用智能手机和非智能手机相机同时拍摄的。

FlickrExif 数据集是使用 Flickr API 下载带有 Exif 元数据的图像构建的。每月收集 2,000 到 4,000 张安全的图像，从 2000 年初到 2024 年中期，并过滤以仅包括具有许可的图像。为了防止过度代表活跃的用户，每个贡献者每月每年最多可以有十张图像。

对于 PairCams 数据集，每张照片都是使用自动设置和无闪光拍摄的，允许比较视觉编码器对相机硬件差异的反应，而不考虑图像内容：

作者策划的 PairCams 数据集的其他示例。

作者测试了两个参数集：图像处理参数（如压缩和颜色变换）和图像获取参数（如相机品牌或型号）：

分析的图像处理和获取参数，包括每个参数的类别数。

测试

为了确定图像处理和相机类型的信息是否保留在视觉编码器的嵌入中，作者训练了一个分类器来直接从这些嵌入中预测元数据标签。如果分类器的性能不比随机猜测好，那么这将表明这些技术细节没有被模型捕获。

然而，任何高于随机的性能都将表明这些技术痕迹确实被编码，并可能影响下游任务。

为了测试处理痕迹，作者为每个训练图像分配了一个随机的处理设置，例如特定的 JPEG 压缩级别，而所有测试图像在一个批次中共享相同的设置。

对所有设置的分类准确率均值与在不同随机种子下重复试验相结合，这样就可以确定技术细节是否在模型的内部表示中被一致地捕获：

使用线性分类器对冻结模型的嵌入预测图像处理参数的分类准确率。结果显示 JPEG 压缩、锐化、重采样和插值，三个模型类别，contrastive 视觉语言（橙色）、监督（绿色）和自监督（蓝色），在 ImageNet（上行）和 iNaturalist 2018（下行）上进行评估。随机猜测基线用虚线标记。

在所有四个处理参数中，contrastive 视觉语言模型表现出最高的识别隐藏图像操作的能力。一些模型在预测 ImageNet 嵌入中的 JPEG 压缩、锐化和重采样设置时的准确率超过 80%。

监督编码器，特别是基于 ConvNeXt 的编码器，也表现出色，而自监督模型则一致较弱。

插值是最难检测的参数，但顶级 CVL 和监督模型在两个数据集上仍然取得了远高于 25% 的随机基线的结果。

接下来，为了测试相机相关信息是否嵌入在模型表示中，作者为每个获取参数（如相机品牌、型号、曝光、光圈、ISO 和焦距）创建了单独的训练和测试集。

对于大多数参数，只有至少有 5,000 个示例的类别才被使用；500 张图像被随机设置为测试，剩余的示例被下采样，以便每个类别都有 200 个训练样本。对于“型号（所有）”和“型号（智能手机）”参数，这些参数的每个类别的图像少于 500 张，作者使用至少有 500 张图像的类别，并将每个类别分为训练和测试子集，按照四比一的比例。

摄影师在训练、验证和测试集中被分开，一个简单的分类器被训练来根据图像特征预测相机信息。

为了确保分类器不会受到图像的语义内容的影响，90% 的每个图像被中心遮罩（见下面的示例）。作者断言，在这种遮罩水平下，所有视觉编码器在 ImageNet 上的性能都接近随机，表明语义信号已经被有效地抑制：

ImageNet 验证准确率作为遮罩比的函数。在 90% 的遮罩下，所有模型都降低到接近随机的性能，表明语义线索已经被有效地去除。底部的示例图像说明了遮罩级别。

即使 90% 的每个图像被遮罩，大多数 contrastive 视觉语言模型和监督的 ConvNeXt 编码器仍然以远高于随机的水平预测相机相关标签。许多 CVL 模型在区分智能手机和非智能手机图像时的准确率超过 70%。

其他监督编码器、SigLIP 和所有自监督模型的性能则远远较差。当没有应用遮罩时，CVL 模型再次表现出最强的相机类型聚类，确认这些模型比其他模型更深地嵌入获取信息：

两个视觉编码器的 t-SNE 可视化，颜色表示每个图像是否使用智能手机或非智能手机相机拍摄。

下游意义

在确定了元数据影响模型的方式后，隐藏的处理痕迹干扰图像解释的倾向被评估。

当两个版本的相同图像以不同的方式处理时，嵌入通常会根据处理风格而不是内容组织。在几种情况下，一个经过大量压缩的狗的照片被视为与具有相同压缩设置的无关图像更相似，而不是与其未压缩版本更相似：

处理参数对语义预测的影响，展示了 ImageNet（上）和 iNaturalist（下）在五种处理设置下的语义分类准确率。在基线中，所有训练和测试图像共享相同的处理标签；在 all-diff 设置中，测试图像使用训练集中不存在的处理值；在 pos-same 和 neg-same 中，处理标签与语义相似或不相似的图像对齐；在 uniform 设置中，处理标签在训练集中随机分配。结果使用 k = 10 报告 ImageNet，k = 1 报告 iNaturalist。

最强的失真是由 JPEG 压缩引起的，其次是锐化和重采样，而插值只产生了微小的影响。作者断言，这些结果表明处理痕迹可以覆盖语义信息并支配图像的理解方式。

总之，他们警告说：

‘虽然我们已经确定元数据标签被编码在基础视觉编码器中，并提供了有关潜在原因的提示，但我们无法明确确定问题的根源。进一步调查这一点具有挑战性，因为重新训练这样的模型的成本很高，私有数据集和未公开的实现细节也很常见。 ‘

‘尽管我们没有提出具体的缓解技术，但我们强调这是一个重要的未来研究领域。 ‘