Anderson 视角
JPEG AI 模糊了真实和合成图像之间的界限

在今年二月,JPEG AI 国际标准 发布,经过数年的研究,旨在使用机器学习技术生产出更小、更容易传输和存储的图像编码,而不损失感知质量。

从 JPEG AI 官方发布流中比较 Peak Signal-to-Noise Ratio (PSNR) 和 JPEG AI 的 ML 增强方法。 来源:https://jpeg.org/jpegai/documentation.html
JPEG AI 可能没有引起太多关注的原因之一是,该公告的核心 PDF 文件(具有讽刺意味)没有通过免费访问门户(如 Arxiv)提供。尽管如此,Arxiv 已经发表了多项研究,研究了 JPEG AI 在多个方面的意义,包括其不寻常的 压缩伪影 和其 对法医的意义。

一项研究比较了压缩伪影,包括 JPEG AI 早期草案中的伪影,发现新的方法倾向于模糊文本——在可能为证据链做出贡献的案例中,这不是一个小问题。 来源:https://arxiv.org/pdf/2411.06810
因为 JPEG AI 以模仿合成图像生成器伪影的方式改变图像,所以现有的法医工具 难以区分 真实和虚假图像:

在 JPEG AI 压缩后,根据最近的一篇论文(2025 年 3 月),最先进的算法无法可靠地将真实内容与操纵区域在定位图中分开。来源左侧的示例是操纵/虚假图像,其中篡改区域在标准法医技术下清晰标记(中心图像)。但是,JPEG AI 压缩为虚假图像提供了一层可信度(最右侧的图像)。 来源:https://arxiv.org/pdf/2412.03261
一个原因是 JPEG AI 使用了与法医工具旨在检测的生成系统类似的模型架构:

新论文说明了 AI 驱动的图像压缩和实际 AI 生成图像的方法之间的相似性。 来源:https://arxiv.org/pdf/2504.03191
因此,两个模型可能会产生一些相似的潜在视觉特征,从法医角度来看。
量化
这种交叉发生是因为 量化,这两种架构都使用了量化,并且在机器学习中既用作 将连续数据转换为离散数据点的方法,也用作 优化技术,可以显著减小训练模型的文件大小(随意的图像合成爱好者将熟悉官方模型发布和社区领导的量化版本之间的等待时间,这个版本可以在本地硬件上运行)。
在这种情况下,量化是指将图像的 潜在表示 中的连续值转换为固定、离散的步骤。JPEG AI 使用此过程来 减少存储或传输图像所需的数据量,通过简化内部数字表示。
虽然量化使编码更加高效,但也会引入结构规则,这些规则可能类似于生成模型留下的伪影——这些伪影足够微妙以免被察觉,但会破坏法医工具。
作为回应,题为 《JPEG AI 图像的三个法医线索》 的新论文的作者提出了可解释的、非神经网络技术来检测 JPEG AI 压缩;确定图像是否被重压缩;并区分压缩的真实图像和完全由 AI 生成的图像。
方法
色彩相关性
该论文提出了三个针对 JPEG AI 图像的“法医线索”:色彩通道相关性,在 JPEG AI 的预处理步骤中引入;图像质量的可测量失真,在重复压缩中揭示重压缩事件;以及 潜在空间量化模式,有助于区分 JPEG AI 压缩图像和 AI 生成的图像。
关于基于色彩相关性的方法,JPEG AI 的预处理管道在图像的色彩通道之间引入了统计依赖性,创建了一个可以作为法医线索的签名。
JPEG AI 将 RGB 图像转换为 YUV 色彩空间,并执行 4:2:0 色度子采样,这涉及在压缩之前对 色度通道 进行下采样。这一过程导致高频残差之间的微妙相关性,红、绿、蓝通道之间的相关性在未压缩的图像中不存在,并且与传统 JPEG 压缩或合成图像生成器产生的相关性不同。

比较 JPEG AI 压缩如何改变图像中的色彩相关性,使用红通道作为示例。
上面我们可以看到论文中比较 JPEG AI 压缩如何改变图像中的色彩相关性,使用红通道作为示例。
面板 A 比较未压缩图像和 JPEG AI 压缩图像,显示压缩显著增加了通道间的相关性;面板 B 分离了 JPEG AI 的预处理效果——仅仅是色彩转换和子采样——表明即使这一步也会明显增加相关性;面板 C 显示传统 JPEG 压缩也会稍微增加相关性,但不如 JPEG AI 那样;面板 D 检查了合成图像,Midjourney-V5 和 Adobe Firefly 显示出中等程度的相关性增加,而其他图像的相关性增加较小。
速率失真
速率失真线索通过跟踪图像质量如何随着多次压缩而下降来识别 JPEG AI 重压缩,图像质量由 峰值信噪比 (PSNR) 测量。
研究表明,反复使用 JPEG AI 压缩图像会导致图像质量逐渐但可测量地损失,损失由 PSNR 计算,并且这种逐渐的退化形成了检测图像是否被重压缩的法医线索的基础。
与传统 JPEG 不同,传统 JPEG 跟踪图像块中的变化,JPEG AI 需要不同的方法,原因是其神经压缩架构;因此,作者提议监测比特率和 PSNR 如何在连续压缩中演变。每次压缩都会改变图像,但改变程度小于前一次压缩,这种减少的变化(当与比特率绘制时)可以揭示图像是否经过多次压缩:

不同编解码器的重复压缩如何影响图像质量的示例,包括 JPEG AI 和 https://arxiv.org/pdf/1802.01436 中开发的神经编解码器;两者在每次额外压缩时都会在所有比特率下显示 PSNR 的稳定下降。相比之下,传统 JPEG 压缩在多次压缩中保持相对稳定的质量,除非比特率很高。这种模式作为重压缩在 AI 编解码器中留下可测量痕迹的示例。
在上面的图像中,我们看到 JPEG AI 和第二个 AI 基础编解码器的速率失真曲线,发现 JPEG AI 和神经编解码器在所有比特率下都显示出一致的 PSNR 下降,而传统 JPEG 压缩仅在较高比特率下显示出明显的退化。这种行为提供了一个可量化的信号,可以用来标记重压缩的 JPEG AI 图像。
通过提取比特率和图像质量在多次压缩轮次中如何演变,作者同样构建了一个签名,有助于标记图像是否被重压缩,从而在 JPEG AI 的背景下提供一个潜在的实用法医线索。
量化
如前所述,JPEG AI 提出的一个更具挑战性的法医问题是其视觉上的相似性与合成图像生成器生成的图像相似。两种系统都使用编码器-解码器架构来处理压缩的潜在空间,并且经常留下微妙的上采样伪影。
这些共享特征 可以混淆检测器 —— 即使是那些在 JPEG AI 图像上重新训练的检测器。然而,一个关键的结构差异仍然存在:JPEG AI 应用量化,这是一个将潜在值四舍五入为离散级别以实现高效压缩的步骤,而生成模型通常不这样做。
新论文利用这一区别设计了一个法医线索,间接测试量化的存在。该方法分析图像的潜在表示如何响应四舍五入,假设如果图像已经被量化,其潜在结构将表现出一种可测量的模式与四舍五入值的对齐。
这些模式虽然对眼睛不可见,但会产生统计差异,有助于区分压缩的真实图像和完全由 AI 生成的图像。

平均傅里叶谱显示,JPEG AI 压缩图像和使用 Midjourney-V5 和 Stable Diffusion XL 等扩散模型生成的图像在频率域中都表现出规则的网格状模式——这些模式通常与上采样相关。相比之下,真实图像缺乏这些模式。这种光谱结构的重叠有助于解释为什么法医工具经常混淆压缩的真实图像和合成图像。
重要的是,作者们表明,这个线索在不同生成模型中都有效,即使压缩足够强大以使潜在空间的整个部分归零。在相反的情况下,合成图像对此轮廓测试的反应要弱得多,提供了一种区分两者的实用方法。
结果被设计为一个轻量级且可解释的工具,针对压缩和生成之间的核心差异,而不是依赖于脆弱的表面伪影。
数据和测试
压缩
为了评估他们的色彩相关线索是否可以可靠地检测 JPEG AI 压缩(即从未压缩源的第一次传递),作者在 RAISE 数据集 中的高质量未压缩图像上测试了它,以多个比特率使用 JPEG AI 参考实现进行压缩。
他们在色彩通道相关性的统计模式上训练了一个简单的 随机森林 (特别是每个通道中残余噪声如何与其他通道对齐),并将其与在图像像素上直接训练的 ResNet50 神经网络进行比较。

使用色彩相关特征检测 JPEG AI 压缩的准确率,在多个比特率下比较。该方法在较低比特率下最有效,在这些比特率下压缩伪影更强,并且在未见过的压缩级别上比基线 ResNet50 模型具有更好的泛化性。
虽然 ResNet50 在测试数据与其训练条件相符时实现了更高的准确率,但它难以 泛化 到不同的压缩级别。基于相关性的方法虽然简单,但在比特率方面更为一致,特别是在较低的压缩率下,JPEG AI 的预处理效果更强。
这些结果表明,即使没有深度学习,也可以使用统计线索来检测 JPEG AI 压缩,这些线索保持可解释性和稳健性。
重压缩
为了评估 JPEG AI 重压缩是否可以可靠地检测,研究人员测试了速率失真线索在一组以不同比特率压缩的图像集上——其中一些只压缩了一次,其他的使用 JPEG AI 再次压缩。
该方法涉及提取一个 17 维特征向量,以跟踪图像的比特率和 PSNR 如何在三个压缩传递中演变。该特征集捕获了每一步骤中损失了多少质量,以及潜在率和 超先验率 的行为——这些指标传统的基于像素的方法无法轻松访问。
研究人员在这些特征上训练了一个随机森林,并将其性能与在图像块上训练的 ResNet50 进行比较:

使用速率失真特征检测 JPEG AI 图像是否被重压缩的分类准确率。该方法在初始压缩强(即在较低比特率)时表现最佳,然后在大多数情况下始终优于基于像素的 ResNet50 —— 特别是在第二次压缩比第一次压缩更温和的情况下。
随机森林在初始压缩强(即在较低比特率)时证明是非常有效的,揭示了单压缩和双压缩图像之间的明显差异。与之前的线索一样,ResNet50 迭代在泛化方面存在困难,特别是在测试时遇到训练中未见过的压缩级别时。
速率失真特征通过构造一个签名,有助于标记图像是否被重压缩,从而在 JPEG AI 的背景下提供一个潜在的实用法医线索。
JPEG AI 和合成图像
对于最后一轮测试,作者测试了他们的量化特征是否可以区分 JPEG AI 压缩图像和完全由模型(如 Midjourney、Stable Diffusion、DALL-E 2、Glide 和 Adobe Firefly)生成的合成图像。
为此,研究人员使用了 Synthbuster 数据集的子集,将真实照片从 RAISE 数据库与来自各种扩散和 GAN 基础模型的生成图像混合。

Synthbuster 中的合成图像示例,使用受 RAISE-1k 数据集中自然照片启发的文本提示生成。图像使用各种扩散模型创建,提示旨在产生逼真内容和纹理,而不是风格化或艺术化渲染,反映了数据集专注于测试区分真实和生成图像的方法。 来源:https://ieeexplore.ieee.org/document/10334046
真实图像使用 JPEG AI 在多个比特率水平压缩,分类被提出为一个两类任务:要么是 JPEG AI 与特定生成器的比较,要么是特定比特率与 Stable Diffusion XL 的比较。
从固定 256×256 区域计算出的量化特征(从潜在表示中提取的相关性)被输入到随机森林分类器中。作为基线,ResNet50 在相同数据的图像块上进行了训练。

使用量化特征将 JPEG AI 压缩图像与合成图像区分开来的分类准确率。
在大多数条件下,基于量化的方法优于 ResNet50 基线,特别是在较低比特率下,压缩伪影更强。
作者指出:
‘基线 ResNet50 在 Glide 图像上表现最佳,准确率为 66.1%,但在其他情况下,其泛化性不如量化特征。量化特征在压缩强度和生成器类型方面表现出良好的泛化性。
‘被量化为零的系数的重要性体现在截断特征的性能中,在很多情况下,其性能与 ResNet50 分类器相当。
‘然而,使用未截断的完整整数向量的量化特征仍然表现出显著的改善。这些结果确认,量化后零的数量是区分 AI 压缩和 AI 生成图像的重要线索。
‘然而,它也表明其他因素也起作用。JPEG AI 的检测准确率在所有比特率下均超过 91.0%,更强的压缩会导致更高的准确率。’
使用 UMAP 投影特征空间显示了 JPEG AI 和合成图像之间的明显分离,较低的比特率会增加类之间的距离。一个一致的异常值是 Glide,其图像以不同的方式聚类,并且在所有测试的生成器中具有最低的检测准确率。

基于量化特征的 JPEG AI 压缩图像和合成图像的二维 UMAP 可视化。左图显示较低的 JPEG AI 比特率会创建更大的合成图像分离;右图显示不同生成器的图像在特征空间中以不同的方式聚类。
最后,作者评估了这些特征在典型后处理(如 JPEG 重压缩或下采样)下的表现。虽然性能会随着处理的加重而下降,但下降是渐进的,表明该方法即使在降级条件下也保持了一些稳健性。

量化特征在后处理(包括 JPEG 重压缩(JPG)和图像重采样(RS))下的评估。
结论
JPEG AI 不一定会被广泛采用。首先,有足够的基础设施债务来阻碍 任何 新的编解码器;即使是一个具有良好血统和广泛共识的“传统”编解码器,例如 AV1,也很难 取代 长期建立的现有方法。
关于系统与 AI 生成器的潜在冲突,当前一代 AI 图像检测器的特征量化伪影可能会被不同类型的痕迹所取代(假设 AI 生成器将始终留下法医痕迹,这并不是确定的)。
这将意味着 JPEG AI 的量化特征可能不会与最有效的新一代 AI 生成系统的法医痕迹发生冲突。
然而,如果 JPEG AI 继续作为事实上的“AI 洗钱”工具,显著模糊真实和生成图像之间的区别,那么为其采用辩护将会很困难。
首次发布于 2025 年 4 月 8 日












