人工智能

解决计算机视觉数据集中的JPEG伪影问题

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

马里兰大学和Facebook AI的一项新研究发现，深度学习系统使用高度压缩的JPEG图像会对其性能产生“显著的惩罚”，并提出了一些新方法来减轻这种影响。

该报告，题为《分析和减轻深度学习中的JPEG压缩缺陷》，声称比以前关于训练计算机视觉数据集中伪影影响的研究更“全面”。该论文发现，“[重度]至中度JPEG压缩会对标准指标产生显著的性能惩罚”，并且神经网络可能不像以前的工作所示那样对此类扰动具有鲁棒性。

2018年MobileNetV2数据集中的狗照片。在质量10（左）时，分类系统无法识别正确的品种’彭布罗克威尔士柯基犬’，而是猜测’诺维奇梗犬’（系统已经知道这是狗的照片，但不知道品种）；从左数第二，使用JPEG伪影纠正的图像仍然无法识别正确的品种；从右数第二，目标伪影纠正恢复了正确的分类；右侧为原始照片，正确分类。来源：https://arxiv.org/pdf/2011.08932.pdf

压缩伪影作为‘数据’

极端的JPEG压缩可能会在JPEG图像的8×8块边界周围创建可见或半可见的边界。一旦这些块或“环”伪影出现，机器学习系统可能会将其误解为图像主题的真实世界元素，除非采取某些补偿措施。

上图，计算机视觉机器学习系统从高质量图片中提取’干净’的梯度图像。下图，低质量图片中的’块’伪影模糊了主题的特征，并可能最终’感染’图像集中的特征，特别是在图像集中同时包含高质量和低质量图像的情况下，例如仅应用通用数据清理的网页抓取集合。来源：http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

如上图所示，这种伪影会影响图像分类任务，并对文本识别算法产生影响，后者可能无法正确识别受伪影影响的字符。

在图像合成训练系统（例如深度伪造软件或基于GAN的图像生成系统）中，数据集中的一个“流氓”低质量、高度压缩的图像块可能会降低复制的中位数质量，或者被数据集中更高质量的特征所淹没和覆盖。在这两种情况下，具有更好数据的系统都是可取的——或者至少，具有更一致的数据。

JPEG – 通常‘足够好’

JPEG压缩是一种不可逆的有损编码，可以应用于各种图像格式，尽管它主要应用于JFIF图像文件包装器。尽管如此，JPEG（.jpg）格式是以其相关的压缩方法命名的，而不是JFIF包装器命名的。

近年来，整个机器学习架构都出现了，包括JPEG风格的伪影缓解作为AI驱动的上采样/恢复例程的一部分，AI基于的压缩伪影去除现在已被纳入多个商业产品，例如Topaz图像/视频套件，以及Adobe Photoshop的神经特征。

由于1986年当前使用的JPEG方案基本上在20世纪90年代初就被锁定下来，因此不可能在JPEG图像中添加元数据来指示其质量级别（1-100）——至少，不可能在不修改超过30年来遗留的消费者、专业和学术软件系统的前提下添加元数据。

因此，通常会根据JPEG图像数据的评估或已知质量来调整机器学习训练例程，如研究人员在新论文中所做的那样。在没有“质量”元数据条目的情况下，通常需要知道图像的压缩细节（即，从无损源压缩），或者通过感知算法或手动分类来估计质量。

经济上的妥协

JPEG并不是唯一一种会影响机器学习数据集质量的有损压缩方法；PDF文件中的压缩设置也可以丢弃信息，并可以设置为非常低的质量级别以节省本地或网络存档的磁盘空间。

这可以通过在archive.org上采样各种PDF文件来观察到，其中一些PDF文件被压缩得如此严重，以至于成为图像或文本识别系统的重大挑战。在许多情况下，例如受版权保护的书籍，这种强烈的压缩似乎是作为一种廉价的DRM（数字版权管理）形式应用的，类似于版权持有者可能会降低用户上传的YouTube视频的分辨率，这些视频上他们持有知识产权，留下“块状”视频作为促销令牌，以激发“全分辨率”购买，而不是将其删除。

在许多其他情况下，分辨率或图像质量较低只是因为数据非常旧，来自当时本地和网络存储更昂贵、网络速度有限的时代，人们更喜欢高度优化和便携的图像而不是高质量的复制。

有人认为JPEG虽然不是当前的最佳解决方案，但已经成为不可移除的遗留基础设施，基本上与互联网的基础设施密不可分。

遗留负担

尽管后来的创新，如JPEG 2000、PNG和（最近的）.webp格式提供了更好的质量，但重新采样旧的、非常流行的机器学习数据集将会“重置”学术界年复一年计算机视觉挑战的连续性和历史——这也将适用于以更高质量设置重新保存PNG数据集图像的情况。这可以被认为是一种技术债务。

虽然像ImageMagick这样的老牌服务器驱动图像处理库支持更好的格式，包括.webp，但图像转换要求通常发生在不支持JPG或PNG（后者提供无损压缩，但以延迟和磁盘空间为代价）的遗留系统中。甚至WordPress，这个为几乎40%的所有网站提供动力的内容管理系统，只是在三个月前添加了.webp支持。

PNG是在20世纪90年代后期作为对1995年Unisys和CompuServe关于GIF文件中使用的LZW压缩格式将开始收取版税的声明的回应而出现的开源解决方案，即使GIF文件在2010年代初期因其能够提供低带宽、快速的动画内容而复兴，但动画PNG文件从未获得流行或广泛支持，甚至在2019年被Twitter禁止。

尽管JPEG有其缺点，但它具有快速、空间高效和深度嵌入在所有类型的系统中的优点——因此，它不太可能在近期从机器学习场景中完全消失。

在AI/JPEG休战中做出最好的选择

在一定程度上，机器学习社区已经适应了JPEG压缩的怪癖：2011年，欧洲放射学会（ESR）发表了一项关于“不可逆图像压缩在放射学成像中的可用性”的研究，提供了“可接受”的损失指南；当著名的MNIST文本识别数据集（其图像数据最初以二进制格式提供）被移植到“常规”图像格式时，JPEG，而不是PNG，被选中；以及新论文作者的早期（2020年）合作提出了“一种新颖的架构”，用于校准机器学习系统以适应JPEG图像质量的缺点，而无需在每个JPEG质量设置上训练模型——这是新工作中使用的功能。

确实，研究JPEG质量变异数据的实用性是机器学习中一个相对繁荣的领域。2016年，马里兰大学自动化研究中心的一个无关项目，实际上集中在DCT域（JPEG伪影在低质量设置下出现），作为深度特征提取的一种途径；2019年另一个项目集中在JPEG数据的字节级读取，无需耗时的解压缩图像（即，在自动工作流程中的某个点打开图像）；以及2019年法国的一项研究积极利用JPEG压缩来服务对象识别例程。

测试和结论

回到UoM和Facebook的最新研究，研究人员试图测试JPEG的可理解性和实用性，图像压缩质量在10-90之间（低于此值，图像将变得扭曲，高于此值，相当于无损压缩）。用于测试的图像在目标质量范围内的每个值都预先压缩，需要至少八次训练会话。

模型在四种方法中使用随机梯度下降进行训练：基线，其中没有添加任何额外的缓解措施；有监督的微调，其中训练集具有预训练权重和标记数据的优势（尽管研究人员承认，这在消费级应用中很难复制）；伪影纠正，其中在训练前对压缩图像进行增强/改进；以及任务目标伪影纠正，其中伪影纠正网络在返回的错误上进行微调。

训练发生在广泛的数据集上，包括多个ResNet、FastRCNN、MobileNetV2、MaskRCNN和Keras的InceptionV3的变体。

任务目标伪影纠正后的样本损失结果如下图所示（越低越好）。

由于研究人员的发现分散在评估JPEG伪影和缓解此类问题的新方法之间，训练是在这么多数据集上进行的，任务包括多个目标，例如对象检测、分割和分类，因此不可能深入研究该研究中获得的结果。

然而，该论文基本上得出结论，“JPEG压缩对重度至中度压缩设置具有显著的惩罚”。它还断言，其新颖的无标签缓解策略在其他类似方法中取得了更好的结果；对于复杂任务，其有监督方法也优于其同行，尽管没有访问真实标签；以及这些新方法允许模型重用，因为获得的权重可以在任务之间转移。

在分类任务方面，该论文明确指出“JPEG降低了梯度质量并引入了定位错误”。

作者希望将未来的研究扩展到其他压缩方法，例如基本上被忽视的JPEG 2000，以及WebP、HEIF和BPG。他们还表示，任务目标伪影纠正方法在研究中如此成功，以至于他们计划发布在项目中训练的权重，预计“[许多]应用将从使用我们的TTAC权重而受益，无需修改。”

注：文章的源图像来自thispersondoesnotexist.com