人工智能
解决计算机视觉数据集中的JPEG伪影问题

马里兰大学和Facebook AI的一项新研究发现,深度学习系统使用高度压缩的JPEG图像会对其性能产生“显著的惩罚”,并提出了一些新方法来减轻这种影响。
该报告,题为《分析和减轻深度学习中的JPEG压缩缺陷》,声称比以前关于训练计算机视觉数据集中伪影影响的研究更“全面”。该论文发现,“[重度]至中度JPEG压缩会对标准指标产生显著的性能惩罚”,并且神经网络可能不像以前的工作所示那样对此类扰动具有鲁棒性。

2018年MobileNetV2数据集中的狗照片。在质量10(左)时,分类系统无法识别正确的品种’彭布罗克威尔士柯基犬’,而是猜测’诺维奇梗犬’(系统已经知道这是狗的照片,但不知道品种);从左数第二,使用JPEG伪影纠正的图像仍然无法识别正确的品种;从右数第二,目标伪影纠正恢复了正确的分类;右侧为原始照片,正确分类。来源:https://arxiv.org/pdf/2011.08932.pdf
压缩伪影作为‘数据’
极端的JPEG压缩可能会在JPEG图像的8×8块边界周围创建可见或半可见的边界。一旦这些块或“环”伪影出现,机器学习系统可能会将其误解为图像主题的真实世界元素,除非采取某些补偿措施。

上图,计算机视觉机器学习系统从高质量图片中提取’干净’的梯度图像。下图,低质量图片中的’块’伪影模糊了主题的特征,并可能最终’感染’图像集中的特征,特别是在图像集中同时包含高质量和低质量图像的情况下,例如仅应用通用数据清理的网页抓取集合。来源:http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf
如上图所示,这种伪影会影响图像分类任务,并对文本识别算法产生影响,后者可能无法正确识别受伪影影响的字符。
在图像合成训练系统(例如深度伪造软件或基于GAN的图像生成系统)中,数据集中的一个“流氓”低质量、高度压缩的图像块可能会降低复制的中位数质量,或者被数据集中更高质量的特征所淹没和覆盖。在这两种情况下,具有更好数据的系统都是可取的——或者至少,具有更一致的数据。
JPEG – 通常‘足够好’
JPEG压缩是一种不可逆的有损编码,可以应用于各种图像格式,尽管它主要应用于JFIF图像文件包装器。尽管如此,JPEG(.jpg)格式是以其相关的压缩方法命名的,而不是JFIF包装器命名的。
近年来,整个机器学习架构都出现了,包括JPEG风格的伪影缓解作为AI驱动的上采样/恢复例程的一部分,AI基于的压缩伪影去除现在已被纳入多个商业产品,例如Topaz图像/视频套件,以及Adobe Photoshop的神经特征。
由于1986年当前使用的JPEG方案基本上在20世纪90年代初就被锁定下来,因此不可能在JPEG图像中添加元数据来指示其质量级别(1-100)——至少,不可能在不修改超过30年来遗留的消费者、专业和学术软件系统的前提下添加元数据。
因此,通常会根据JPEG图像数据的评估或已知质量来调整机器学习训练例程,如研究人员在新论文中所做的那样。在没有“质量”元数据条目的情况下,通常需要知道图像的压缩细节(即,从无损源压缩),或者通过感知算法或手动分类来估计质量。
经济上的妥协
JPEG并不是唯一一种会影响机器学习数据集质量的有损压缩方法;PDF文件中的压缩设置也可以丢弃信息,并可以设置为非常低的质量级别以节省本地或网络存档的磁盘空间。
这可以通过在archive.org上采样各种PDF文件来观察到,其中一些PDF文件被压缩得如此严重,以至于成为图像或文本识别系统的重大挑战。在许多情况下,例如受版权保护的书籍,这种强烈的压缩似乎是作为一种廉价的DRM(数字版权管理)形式应用的,类似于版权持有者可能会降低用户上传的YouTube视频的分辨率,这些视频上他们持有知识产权,留下“块状”视频作为促销令牌,以激发“全分辨率”购买,而不是将其删除。
在许多其他情况下,分辨率或图像质量较低只是因为数据非常旧,来自当时本地和网络存储更昂贵、网络速度有限的时代,人们更喜欢高度优化和便携的图像而不是高质量的复制。
有人认为JPEG虽然不是当前的最佳解决方案,但已经成为不可移除的遗留基础设施,基本上与互联网的基础设施密不可分。
遗留负担
尽管后来的创新,如JPEG 2000、PNG和(最近的).webp格式提供了更好的质量,但重新采样旧的、非常流行的机器学习数据集将会“重置”学术界年复一年计算机视觉挑战的连续性和历史——这也将适用于以更高质量设置重新保存PNG数据集图像的情况。这可以被认为是一种技术债务。
虽然像ImageMagick这样的老牌服务器驱动图像处理库支持更好的格式,包括.webp,但图像转换要求通常发生在不支持JPG或PNG(后者提供无损压缩,但以延迟和磁盘空间为代价)的遗留系统中。甚至WordPress,这个为几乎40%的所有网站提供动力的内容管理系统,只是在三个月前添加了.webp支持。
PNG是在20世纪90年代后期作为对1995年Unisys和CompuServe关于GIF文件中使用的LZW压缩格式将开始收取版税的声明的回应而出现的开源解决方案,即使GIF文件在2010年代初期因其能够提供低带宽、快速的动画内容而复兴,但动画PNG文件从未获得流行或广泛支持,甚至在2019年被Twitter禁止。
尽管JPEG有其缺点,但它具有快速、空间高效和深度嵌入在所有类型的系统中的优点——因此,它不太可能在近期从机器学习场景中完全消失。
在AI/JPEG休战中做出最好的选择
在一定程度上,机器学习社区已经适应了JPEG压缩的怪癖:2011年,欧洲放射学会(ESR)发表了一项关于“不可逆图像压缩在放射学成像中的可用性”的研究,提供了“可接受”的损失指南;当著名的MNIST文本识别数据集(其图像数据最初以二进制格式提供)被移植到“常规”图像格式时,JPEG,而不是PNG,被选中;以及新论文作者的早期(2020年)合作提出了“一种新颖的架构”,用于校准机器学习系统以适应JPEG图像质量的缺点,而无需在每个JPEG质量设置上训练模型——这是新工作中使用的功能。
确实,研究JPEG质量变异数据的实用性是机器学习中一个相对繁荣的领域。2016年,马里兰大学自动化研究中心的一个无关项目,实际上集中在DCT域(JPEG伪影在低质量设置下出现),作为深度特征提取的一种途径;2019年另一个项目集中在JPEG数据的字节级读取,无需耗时的解压缩图像(即,在自动工作流程中的某个点打开图像);以及2019年法国的一项研究积极利用JPEG压缩来服务对象识别例程。
测试和结论
回到UoM和Facebook的最新研究,研究人员试图测试JPEG的可理解性和实用性,图像压缩质量在10-90之间(低于此值,图像将变得扭曲,高于此值,相当于无损压缩)。用于测试的图像在目标质量范围内的每个值都预先压缩,需要至少八次训练会话。
模型在四种方法中使用随机梯度下降进行训练:基线,其中没有添加任何额外的缓解措施;有监督的微调,其中训练集具有预训练权重和标记数据的优势(尽管研究人员承认,这在消费级应用中很难复制);伪影纠正,其中在训练前对压缩图像进行增强/改进;以及任务目标伪影纠正,其中伪影纠正网络在返回的错误上进行微调。
训练发生在广泛的数据集上,包括多个ResNet、FastRCNN、MobileNetV2、MaskRCNN和Keras的InceptionV3的变体。
任务目标伪影纠正后的样本损失结果如下图所示(越低越好)。

由于研究人员的发现分散在评估JPEG伪影和缓解此类问题的新方法之间,训练是在这么多数据集上进行的,任务包括多个目标,例如对象检测、分割和分类,因此不可能深入研究该研究中获得的结果。
然而,该论文基本上得出结论,“JPEG压缩对重度至中度压缩设置具有显著的惩罚”。它还断言,其新颖的无标签缓解策略在其他类似方法中取得了更好的结果;对于复杂任务,其有监督方法也优于其同行,尽管没有访问真实标签;以及这些新方法允许模型重用,因为获得的权重可以在任务之间转移。
在分类任务方面,该论文明确指出“JPEG降低了梯度质量并引入了定位错误”。
作者希望将未来的研究扩展到其他压缩方法,例如基本上被忽视的JPEG 2000,以及WebP、HEIF和BPG。他们还表示,任务目标伪影纠正方法在研究中如此成功,以至于他们计划发布在项目中训练的权重,预计“[许多]应用将从使用我们的TTAC权重而受益,无需修改。”
注:文章的源图像来自thispersondoesnotexist.com
