关注我们.

人工智能

解决计算机视觉数据集中的 JPEG 伪影问题

mm

马里兰大学和 Facebook AI 的一项新研究发现,在数据集中使用高度压缩的 JPEG 图像的深度学习系统会“显著降低性能”,并提出了一些新方法来减轻这种影响。

这个 报告名为 分析和减轻深度学习中的 JPEG 压缩缺陷声称比以往关于伪影对计算机视觉训练数据集影响的研究“更加全面”。该论文发现,“[重度]至中度 JPEG 压缩会导致标准指标上的性能显著下降”,并且神经网络对此类干扰的恢复能力可能不如以往的研究。 提示.

2018 MobileNetV2 数据集中的一只狗的照片。 在质量 10(左)时,分类系统无法识别正确的品种“彭布罗克威尔士柯基犬”,而是猜测“诺维奇梗犬”(系统已经知道这是狗的照片,但不知道品种); 左起第二个,现成的 JPEG 伪像校正版本的图像再次无法识别正确的品种; 右数第二个,有针对性的伪影校正恢复了正确的分类; 右边是原始照片,分类正确。 资料来源:https://arxiv.org/pdf/2011.08932.pdf

2018 年 MobileNetV2 数据集中的一张狗狗照片。在质量为 10 时(左图),分类系统未能识别出正确的品种“彭布罗克威尔士柯基犬”,而是猜测是“诺里奇梗犬”(系统已经知道这是一张狗狗的照片,但不知道具体品种);左起第二张是经过伪影校正的现成 JPEG 图像版本,同样未能识别出正确的品种;右起第二张是经过有针对性的伪影校正后恢复了正确的分类;右图是原始照片,已正确分类。 资料来源:https://arxiv.org/pdf/2011.08932.pdf

压缩工件作为“数据”

极端的 JPEG 压缩可能会在图像周围产生可见或半可见的边界。 8×8块 JPEG 图像由此组装成像素网格。一旦出现这些阻塞或“振铃”伪影,机器学习系统很可能会将其误认为图像主体的真实世界元素,除非对此进行一些补偿。

上面,计算机视觉机器学习系统将从高质量图片中提取“干净”的梯度图像。 下面,低质量图像保存中的“阻塞”伪影会掩盖对象的特征,并可能最终“感染”从图像集派生的特征,特别是在数据集中出现高质量和低质量图像的情况下,例如在仅应用通用数据清理的网络抓取集合中。 资料来源:http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

上图为计算机视觉机器学习系统从一张高质量图片中提取“干净”的渐变图像。下图为低质量图片保存中的“阻塞”伪影,遮挡了主体的特征,并可能最终“影响”从图像集中提取的特征,尤其是在数据集中同时存在高质量和低质量图像的情况下,例如在仅进行了一般数据清理的网页抓取数据集中。 资料来源:http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf

如上面第一张图所示,此类伪影可能会影响图像分类任务,也会影响文本识别算法,因为文本识别算法可能无法正确识别受伪影影响的字符。

对于图像合成训练系统(例如深度伪造软件或基于 GAN 的图像生成系统),数据集中低质量、高度压缩的“流氓”图像块可能会拉低再现质量的中值,或者被从数据集中更优质图像中提取的大量更高质量的特征所取代。无论哪种情况,我们都需要更优质的数据——或者至少是一致的数据。

JPEG – 通常“足够好”

JPEG 压缩是一种不可逆的有损编解码器,可以应用于各种图像格式,但它主要应用于 JFIF 图像文件 包装纸。 尽管如此,JPEG (.jpg) 格式还是以其相关的压缩方法命名,而不是图像数据的 JFIF 包装器。

近年来出现了整个机器学习架构,其中包括作为人工智能驱动的升级/恢复例程的一部分的 JPEG 式伪影缓解,并且基于人工智能的压缩伪影消除现在已纳入许多商业产品中,例如 Topaz 图像/视频 套房,并 神经特征 Adobe Photoshop 的最新版本。

由于 1986 目前常用的 JPEG 模式在 1990 世纪 1 年代初就基本确定了,不可能向图像添加元数据来指示 JPEG 图像保存的质量级别(100-XNUMX)——至少,除非修改三十多年来传统消费者、专业和学术软件系统,否则这些系统并不期望此类元数据可用。

因此,根据 JPEG 图像数据的评估或已知质量来定制机器学习训练程序并不罕见,正如研究人员在新论文中所做的那样(见下文)。由于缺乏“质量”元数据条目,目前需要了解图像压缩方式(即从无损源压缩)的详细信息,或者通过感知算法或手动分类来估计质量。

经济上的妥协

JPEG 并不是唯一可能影响机器学习数据集质量的有损压缩方法; PDF 文件中的压缩设置也可以通过这种方式丢弃信息,并设置为非常低的质量级别,以便节省本地或网络存档的磁盘空间。

通过在archive.org网站上抽样各种PDF文件就可以看出这一点,其中一些PDF文件被高度压缩,对图像或文本识别系统构成了显著挑战。在很多情况下,例如受版权保护的书籍,这种高强度的压缩似乎被用作一种廉价的DRM(数字版权管理)手段,就像版权所有者可能会选择降低用户上传的YouTube视频的分辨率(这些视频是他们拥有的知识产权),而留下这些“块状”视频作为促销手段,以鼓励用户购买“全分辨率”视频,而不是将其删除。

在许多其他情况下,分辨率或图像质量较低仅仅是因为数据非常旧,并且来自本地和网络存储更加昂贵的时代,并且有限的网络速度有利于高度优化和便携式图像而不是高质量再现。

有人认为 JPEG 虽然不是最好的解决方案 现在, 已被“奉为圭臬” 作为不可移除的遗留基础设施,它与互联网的基础本质上是交织在一起的。

遗留负担

尽管后来的创新,例如 JPEG 2000、PNG 以及(最近的).webp 格式,提供了更高质量的图像,但重新采样那些老旧且广受欢迎的机器学习数据集,可能会“重置”学术界逐年递增的计算机视觉挑战赛的连续性和历史——这种障碍在以更高质量设置重新保存 PNG 数据集图像时也同样适用。这可以被视为一种技术债务。

虽然像 ImageMagick 这样受人尊敬的服务器驱动图像处理库支持更好的格式,包括 .webp,但图像转换需求经常出现在未针对 JPG 或 PNG 以外的任何内容进行设置的遗留系统中(它们提供无损压缩,但代价是延迟和磁盘空间)。 甚至是由 CMS 提供支持的 WordPress 近 40% 的网站,仅添加了.webp支持 三个月前.

PNG 进入图像格式领域较晚(可以说是太晚了),它作为 1990 世纪 XNUMX 年代后期的开源解决方案而出现,以响应 1995年的宣言 Unisys 和 CompuServe 规定,今后 GIF 文件中使用的 LZW 压缩格式将需要支付版税,这种格式在当时通常用于徽标和纯色元素,即使该格式的 复活 在 2010 年代初期,其核心是提供低带宽、活泼的动画内容的能力(具有讽刺意味的是,动画 PNG 从未获得流行或广泛支持,甚至 被禁止从Twitter 在2019)。

尽管有其缺点,JPEG 压缩速度快、节省空间,并且深深嵌入到所有类型的系统中,因此不太可能在不久的将来从机器学习场景中完全消失。

充分利用 AI/JPEG 缓和

在某种程度上,机器学习社区已经适应了 JPEG 压缩的缺点:2011 年,欧洲放射学会 (ESR) 发布了 根据一项研究, 关于“放射成像中不可逆图像压缩的可用性”,为“可接受的”损失提供指导;当令人尊敬的 MNIST 文本识别数据集(其图像数据最初以新的二进制格式提供)被移植到“常规”图像格式, JPEG,不是 PNG,被选中;并且新论文作者在早期(2020 年)的合作中提出了 “新颖的建筑” 用于校准机器学习系统以适应不同 JPEG 图像质量的缺点,而不需要在每个 JPEG 质量设置下训练模型 - 这项新工作中利用了这一功能。

事实上,对质量变化 JPEG 数据的实用性的研究是机器学习中相对蓬勃发展的领域。 实际上是马里兰大学自动化研究中心的一个(不相关的)2016 年项目 以 DCT 域为中心 (在低质量设置下出现 JPEG 伪像)作为深度特征提取的途径; 2019 年的另一个项目集中于 JPEG 数据的字节级读取 无需耗时地实际解压缩图像(即在自动化工作流程中的某个时刻打开它们); 和一个 根据一项研究, 2019 年来自法国的公司积极利用 JPEG 压缩来服务于对象识别例程。

测试和结论

回到密歇根大学和 Facebook 的最新研究,研究人员试图测试 JPEG 格式在 10-90 压缩比范围内图像的可理解性和实用性(低于此值时,图像几乎不会受到干扰,高于此值时,图像相当于无损压缩)。测试中使用的图像在目标质量范围内的每个值上都进行了预压缩,至少需要进行 XNUMX 次训练。

模型通过四种方法进行随机梯度下降训练: 底线,其中没有添加额外的缓解措施; 监督微调,其中训练集具有预先训练的权重和标记数据的优势(尽管研究人员承认这在消费者级应用程序中很难复制); 伪影校正,其中在训练之前对压缩图像进行增强/改善; 和 以任务为目标的伪影校正,其中工件正确网络根据返回的错误进行微调。

训练在各种 apt 数据集上进行,包括 ResNet 的多个变体, FastRCNN, 移动网络V2, 掩模RCNN 和凯拉斯的 盗版V3.

下面显示了针对任务的伪影校正后的样本丢失结果(较低 = 更好)。

我们无法深入研究结果的细节,因为研究人员的研究结果分为评估 JPEG 伪影的目标和缓解伪影的新方法两部分;训练是迭代的 按质量 这么多的数据集; 这些任务包括多个目标,例如对象检测、分割和分类。 从本质上讲,新报告将自己定位为解决多个问题的综合参考书。

尽管如此,该论文大致得出以下结论:“对于重度到中度压缩设置,JPEG 压缩的惩罚普遍较高”。论文还声称,其新颖的无标记缓解策略相比其他同类方法取得了更优异的效果;对于复杂任务,研究人员的监督方法尽管无法获取真实标签,也表现优于同类方法;此外,这些新颖的方法允许模型重用,因为获得的权重可以在任务之间迁移。

在分类任务方面,论文明确指出“JPEG 会降低梯度质量并导致定位误差”。

作者希望扩展未来的研究以涵盖其他压缩方法,例如很大程度上被忽视的 JPEG 2000,以及 WebP, HEIFBPG。 他们进一步表明他们的方法可以应用于视频压缩算法的类似研究。

由于以任务为目标的伪影校正方法在研究中被证明非常成功,作者还表示他们打算发布在项目期间训练的权重,并预计“许多应用程序将受益于使用我们的 TTAC 权重而无需修改。”

 

注:本文的源图片来自 thispersondoesnotexist.com

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai