Connect with us

人工智能

使用 JPEG 压缩提高神经网络训练

mm
An AI-generated image, using ChatGPTY-4o, with the prompt ' Please create a panoramic photorealistic image of a landscape sunset where the right half of the image gradually becomes full of ugly JPEG artifacts'

加拿大的一篇新研究论文提出了一个框架,该框架故意将 JPEG 压缩引入神经网络的训练方案,并获得了更好的结果 —— 以及对对抗性攻击的更好抵抗力。

这是一个相当激进的想法,因为当前的普遍智慧是,JPEG 图像中的 JPEG伪影,对于人类视觉进行了优化,而不是针对机器学习,通常会对训练在 JPEG 数据上的神经网络产生不利影响。

JPEG 图像在不同损失值下的压缩差异示例(更高的损失允许文件大小更小,但会损害清晰度和颜色渐变中的带状和条纹等伪影)。来源:https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

JPEG 图像在不同损失值下的压缩差异示例(更高的损失允许文件大小更小,但会损害清晰度和颜色渐变中的带状和条纹等伪影)。来源:https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

2022 年,马里兰大学和 Facebook AI 发布的一份报告 断言 ,JPEG 压缩在神经网络训练中“会带来显著的性能损失”,尽管 之前的工作 声称神经网络对图像压缩伪影相对具有鲁棒性。

在此之前的一年,一种新的思路出现在文献中:JPEG 压缩实际上可以 被利用 以获得模型训练的更好结果。

然而,尽管这篇论文的作者能够在 JPEG 图像的各种质量水平的训练中获得更好的结果,但他们提出的模型太复杂,无法实用化。另外,系统使用默认的 JPEG 优化设置(量化)成为训练有效性的障碍。

2023 年的一个项目(JPEG Compliant Compression for DNN Vision)尝试使用一个系统,该系统通过使用 冻结 的深度神经网络(DNN)模型,从 JPEG 压缩的训练图像中获得略好的结果。然而,在训练过程中冻结模型的部分会降低模型的多样性以及其对新数据的更广泛鲁棒性。

JPEG-DL

相反,新工作 ,题为 JPEG Inspired Deep Learning ,提供了一个更简单的架构,可以甚至被应用于现有的模型。

来自滑铁卢大学的研究人员指出:

‘结果表明,JPEG-DL 在各种 DNN 架构中显著且一致地优于标准 DL,模型复杂度的增加可以忽略不计。’

‘特别地,JPEG-DL 在某些细粒度分类数据集上提高了分类准确率,最高达 20.9%,同时仅在 DL 管道中添加 128 个可训练参数。此外,JPEG-DL 比标准 DL 具有更好的对抗性鲁棒性和输入图像的更小文件大小。’

作者认为,JPEG 压缩的最佳质量水平可以帮助神经网络区分图像中的中心主题。在下面的示例中,我们看到基线结果(左)将鸟融入背景中,而 JPEG-DL(右)成功地区分和勾勒出了照片的主题。

JPEG-DL 的基线方法测试。来源:https://arxiv.org/pdf/2410.07081

JPEG-DL 的基线方法测试。 来源:https://arxiv.org/pdf/2410.07081

‘这种现象,’ 他们解释说,‘被称为“压缩有助”在 [2021] 论文中,是因为压缩可以去除噪声和干扰背景特征,从而突出图像中的主要对象,这有助于 DNN 做出更好的预测。’

方法

JPEG-DL 引入了一个可微的 软量化器 ,它取代了标准 JPEG 优化例程中的不可微的量化操作。

这允许对图像进行 基于梯度的 优化。这在传统的 JPEG 编码中是不可能的,传统 JPEG 编码使用一个 统一量化器 和一个四舍五入操作来近似最接近的系数。

JPEG-DL 方案的可微性允许对训练模型的参数和 JPEG 量化(压缩级别)进行联合优化。联合优化意味着模型和训练数据在端到端过程中相互适应,无需冻结任何层。

本质上,该系统根据模型的逻辑定制原始数据集的 JPEG 压缩。

JPEG-DL 的概念图。

JPEG-DL 的概念图。

有人可能会认为原始数据是理想的训练材料;毕竟,图像在批处理时完全解压缩到适当的全长色彩空间中;那么原始格式有什么区别?

好吧,由于 JPEG 压缩是针对人类视觉进行优化的,因此它会以符合这一目标的方式抛弃细节或颜色的区域。例如,给定一张湖泊在蓝天下的图片,压缩级别会增加应用于天空,因为它不包含任何“必要”的细节。

另一方面,神经网络缺乏使我们能够聚焦于中心主题的特殊滤波器。相反,它可能会将天空中的任何带状伪影视为有效数据并将其纳入其 潜在空间 中。

虽然人类会忽略重度压缩图像(左)中的天空带状,但神经网络不知道该内容应被丢弃,并需要更高质量的图像(右)。来源:https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

虽然人类会忽略重度压缩图像(左)中的天空带状,但神经网络不知道该内容应被丢弃,并需要更高质量的图像(右)。来源:https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

因此,一个 JPEG 压缩级别不太可能适用于整个训练数据集,除非它代表一个非常特定的领域。例如,人群的图片需要比狭焦距的鸟的图片压缩得更少。

作者观察到,对于那些不熟悉量化挑战但熟悉 变压器 架构的人,可以将这些过程视为 注意力操作 ,广义上讲。

数据和测试

JPEG-DL 被评估为基于变压器的架构和 卷积神经网络(CNN)。使用的架构包括 EfficientFormer-L1ResNetVGGMobileNet;以及 ShuffleNet

用于 ResNet 的版本是针对 CIFAR 数据集的:ResNet32、ResNet56 和 ResNet110。对于 VGG 基础测试,选择了 VGG8 和 VGG13。

对于 CNN,训练方法来自 2020 年的工作 对比表示蒸馏(CRD)。对于基于变压器的 EfficientFormer-L1,使用了 2023 年的工作 用更大的模型初始化模型 的训练方法。

对于测试中的细粒度任务,使用了四个数据集:斯坦福狗;牛津大学的 花卉CUB-200-2011(加州理工学院鸟类);以及 宠物(“猫和狗”,牛津大学和印度海德拉巴大学的合作)。

对于 CNN 的细粒度任务,作者使用了 PreAct ResNet-18DenseNet-BC。对于 EfficientFormer-L1,使用了上述 初始化模型与更大的模型 中概述的方法。

在 CIFAR-100 和细粒度任务中,JPEG 压缩方法中不同幅度的 离散余弦变换(DCT)频率是使用 Adam 优化器处理的,以便在测试的模型中适应 JPEG 层的学习率。

ImageNet-1K 测试中,作者在所有实验中使用了 PyTorch,使用 SqueezeNet、ResNet-18 和 ResNet-34 作为核心模型。

对于 JPEG 层优化评估,研究人员使用 随机梯度下降(SGD)代替 Adam,以获得更稳定的性能。然而,对于 ImageNet-1K 测试,使用了 2019 年论文 学习步长量化 中的方法。

JPEG-DL 在 CIFAR-100 上的基线验证准确率,标准和平均偏差在三次运行中平均。下面是各种模型架构上的多个细粒度图像分类任务的基线验证准确率,同样平均三次运行。

上:JPEG-DL 在 CIFAR-100 上的基线验证准确率,标准和平均偏差在三次运行中平均。下:在各种模型架构上,多个细粒度图像分类任务的基线验证准确率,同样平均三次运行。

对上述结果的评论,作者指出:

‘在所有七个测试的 CIFAR-100 模型中,JPEG-DL 始终提供改进,最高可达 1.53% 的 top-1 准确率提升。在细粒度任务中,JPEG-DL 提供了显著的性能提升,所有数据集和两个模型的改进最高可达 20.90%。’

ImageNet-1K 测试的结果如下:

跨不同框架的 ImageNet 验证准确率结果。

跨不同框架的 ImageNet 验证准确率结果。

在这里,论文指出:

‘仅增加 128 个参数,JPEG-DL 比基线(使用单次量化操作)在 SqueezeNetV1.1 上获得了 0.31% 的 top-1 准确率提升。 ‘

‘通过将量化轮数增加到五,我们观察到额外的 0.20% 的改进,导致与基线相比总共获得 0.51% 的提升。 ‘

研究人员还使用对抗性攻击方法 对抗性攻击 进行了测试,包括 快速梯度符号法(FGSM)和 投影梯度下降(PGD)。

这些攻击是在 CIFAR-100 上的两个模型中进行的:

JPEG-DL 在两个标准对抗性攻击框架下的测试结果。

JPEG-DL 在两个标准对抗性攻击框架下的测试结果。

作者指出:

‘JPEG-DL 模型显著提高了对抗性鲁棒性,与标准 DNN 模型相比,FGSM 攻击提高了最高 15%,PGD 攻击提高了最高 6%。 ‘

此外,如文章前面所示,作者还使用 GradCAM++ 进行了比较,这是一个可以以视觉方式突出提取特征的框架。

基线和 JPEG-DL 图像分类的 GradCAM++ 演示,突出显示提取的特征。

基线和 JPEG-DL 图像分类的 GradCAM++ 演示,突出显示提取的特征。

论文指出,JPEG-DL 产生了更好的结果,并且在某些情况下甚至能够对基线模型无法识别的图像进行分类。关于前面提到的鸟类图像,作者指出:

‘很明显,JPEG-DL 模型的特征图比基线模型的特征图显示出前景信息(鸟)和背景之间的对比度显著更好。 ‘

‘特别地,JPEG-DL 特征图中的前景对象被一个清晰定义的轮廓所包围,使其在视觉上可区分于背景。 ‘

‘相比之下,基线模型的特征图显示出更混合的结构,其中前景包含更高的低频能量,导致它更平滑地与背景融合。 ‘

结论

JPEG-DL 旨在用于原始数据可用的情况 —— 但最有趣的是,看看是否可以将本项目中的一些原理应用于传统的数据集训练,其中内容可能是较低质量的(如经常从互联网上抓取的超大规模数据集)。

就目前而言,这在很大程度上仍然是一个注释问题,尽管它已在 基于交通的图像识别 和其他领域中得到解决。

 

首次发布于 2024 年 10 月 10 日星期四

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai