Anderson 视角
迪士尼研究院提出改进的基于AI的图像压缩方法 – 但它可能会产生虚假细节

迪士尼研究院提出了一种新的图像压缩方法,利用开源的Stable Diffusion V1.2模型产生比竞争方法更真实的图像,且比特率更低。

迪士尼压缩方法与之前的方法比较。作者声称改进了细节的恢复,同时提供了一个不需要数十万美元训练费的模型,并且比最接近的竞争方法运行速度更快。来源: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
这种新方法(被定义为一种“编解码器”,尽管它比传统的编解码器如JPEG和AV1复杂)可以在任何潜在扩散模型(LDM)上运行。在量化测试中,它在准确性和细节方面优于以前的方法,并且需要的训练和计算成本大大降低。
这种新方法的关键见解是量化错误(图像压缩中的一个基本过程)与噪声(扩散模型中的一个基本过程)相似。
因此,传统量化的图像可以被视为原始图像的噪声版本,并可以在LDM的去噪过程中使用,而不是使用随机噪声,以便在目标比特率下重建图像。

新迪士尼方法(绿色突出)与竞争方法的进一步比较。
作者声称:
‘我们将去除量化错误的过程定义为去噪任务,使用扩散来恢复传输图像潜在中的丢失信息。我们的方法允许我们执行不到完整扩散生成过程的10%,并且不需要对扩散模型进行任何架构更改,允许使用基础模型作为强大的先验,而无需对骨干进行额外的微调。 ‘
‘我们的提议的编解码器在量化现实度量中优于以前的方法,我们验证了我们的重建在用户眼中是更好的,即使其他方法使用了两倍的比特率。 ‘
然而,与其他利用扩散模型压缩能力的项目一样,输出可能会产生虚假细节。相比之下,像JPEG这样的有损方法将产生明显的失真或过度平滑的细节区域,这些细节可以被普通观众识别为压缩限制。
相反,迪士尼的编解码器可能会改变源图像中不存在的上下文细节,这是由于典型模型中使用的变分自编码器(VAE)的粗糙性质所致。
‘与其他生成方法类似,我们的方法可以丢弃某些图像特征,同时在接收端合成类似的信息。在某些情况下,这可能会导致不准确的重建,例如弯曲直线或扭曲小物体的边界。 ‘
‘这些是我们所构建的基础模型的众所周知的问题,可以归因于其VAE的相对较低的特征维度。 ‘
虽然这对艺术描绘和日常照片的逼真度有一些影响,但在小细节构成重要信息的案例中,例如法庭证据、人脸识别数据、光学字符识别(OCR)扫描和其他可能的用例中,它可能会产生更严重的影响,如果这种编解码器被广泛采用。
在人工智能增强图像压缩的进展初期,所有这些可能的场景都还很遥远。然而,图像存储是一个全球性的挑战,涉及数据存储、流媒体和电力消耗等问题。因此,基于人工智能的压缩可能会提供一个在准确性和后勤之间的诱人折衷。
迪士尼已经在很长时间内尝试使用机器学习作为压缩方法。在2020年,新论文中的一位研究人员参与了一个基于VAE的项目,用于改进视频压缩。
新论文于10月初更新。今天,公司发布了一段配套YouTube视频。该项目被称为基于基础扩散模型的有损图像压缩,由四位来自ETH Zürich(隶属于迪士尼的AI项目)和迪士尼研究的研究人员撰写。研究人员还提供了一份补充论文。
方法
新方法使用VAE将图像编码为其压缩的潜在表示。在这一阶段,输入图像由派生特征组成 – 低级向量表示。然后将潜在嵌入量化回比特流,并转换回像素空间。
然后使用量化图像作为通常用于扩散图像的噪声模板,具有可变数量的去噪步骤(其中通常存在去噪步骤的增加与准确性的提高之间的权衡,以及延迟的降低和效率的提高之间的权衡)。

新迪士尼压缩方法的模式。
量化参数和去噪步骤的总数都可以通过训练一个预测这些方面相关变量的神经网络来控制。这个过程被称为自适应量化,迪士尼系统使用Entroformer框架作为该过程的熵模型。
作者指出:
‘直观地,我们的方法学习丢弃可以在扩散过程中合成的信息(通过量化变换)。由于量化过程中引入的错误与添加噪声类似,而扩散模型本质上是去噪模型,因此可以用来去除量化过程中引入的量化噪声。 ‘
Stable Diffusion V2.1是系统的扩散骨干,之所以选择它是因为整个代码和基础权重都是公开可用的。然而,作者强调他们的模式适用于更广泛的模型。
在该过程的经济学中,时间步预测至关重要,它评估最佳的去噪步骤数量 – 效率和性能之间的平衡行为。

时间步预测,最佳去噪步骤用红色边框表示。请参考源PDF以获得准确的分辨率。
需要考虑潜在嵌入中的噪声量来预测最佳的去噪步骤数量。
数据和测试
该模型是在Vimeo-90k数据集上训练的。图像被随机裁剪为256x256px,每个epoch(即模型训练架构对数据集的每次完整处理)。
模型在学习率为1e-4的情况下优化了300,000步。这是计算机视觉项目中最常见的,也是最低和最细粒度的一般可行值,作为对数据集概念和特征的广泛概括和对细节的复制能力之间的折衷。
作者对一些系统的后勤考虑进行了评论:
‘在训练期间,通过扩散模型的多次传递来反向传播梯度是非常昂贵的。因此,我们只执行一次DDIM采样迭代,并直接使用它作为完全去噪数据。 ‘
用于测试系统的数据集包括Kodak;CLIC2022;和COCO 30k。数据集根据2023年谷歌的提议《多现实图像压缩与条件生成器》中概述的方法进行了预处理。
使用的指标包括峰值信噪比(PSNR);学习到的感知相似度指标(LPIPS);多尺度结构相似性指数(MS-SSIM);以及弗雷切特感知距离(FID)。
被测试的竞争框架被分为使用生成对抗网络(GAN)的较旧系统和基于扩散模型的较新系统。被测试的GAN系统包括高保真度生成图像压缩(HiFiC)和ILLM(它在HiFiC的基础上提供了一些改进)。
被测试的基于扩散的系统包括使用条件扩散模型的有损图像压缩和使用评分基于生成模型的高保真度图像压缩。

在各种数据集上与之前的框架进行的量化结果比较。
对于量化结果(如上所示),研究人员指出:
‘我们的方法在重建图像的真实性方面设定了新的最先进水平,超过了所有基准的FID-比特率曲线。在一些失真度量中(特别是LPIPS和MS-SSIM),我们超过了所有基于扩散的编解码器,同时仍然与最高性能的生成编解码器具有竞争力。 ‘
‘如预期,我们的方法和其他生成方法在PSNR方面受损,因为我们更喜欢感知上令人愉悦的重建,而不是精确复制细节。 ‘
对于用户研究,使用了两种替代强制选择(2AFC)方法,在锦标赛背景下,喜欢的图像将进入后续轮次。研究使用了最初为国际象棋锦标赛开发的埃洛评分系统。
因此,参与者将查看和选择两种呈现的512x512px图像中的最佳图像,跨越各种生成方法。还进行了一个额外的实验,其中来自同一用户的所有图像比较都通过蒙特卡罗模拟进行了评估,模拟次数为10,000次,结果显示中位数分数。

用户研究的估计埃洛评分,包括每次比较的埃洛锦标赛(左)和每位参与者的埃洛评分,评分越高越好。
作者指出:
‘如埃洛评分所示,我们的方法显著优于其他方法,即使与使用我们方法两倍比特率的CDC相比也是如此。无论使用哪种埃洛锦标赛策略,这种情况都成立。 ‘
在原始论文以及补充PDF中,作者提供了进一步的视觉比较,其中一部分在本文中显示。然而,由于样本之间的差异很细微,我们将读者引导至源PDF,以便公正地评估这些结果。
该论文指出,其提出的方法的运行速度是竞争方法CDC的两倍(3.49秒与6.87秒)。它还观察到ILLM可以在0.27秒内处理图像,但该系统需要繁重的训练。
结论
ETH/迪士尼的研究人员在论文结论中明确指出,他们的系统有可能生成虚假细节。然而,所提供的样本并没有关注这个问题。
公平地说,这个问题并不是新迪士尼方法所特有的,而是使用扩散模型(一种创造性和解释性的架构)来压缩图像的必然副作用。
有趣的是,仅仅五天前,ETH Zurich的另外两位研究人员发表了一篇题为《图像压缩中的条件幻觉》的论文,探讨了AI-based压缩系统中“最佳幻觉水平”的可能性。
作者在那里提出了一种论点,认为在某些情况下,幻觉是可取的:
‘对于类似纹理的内容,例如草、雀斑和石墙,生成与给定纹理相匹配的像素比重建精确的像素值更重要;从纹理分布中生成任何样本通常都是足够的。 ‘
因此,这篇论文提出了一个优化的压缩应该是“创造性”和代表性的,而不是尽可能准确地重建原始未压缩图像的核心特征和线条的论点。
人们不禁会想,摄影和创意社区会如何看待这种对“压缩”的相当激进的重新定义。
*我将作者的内联引用转换为超链接。
首次发布于2024年10月30日星期三












