Anderson 视角

使用 AI 模拟电影颗粒

Published June 18, 2025

Updated April 26, 2026

Martin Anderson

Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

让美国再次变得颗粒状：一种新的 AI 工具可以从旧片中去除电影颗粒，将视频压缩到原来的体积的一小部分，然后在不被观众注意到的情况下将颗粒重新添加回去。它与现有的视频标准兼容，并且可以将带宽减少多达 90%，同时保持复古的外观。

对于我们中的许多人来说，观看电影或旧电视节目，电影颗粒的“噼啪”声是令人放心的；即使我们没有意识到它，颗粒也告诉我们我们正在观看的是用化学品制作的，而不是代码，并将体验与物理世界联系起来：与底片选择、曝光、实验室流程和过去的时代。

好莱坞对颗粒的处理方法随着文化和制作方法的变化而演变。在 1960 年代，相机底片和摄影技术的发展为该年代的独特视觉风格做出了贡献。后来，数字领域的导演开始故意重新引入颗粒。在 1980 年代中期，詹姆斯·卡梅隆为《异形》（1986 年，在上图的右下角）选择了一种特别粗糙的柯达底片，可能是为了增强气氛，同时也有助于隐藏实用特效微型作品中的电线。来源：https://archive.is/3ZSjN（我最近关于这个主题的文章）

模拟质感来自一个制作媒体需要真正花钱、获取受限、并且至少有一种松散的感觉，即只有最有能力或最坚定的才能才能通过，作为一种现实主义和可信度的简写——当高分辨率捕捉技术消除了它时，怀旧。

克里斯托弗·诺兰从未转向数字。虽然大部分行业都接受了数字技术，因为它速度快、灵活，但这位著名导演坚持使用胶片，既作为一种纪律和美学。

丹尼斯·维勒纳夫，在数字管道中工作，仍然将他的镜头通过光化学过程处理。对于《沙丘》电影，数字拍摄的镜头被打印到胶片上，然后扫描回数字，仅仅是为了气氛和效果。

假颗粒

电影和电视质量的爱好者将可见的颗粒与高分辨率联系在一起，其中比特率(每帧输入的数据量)如此之高，以至于甚至最小的细节，如卤化物颗粒，也被保留。

然而，如果流媒体网络真正提供了这种比特率，它将对网络容量造成严重的压力，并可能导致缓冲和卡顿。因此，像Netflix这样的平台创建优化的AV1版本的内容，并使用AV1编解码器的功能以智能和恰当的方式向电影或剧集添加颗粒，在此过程中节省了30%的带宽。

AV1设计用于纳入人工电影颗粒，如这些示例所示。来源：https://waveletbeam.com/index.php/av1-film-grain-synthesis

“颗粒狂热”是一种相对罕见的数字等同于像黑胶复兴这样的反潮流，很难说它是否被流媒体服务用来使高度优化的视频看起来像真正的“原始视频”（对于那些已经无意识地将这些特征联系在一起的观众），使比特率看起来高于实际值；或者是为了抵消旧的4:3节目在流媒体提供商将它们裁剪到宽屏长宽比时可能出现的感知质量下降；或者只是为了迎合复古的“诺兰美学”。

颗粒仓库

问题是颗粒也是噪声。数字系统讨厌噪声，流媒体编解码器如AV1会除去噪声以节省带宽，除非颗粒设置被显式配置。同样，AI升频器，如Topaz Gigapixel系列，将颗粒视为需要纠正的缺陷。

在基于扩散的图像合成领域，颗粒极难生成，因为它代表了极端细节，因此通常只会出现在大量过拟合模型中，因为整个潜在扩散模型（LDM）架构旨在分解噪声(如颗粒)为清晰图像，而不是将颗粒斑点视为媒体的隐含属性。

因此，使用机器学习创建令人信服的颗粒具有挑战性。即使可以做到这一点，将其直接渲染回优化视频中也只会使视频的文件大小再次膨胀。

由于后者的后勤考虑，像多功能视频编码(VVC)这样的最先进的视频编解码器提供颗粒作为一种“侧车”服务。

VVC压缩干净的去噪视频并丢弃颗粒。相反，VVC不会浪费数据尝试保留随机的高频颗粒模式，而是单独分析颗粒并编码一组描述如何在播放期间重新生成类似颗粒的参数（例如幅度、频率和混合模式）。

这些参数存储在FGC-SEI(电影颗粒特征补充增强信息)流中，伴随着主比特流。在解码后，合成模块使用这些指令重新应用合成颗粒，模仿原始颗粒。

这保留了高比特率、颗粒丰富的乳剂的“外观”，同时保持实际比特率低，因为编码器不需要花费资源保留不可预测的噪声。

此外，与离散字幕文件类似，这种“颗粒”内容特定于所讨论的视频；在Photoshop或After Effects等平台中或在自动处理管道中随意应用通用颗粒滤镜将不会产生“匹配”的颗粒，而是一种无关的噪声叠加：

左：原始图像。中：Photoshop Camera Raw Grain 均匀应用于所有通道。右：同一 Grain 滤镜分别应用于每个通道。来源图像（CC0）：https://stocksnap.io/photo/woman-beach-FJCOO6JWDP（来自我之前的文章）

Photoshop 的“颗粒”滤镜添加均匀的随机噪声；但真正的电影颗粒来自不同大小的卤化物晶体。将该滤镜分别应用于每个通道（见上图）只会产生更多混乱，而不是现实主义。真正的电影颗粒反映了光线在曝光时刻如何照射分层乳剂。

FGA-NN

法国的一篇新研究论文为分析和重现颗粒提供了一种量上和质上更好的方法：

比较不同分析和合成方法的真实颗粒和结果。来源：https://arxiv.org/pdf/2506.14350

该新系统，称为FGA-NN，并没有偏离使用传统的基于高斯的颗粒合成的惯用方法，多功能电影颗粒合成(VFGS)。该系统改变的是分析，使用神经网络更准确地估计合成参数

因此，最终的颗粒仍然使用相同的传统高斯模型合成——但网络将更好的元数据输入到标准的基于规则的生成器中，获得了最先进的模型。

新论文的标题为FGA-NN：电影颗粒分析神经网络，来自塞松塞维涅的三位InterDigital R&D研究人员。虽然这篇论文不长，但让我们来看看这种新方法提供的进步的几个关键方面。

方法

总之：FGA-NN系统接受一个有颗粒的视频作为输入，并提取一个紧凑的描述颗粒的参数，输出参数以标准化的FGC-SEI格式表示，用于各种现代编解码器。这些参数与视频一起传输，允许解码器使用VFGS重建颗粒，而不是直接编码颗粒。

使用FGA-NN进行参数提取和VFGS进行合成的电影颗粒分析和重新应用模式。

为了训练网络，作者需要带有FGC-SEI元数据的有颗粒的视频对。由于大多数有颗粒的镜头缺乏此类元数据，研究人员创建了自己的数据集，通过生成FGC-SEI参数，将合成颗粒应用于干净的视频，并将这些用作训练示例。

用于FGA-NN的训练数据是通过将合成颗粒应用于BVI-DVC和DIV2K数据集中的干净镜头创建的。随机化的FGC-SEI参数被生成并使用VFGS合成工具，从而允许每个有颗粒的视频与已知的元数据配对。

用于训练的随机化FGC-SEI参数范围的概述，应用于BVI-DVC和DIV2K数据集的干净镜头。参数被约束以确保在明度和色度通道上都有合理的视觉结果。

仅支持的合成方法，即VVC测试模型(VTM)中的频率滤波模型，在整个过程中都被使用。参数范围被约束以保持明度和色度通道上的视觉可信度。

网络效果

FGA-NN具有两个协调的模型，分别用于明度和色度，每个模型都旨在预测重新创建真实电影颗粒所需的特定参数。

对于每个输入图像，系统估计一组强度间隔、与每个间隔相关的缩放因子、水平和垂直截止频率，以及称为Log2Scale因子的整体缩放调整。为了处理这一点，模型使用一个共享的特征提取器来处理有颗粒的输入并输入四个单独的输出分支，每个分支负责不同的预测任务：

FGA-NN明度版本的架构。共享的后端从有颗粒的输入帧中提取特征，然后是四个输出分支，分别针对特定的参数预测任务：间隔边界、缩放因子、截止频率和全局Log2Scale。色度网络使用相同的结构，输入和输出维度进行了调整。

间隔边界使用回归进行预测，而缩放因子、截止频率和全局缩放设置被视为分类问题。

该架构被调整以反映每个任务的复杂性，使用更大的内部层进行更细致的预测；特别是，色度模型镜像明度结构，但适应了色度数据的不同特征。

训练和测试

FGA-NN使用四个目标函数进行训练，每个函数对应一个预测任务。对于分类输出，使用交叉熵损失来减少预测标签和真实标签之间的差距。

间隔边界被归一化到0到1的范围，并使用组合损失进行优化：一个指数缩放的L1 损失(expL1)，该损失对较大的错误进行更严厉的惩罚，并且具有单调性惩罚，该惩罚阻止向下趋势。所有四个损失函数都被组合起来，对截止频率和缩放因子分配了高权重，而间隔边界和Log2Scale的权重分别为1和0.1。

训练是在Adam优化器下进行的，学习率为5e-4，经过10,000次迭代，批大小为64。

唯一适合比较测试的工具是FGA-CONVENT，它也以FGC-SEI格式生成值，并用于颗粒处理。两个系统都在JVET主观评估集的UHD序列上进行了测试，使用包含真正电影颗粒的镜头。

垂直虚线表示强度间隔边界，而Log2Scale增益在轴标签中指出。

在上面的图像中，我们看到使用每种方法的参数生成的VFGS的相同裁剪帧，以及它们的明度估计值与使用VFGS手动设置的真实值进行比较。

作者指出：

“可以观察到FGA-NN准确捕捉到了真实电影颗粒模式和幅度的整体趋势，生成的合成图像具有与真实图像相似的感知电影颗粒。”

“另一方面，FGA-CONVENT预测的缩放因子较低，由于其设计，相应地具有较低的Log2Scale因子，并且倾向于生成比参考图像更粗糙的电影颗粒模式，结果具有不同的但视觉上一致的外观。”

他们指出，与真实颗粒参数进行直接比较是不可靠的，因为缩放和Log2Scale可以相互补偿，且小错误通常对视觉影响不大。

信仰测试

电影颗粒的保真度在四个工作流程中进行了基准测试：FGA-NN与VFGS；FGA-CONVENT加VFGS；Style-FG；以及3R-INN。测试使用了FGC-SEI和FilmGrainStyle740k数据集，使用学习的感知相似度度量(LPIPS)；JSD-NSS；以及Kullback-Leibler(KL)散度进行了比较。

在FilmGrainStyle740k数据集上的基准测试结果。Style-FG和3R-INN由于在此数据集上进行了训练而优于其他方法，FGA-NN紧随其后。FGA-CONVENT的性能较差，这是由于它依赖于多帧分析和同质区域——这些条件在本例中未满足，因为使用了小型、纹理丰富的输入。

作者指出：

“在FilmGrainStyle740k测试集上，Style-FG和3R-INN取得了最佳结果，因为这些方法专门针对该数据集进行了训练，而FGA-NN紧随其后。FGA-CONVENT与VFGS的组合在两个测试集上的性能都较差。”

“这仅仅是因为分析依赖于同质区域，并利用了多帧中的信息，在真正的电影颗粒分析用例中，而在当前评估中，分析仅提供了一个单独的低分辨率图像（256×256至768×512），该图像通常包含大量纹理。”

“这进一步使得传统分析方法面临挑战，使得FGA-CONVENT无法应用于这样的小图像。”

最后，作者指出，虽然像3R-INN和Style-FG这样的基于学习的方法在经过整理的数据集上产生了强大的视觉结果，但它们的高计算成本使得它们不适合在用户设备上部署。

使用不同分析和合成工作流程增强的低比特率帧的比较（第三至最后一列）。

相比之下，新论文中提出的方法将轻量级的FGA-NN分析模块与硬件高效的VFGS合成方法配对，作者将其描述为一种更可行和可部署的解决方案，用于在压缩视频中重新引入电影颗粒。

他们进一步指出，FGA-NN的好处可能是相当可观的，尤其是在大规模应用中：

“使用我们的电影颗粒分析和合成工作流程对UHD视频进行中等到低比特率的编码，使得比特率可以节省多达90%，与高比特率编码相比。”

结论

对电影颗粒的痴迷是后模拟时代最奇怪和最令人好奇的怪癖之一，值得注意的是，曾经被认为是媒介的局限性，现在已经成为一种真实性和真实性的标志，即使是对出生于乳剂衰落之后的新一代观众来说也是如此。

应该注意的是，包括这项最新创新在内的最先进的颗粒重现方法，都无法完全捕捉到光线对真实光化学过程中分层卤化物的影响，在各种条件下。

首次发表于2025年6月18日星期三