Anderson 视角

使用 AI 模拟电影颗粒

发布于 2025年6月18日

更新于 2026年5月18日

作者

Martin Anderson

Varying grain levels in 'Jaws' (1976) – source: https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 and https://www.britannica.com/topic/Jaws-film-by-Spielberg

让美国再次变得颗粒感：一种新的 AI 工具可以从旧片段中去除电影颗粒，将视频压缩到原大小的几分之一，然后在不被观众注意到的情况下将颗粒重新添加回来。它与现有的视频标准兼容，并且可以将带宽减少多达 90%，同时保持复古的外观。

对于我们许多人来说，观看电影或旧电视节目，电影颗粒的“噼啪”声是令人安心的；即使我们没有意识到它，颗粒也告诉我们我们正在观看的是用化学品制作的，而不是代码，并将体验与物理世界联系起来：与股票选择、曝光、实验室流程和过去的时代有关。

好莱坞对颗粒的处理方法也随着文化和制作方法的变化而演变。在 1960 年代，相机胶片和摄影技术的发展为该年代的独特视觉风格做出了贡献。后来，数字领域的导演们开始故意重新引入颗粒。在 1980 年代中期，导演詹姆斯·卡梅隆（James Cameron）为《异形》（1986 年）选择了一种特别粗糙的柯达胶片，可能是为了增强气氛，同时也帮助隐藏了实际特效微型工作中的电线。来源：https://archive.is/3ZSjN（我最近关于这个主题的文章）来源：https://archive.is/3ZSjN（我最近关于这个主题的文章）

模拟的纹理来自一个制作媒体需要花费真正的钱、获取受限、并且至少有一种松散的感觉，即只有最有能力或最坚定的才能通过的时代，作为真实性和可信度的简写——当高分辨率捕捉技术消除了它时，怀旧。

克里斯托弗·诺兰从未放弃。虽然大多数行业都接受了数字技术，因为它的速度和灵活性，著名导演坚持使用胶片，既是作为一种纪律，也是作为一种美学手段。

Denis Villeneuve 在数字管道中工作，仍然将他的片段解析为光化学过程。对于《沙丘》电影，数字拍摄的片段被印刷到胶片上，然后扫描回数字，仅仅是为了气氛和效果。

假颗粒

电影和电视质量的爱好者将可见的颗粒与高分辨率联系起来，在那里比特率(每帧输入的数据量) 非常高，以至于甚至最小的细节，例如卤化物颗粒，都被保留下来。

然而，如果流媒体网络真正提供了这种比特率，它将对网络容量造成严重的负担，并可能导致缓冲和卡顿。因此，像 Netflix 这样的平台创建了优化的 AV1 版本的内容，并使用 AV1 编解码器的功能以智能和恰当的方式向电影或剧集添加颗粒，在此过程中节省了 30% 的带宽。

AV1 设计用于纳入人工电影颗粒，如这些示例所示。 来源：https://waveletbeam.com/index.php/av1-film-grain-synthesis

“颗粒狂热”是一种相对罕见的数字等同于复古趋势，例如黑胶唱片的复兴，它很难说这是否是由流媒体服务使用的，以使高度优化的视频看起来像真正的“原始视频”（对于那些已经将这些特征与高比特率联系起来的观众），使比特率看起来比实际高；或者为了抵消旧的 4:3 节目在流媒体提供商将它们裁剪为宽屏长宽比时可能出现的感知质量下降；或者只是为了迎合复古的“诺兰美学”。

颗粒隔离

问题是颗粒也是噪音。数字系统讨厌噪音，流媒体编解码器（如 AV1）会除去噪音以节省带宽，除非颗粒设置被显式配置。同样，AI 放大器（如 Topaz Gigapixel 系列）将颗粒视为需要纠正的缺陷。

在基于扩散的图像合成领域，颗粒极难生成，因为它代表了 极端细节，因此通常只会出现在过度拟合的模型中，因为整个潜在扩散模型（LDM）架构旨在分解噪音（如颗粒）为清晰图像，而不是将颗粒斑视为媒体的隐含属性。

因此，使用机器学习创建令人信服的颗粒可能很具有挑战性。而且，即使可以做到这一点，将其直接渲染回优化的视频中只会使视频文件大小再次膨胀起来。

由于后一个后勤考虑，像可变视频编码（VVC）这样的最先进视频编解码器提供颗粒作为一种“侧车”服务。

VVC 压缩干净的去噪视频并丢弃颗粒。与其浪费数据尝试保留随机的高频颗粒模式，它分析颗粒单独并编码一组小的参数（例如幅度、频率和混合模式），这些参数描述了如何在播放期间重新生成类似的颗粒。

这些参数存储在 FGC-SEI（电影颗粒特征补充增强信息）流中，该流与主比特流并行传输。在解码后，合成模块使用这些指令重新应用合成颗粒以模拟原始颗粒。

这保留了高比特率、颗粒丰富的乳剂的“外观”，同时保持低实际比特率，因为编码器不需要花费资源保留不可预测的噪音。

此外，与离散字幕文件一样，这种人工“颗粒”内容特定于视频本身；在 Photoshop 或 After Effects 等平台中或在自动处理管道中随意应用通用颗粒滤镜将不会产生“拟合”颗粒，而是无关的噪音叠加：

左：原始图像。中：Photoshop Camera Raw 颗粒均匀应用于所有通道。右：同样的颗粒滤镜分别应用于每个通道。 来源图像（CC0）：https://stocksnap.io/photo/woman-beach-FJCOO6JWDP（来自我之前的文章）

Photoshop 的“颗粒”滤镜添加了均匀的随机噪音；但真正的电影颗粒来自不同大小的卤化物晶体。将该滤镜分别应用于每个通道（见上图）只会产生更多混乱，而不是现实主义。真正的电影颗粒反映了光线在曝光时刻如何照射分层乳剂。模拟需要估计图像的不同区域如何在每个卤化物层中激活，而不是将该效果分割到 RGB 层中。

FGA-NN

在这个有缺陷的追求中，法国有一篇新的研究论文——一个简短但有趣的论文，提供了一种分析和重现颗粒的量化和定性上更好的方法：

各种分析和合成方法之间的真实颗粒和结果的比较。 来源：https://arxiv.org/pdf/2506.14350

该新系统，称为 FGA-NN，并不偏离使用传统的基于高斯的颗粒合成，通过标准的 VVC 兼容方法，通用电影颗粒合成（VFGS）。该系统改变了分析，使用神经网络更准确地估计合成参数

因此，最后的颗粒仍然使用相同的传统高斯模型合成——但网络向标准的基于规则的生成器提供更好的元数据，从而获得了最先进的模型。

这篇新论文的标题是 FGA-NN：电影颗粒分析神经网络，它来自法国塞松塞维涅的三位研究人员。虽然这篇论文不长，但让我们来看看新方法提供的进步的几个关键方面。

方法

总而言之：FGA-NN 系统接受一个有颗粒的视频作为输入，并提取一个紧凑的描述颗粒的参数，输出以标准化的 FGC-SEI 格式编码，用于各种现代编解码器。这些参数与视频一起传输，允许解码器使用 VFGS 重建颗粒，而不是直接编码颗粒。

使用 FGA-NN 进行参数提取和 VFGS 进行合成的电影颗粒分析和重新应用的架构。

为了训练网络，作者需要一对带有颗粒的视频和相应的 FGC-SEI 元数据。由于大多数带有颗粒的片段缺乏此类元数据，研究人员创建了自己的数据集，通过生成 FGC-SEI 参数、将合成颗粒应用于干净的视频，并使用这些作为训练示例。

FGA-NN 的训练数据是通过将合成颗粒应用于来自 BVI-DVC 和 DIV2K 数据集的干净视频创建的。随机生成的 FGC-SEI 参数与 VFGS 合成工具一起使用，使每个带有颗粒的视频都能与已知的元数据配对。

频率模型得到了当前视频标准的支持，并且参数范围被限制在视觉上合理的范围内，适用于明度和色度通道。

FGA-NN 的新数据集是通过将合成颗粒应用于来自 BVI-DVC 和 DIV2K 数据集的干净视频创建的。随机生成的 FGC-SEI 参数与 VFGS 工具一起使用，使每个带有颗粒的视频都能与已知的元数据配对。

用于生成训练中带有颗粒的视频的随机 FGC-SEI 参数范围的概述，应用于来自 BVI-DVC 和 DIV2K 数据集的干净视频。参数被限制在明度和色度通道上具有视觉上合理的结果。

频率过滤模型是唯一当前在编解码器实现（如 VVC 测试模型（VTM））中支持的合成方法，整个过程都使用了该模型。参数范围被限制在明度和色度通道上具有视觉上合理的结果。

网络效应

FGA-NN 采用了两个协调的模型，分别用于明度和色度，各自设计用于预测重现真实电影颗粒所需的特定参数。

对于每个输入图像，该系统估计了一组强度间隔、与每个间隔相关的缩放因子、水平和垂直截止频率，以及称为 Log2Scale 因子的整体缩放调整。为此，模型使用一个共享的特征提取器来处理带有颗粒的输入，并将其输入到四个单独的输出分支中，每个分支负责不同的预测任务：

FGA-NN 明度版本的架构。一个共享的骨干从带有颗粒的输入帧中提取特征，然后是四个输出分支，分别针对特定的参数预测任务：间隔边界、缩放因子、截止频率和全局 Log2Scale。色度网络使用相同的结构，具有调整后的输入和输出维度。

间隔边界使用回归进行预测，而缩放因子、截止频率和全局缩放设置被视为分类问题。

该架构根据每个任务的复杂性进行调整，使用更大的内部层进行更细致的预测；特别是，色度模型镜像明度结构，但适应了色度数据的不同特征。

训练和测试

FGA-NN 使用四个目标函数进行训练，每个函数都与其预测任务之一对齐。对于分类输出，使用交叉熵损失来减少预测标签和真实标签之间的差距。

间隔边界被归一化到 0 到 1 的范围，并使用组合损失进行优化：一个指数缩放的 L1 损失（expL1），该损失更重罚较大的错误，并且具有单调性惩罚，该惩罚阻止向下趋势。所有四个损失都被组合起来，对截止和缩放因子赋予了高权重，而间隔边界和 Log2Scale 分别被赋予权重 1 和 0.1。

训练是在 Adam 优化器下进行的，学习率为 5e-4，迭代 10,000 次，批大小为 64。

唯一适合比较测试的工具是 FGA-CONVENT，它也以 FGC-SEI 格式生成值，并用于颗粒处理。两种系统都在 JVET 主观评估集上进行了测试，使用包含真实电影颗粒的 UHD 序列。

垂直虚线表示强度间隔边界，而 Log2Scale 增益在轴标签中注明。

在上面的图像中，我们看到使用每种方法的参数生成的 VFGS 的相同裁剪帧。它们各自的明度估计也与 VFGS 手动设置的真实值相对照，图中以 0-255 的像素强度（X 轴）、0-255 的缩放因子（蓝色 Y 轴）和 2-14 的截止频率（绿色 Y 轴）进行了绘制。

作者指出：

‘可以观察到 FGA-NN 准确捕捉到了真实电影颗粒模式和幅度的整体趋势，生成的合成图像具有与真实图像相似的电影颗粒感知。’

‘另一方面，FGA-CONVENT 预测了一个较低的缩放因子，并通过一个相应较低的 Log2Scale 因子来补偿，这是其设计的结果，倾向于生成比参考图像更粗糙的电影颗粒模式，导致视觉上一致但不同的外观。’

他们指出，直接比较真实颗粒参数是不可靠的，因为缩放和 Log2Scale 可以相互补偿，且小错误通常对视觉影响很小。

信仰测试

电影颗粒 保真度 在四个工作流中进行了基准测试：FGA-NN 与 VFGS；FGA-CONVENT 加 VFGS；Style-FG；以及 3R-INN。测试使用了 FGC-SEI 和 FilmGrainStyle740k 数据集，使用学习的感知相似度度量（LPIPS）；JSD-NSS；以及 Kullback-Leibler（KL）散度将输出与真实值进行了比较。

在 FilmGrainStyle740k 数据集上的基准结果。Style-FG 和 3R-INN 由于在此数据集上进行了训练，因此表现出色，FGA-NN 紧随其后。FGA-CONVENT 由于依赖于多帧分析和同质区域（在本例中未满足）而表现不佳，这些条件不适用于此处使用的小型、纹理丰富的输入。

关于这些结果，作者指出：

‘在 FilmGrainStyle740k 测试集上，Style-FG 和 3R-INN 获得了最佳结果，因为这些方法是在此数据集上进行了训练的，FGA-NN 紧随其后。FGA-CONVENT 与 VFGS 的性能在两个测试集上都很差。’

‘这仅仅是因为分析依赖于同质区域，并利用了多帧中的信息，在真正的电影颗粒分析用例中，而在当前的评估中，分析仅提供了一个单独的低分辨率图像（256×256 至多 768×512），通常包含大量纹理。’

‘这进一步增加了对传统分析方法的挑战，使得 FGA-CONVENT 无法应用于这样的小图像。’

最后，作者指出，虽然基于学习的方法（如 3R-INN 和 Style-FG）在策划的数据集上产生了强大的视觉结果，但它们的高计算成本使得它们不适合部署在终端设备上。

使用不同分析和合成工作流程增强的低比特率帧的比较（第三列到最后一列）。

相比之下，新论文中提出的方法将轻量级的 FGA-NN 分析模块与硬件高效的 VFGS 合成方法配对，作者将其描述为在压缩视频中重新引入电影颗粒的更可行和可部署的解决方案。

他们进一步指出，FGA-NN 的好处在规模上可能是相当可观的：

‘使用我们的电影颗粒分析和合成工作流程对 UHD 视频进行中等到低比特率的编码，使得比特率节省了多达 90%，相比之下高比特率编码。’

结论

电影颗粒的痴迷是后模拟时代最奇怪和最有趣的迷恋之一，值得注意的是，曾经被认为是媒介的局限性，现在已经成为真实性和真实性的象征，甚至可能是对出生于乳剂衰落之后的新一代观众的潜意识暗示。

应该注意到，包括这项最新创新在内的最先进的颗粒重现方法，无法完全捕捉到光线对真实光化学过程中卤化物层的影响的真正效果，在各种条件下。

首次发表于 2025 年 6 月 18 日星期三