安德森的角度

利用人工智能模拟胶片颗粒

发布时间 2025 年 6 月 18 日

马丁安德森

《大白鲨》（1976 年）中不同的颗粒度 – 来源：https://ipolcore.ipol.im/demo/clientApp/demo.html?id=192 和 https://www.britannica.com/topic/Jaws-film-by-Spielberg

让美国重现颗粒感：一款全新 AI 工具可以去除旧素材中的胶片颗粒，将视频压缩至极小的尺寸，然后再将颗粒感还原，让观众几乎察觉不到。它兼容现有视频标准，可节省高达 90% 的带宽，同时保留复古的画面质感。

对于我们许多观看电影或老电视节目的人来说，胶片颗粒的“嘶嘶声”令人安心；即使我们没有意识到，颗粒也会告诉我们，我们所看到的东西是用化学物质而不是代码制作的，并将这种体验与物理世界联系起来：与库存选择、曝光、实验室流程和过去的时代联系起来：

随着文化和制作方式的变迁，好莱坞对颗粒感的处理方式也随之转变。1960世纪1980年代，不断发展的胶片和摄影技术塑造了这十年独特的视觉形象。后来，数码电影的导演开始刻意地重新引入颗粒感。1986世纪3年代中期，导演詹姆斯·卡梅隆为拍摄《异形》（XNUMX年，上图右下角）选择了特别粗糙的柯达胶片，这可能是为了增强氛围，同时也有助于隐藏实际视觉特效微缩模型中的线路。来源：https://archive.is/XNUMXZSjN（我最近关于这个主题的文章）

随着文化和制作方式的变迁，好莱坞对颗粒感的处理方式也随之转变。1960世纪1980年代，不断发展的胶片和摄影技术塑造了这十年独特的视觉形象。后来，从事数码摄影的导演开始刻意地重新引入颗粒感。1986世纪XNUMX年代中期，导演詹姆斯·卡梅隆为拍摄《异形》（XNUMX年，上图右下角）选择了特别粗糙的柯达胶片，这可能是为了增强氛围，同时也有助于隐藏实际视觉特效微缩模型中的线路。来源：https://archive.is/3ZSjN（我自己关于这个主题的最新文章）

模拟纹理诞生于这样一个时代：制作媒体需要花费真金白银，获取渠道受到限制，人们至少有一种模糊的认识：只有最有能力或最有决心的人才能获得成功，这成为现实主义和可信度的象征——而当高分辨率捕捉技术将其淘汰时，怀旧.

克里斯托弗·诺兰从未切换虽然大多数电影行业都因为速度和灵活性而接受数字技术，但这位广受好评的导演却坚持使用胶片，因为它既是纪律和审美.

丹尼斯·维伦纽瓦完全在数字流程中工作，仍然通过光化学过程解析他的镜头。对于 Dune 电影，以数字方式拍摄，镜头被印在胶片上，然后扫描回数字版，纯粹是为了营造气氛和效果。

假谷物

电影和电视画质爱好者将可见的颗粒感与高分辨率联系在一起，而比特率（推送到每一帧的数据量）非常高，以至于即使是最小的细节，例如卤化物颗粒，也能被保留下来。

然而，如果流媒体网络真的能提供这种比特率，就会给网络容量带来巨大压力，并可能导致缓冲和卡顿。因此，像 Netflix 这样的平台创建优化的 AV1 版本其内容并使用 AV1 编解码器的添加谷物的能力以一种聪明而恰当的方式融入电影或剧集，节省30%的带宽在这个过程中。

AV1 的设计旨在融入人工胶片颗粒，例如以下示例。来源：https://waveletbeam.com/index.php/av1-film-grain-chemistry

AV1 的设计旨在融入人造胶片颗粒，如这些示例所示。 资料来源：https://waveletbeam.com/index.php/av1-film-grain-chemistry

“颗粒迷恋”是一种相对罕见的数字等同于黑胶唱片复兴等返祖趋势的技术，很难说流媒体是否使用它来使高度优化的视频看起来像非常昂贵的“原始视频”（对于那些无意识地将这些特征联系起来的观众来说），从而使比特率看起来比实际更高；或者是为了转移旧的 4:3 节目在流媒体提供商将它们裁剪为宽屏宽高比；或者仅仅是为了迎合复古的“诺兰美学”。

谷物筒仓

问题在于，颗粒感也是一种噪音。数字系统讨厌噪音，像 AV1 这样的流媒体编解码器会消除噪音以节省带宽，除非明确配置了颗粒感设置。同样 AI 升级器例如 Topaz Gigapixel 系列将颗粒视为需要纠正的缺陷。

在基于扩散的图像合成领域，颗粒的生成极具挑战性，因为它代表 极其详细，因此通常只会出现在大量过拟合模型，因为整个潜在扩散模型（LDM）架构是旨在解构噪音（例如颗粒）变成清晰的图像，而不是将颗粒斑点视为介质中的隐含属性。

因此，利用机器学习创建令人信服的颗粒感可能颇具挑战性。即使能够做到，直接渲染成优化后的视频也只会让视频文件体积再次膨胀。

由于后者的后勤考虑，最先进的视频编解码器，如多功能视频编码（VVC）提供谷物作为一种“边车”服务。

VVC 压缩干净、去噪的视频并丢弃颗粒。它不会浪费数据试图保留随机的高频颗粒模式，而是分析颗粒另并编码一小组参数（例如振幅、频率和混合模式），描述如何在播放过程中重新生成类似的颗粒。

这些参数存储在 FGC-SEI （胶片颗粒特性补充增强信息）流，与主比特流并行。解码后，合成模块使用这些指令重新应用模拟原始颗粒的合成颗粒。

这样既保留了高比特率、颗粒丰富的乳剂的“外观”，又保持了实际比特率较低，因为编码器不必花费资源来保留不可预测的噪声。

此外，与离散字幕文件一样，这种人造“颗粒”内容特定于所讨论的视频；在 Photoshop 或 After Effects 等平台或自动处理流程中随意应用通用颗粒滤镜，不会产生“拟合”的颗粒，而会产生不相关的噪声叠加：

左图：原始图像。中图：Photoshop Camera Raw 颗粒效果在所有通道均匀应用。右图：同一颗粒滤镜按顺序分别应用于每个通道。源图像 (CC0)：https://stocksnap.io/photo/woman-beach-FJCOO6JWDP（来自我之前的文章）

左图：原始图像。中图：Photoshop Camera Raw 颗粒效果在所有通道上均匀应用。右图：相同的颗粒滤镜按顺序分别应用于每个通道。 源图像（CC0）：https://stocksnap.io/photo/woman-beach-FJCOO6JWDP（来自我自己之前的文章）

Photoshop 的“颗粒”滤镜添加了均匀的随机噪声；但真正的胶片颗粒来自不同大小的卤化物晶体。将滤镜分别应用于每个通道（见上图）只会造成更多混乱，而非真实感。真正的胶片颗粒反映的是光线如何照射到分层乳剂上。 在曝光的那一刻模拟需要估计图像的不同区域如何激活每个卤化物层，而不仅仅是将效果分裂到 RGB 层。

模糊遗传算法

法国的一篇新研究论文提出了这一似是而非的追求——它简短而有趣，提供了一种定量和定性分析和再造谷物的更优越的方法：

真实纹理与各种分析和合成方法结果的比较。来源：https://arxiv.org/pdf/2506.14350

地面真实颗粒与各种分析和合成方法的结果之间的比较。 来源：https://arxiv.org/pdf/2506.14350

新系统名为 模糊遗传算法，并不脱离传统的使用基于高斯的颗粒合成通过标准 VVC 兼容方法，多功能胶片颗粒合成（VFGS）。系统改变的是分析，利用神经网络更准确地估计合成参数

因此，最终的颗粒仍然使用相同的传统高斯模型来合成 - 但网络将更好的元数据输入到标准的基于规则的生成器中，从而获得最先进的模型。

此新文标题为 FGA-NN：胶片颗粒分析神经网络，由位于塞松-塞维涅的InterDigital研发中心的三位研究人员完成。虽然这篇论文不长，但让我们来看一下这种新方法带来的一些关键进展。

付款方式

回顾一下：FGA-NN 系统以颗粒状视频作为输入，提取颗粒的简洁描述，并以各种现代编解码器所使用的标准化 FGC-SEI 格式输出参数。这些参数与视频一起传输，使解码器能够使用 VFGS 重建颗粒，而无需直接对颗粒进行编码。

在视频分发中分析和重新应用胶片颗粒的方案，使用 FGA-NN 进行参数提取并使用 VFGS 进行合成。

为了训练网络，作者需要成对的颗粒状视频和相应的 FGC-SEI 元数据。由于大多数颗粒状素材缺乏此类元数据，研究人员通过生成 FGC-SEI 参数、将合成颗粒效果应用于清晰视频，并将其用作训练样本，创建了自己的数据集。

FGA-NN 的训练数据是通过将合成颗粒应用于英属维尔京群岛-DVC 以及 DIV2K 数据集。生成随机 FGC-SEI 参数并将其与 VFGS 合成工具一起使用，从而允许每个颗粒状视频与已知元数据配对。

使用了当前视频标准支持的基于频率的模型，并限制参数范围以保持亮度和色度通道的视觉可信度。

新系列的训练数据是通过对来自英属维尔京群岛-DVC 以及 DIV2K 数据集。生成随机 FGC-SEI 参数并将其与多功能胶片颗粒合成 (VFGS) 工具一起使用，从而允许将每个颗粒状视频与已知元数据配对。

用于生成训练合成颗粒的随机 FGC-SEI 参数范围概览，应用于 BVI-DVC 和 DIV2K 数据集的干净素材。参数受到限制，以确保在亮度和色度通道上获得合理的视觉效果。

频率滤波模型是目前编解码器实现中唯一支持的合成方法，例如 VVC 测试模型（VTM）在整个过程中被使用。参数范围受到限制，以保持两者的视觉合理性亮度和色度通道。

网络效应

FGA-NN 具有两个协调模型，分别用于亮度和色度，每个模型都用于预测重建真实胶片颗粒所需的特定参数。

对于每张输入图像，系统都会估算一组强度区间、与每个区间相关的缩放因子、水平和垂直截止频率，以及称为 Log2Scale 因子的整体缩放调整。为了解决这个问题，该模型使用一个共享特征提取器来处理颗粒状输入，并将其馈送到四个独立的输出分支，每个分支负责不同的预测任务：

FGA-NN 亮度版的架构。共享主干网络从颗粒状输入帧中提取特征，然后是四个针对特定参数预测任务定制的输出分支：区间边界、缩放因子、截止频率和全局 Log2Scale。色度网络采用相同的结构，但调整了输入和输出维度。

区间边界预测使用回归，而缩放因子、截止频率和全局尺度设置被视为分类问题.

该架构经过调整以反映每个任务的复杂性，使用更大的内部层进行更细粒度的预测；具体来说，色度模型反映了亮度结构，但适应了颜色数据的不同特性。

训练和测试

FGA-NN 使用四个目标函数进行训练，每个目标函数对应一个预测任务。对于分类输出，交叉熵损失用于减少预测标签和基本事实之间的差距。

区间边界被标准化为 0 到 1 的范围，并使用组合损失进行优化：指数缩放 L1 离（expL1）对较大的错误惩罚更严厉，并且单调性惩罚这抑制了下降趋势。所有四个损失被合并，并赋予截止因子和缩放因子较高的权重，而区间边界和对数2尺度权重分别为1和0.1。

培训是在 Adam 优化器，学习率 5e-4，经过 10,000 次迭代，批量大小 64。

唯一适合进行比较测试的可比工具是 FGA-修道院，它也能生成 FGC-SEI 格式的值，并用于颗粒处理。这两个系统都针对来自 JVET主观评价集，使用包含真实胶片颗粒的素材。

垂直虚线表示强度间隔边界，而 Log2Scale 增益则在轴标签中注明。

在上图中，我们看到了使用 VFGS 算法，使用每种方法的参数生成的相同裁剪帧，并与原始帧进行了比较。它们各自的亮度估计值也与使用 VFGS 手动设置的真实值进行了对比，此处 X 轴（0-255）表示像素强度，蓝色 Y 轴（0-255）表示缩放因子，绿色 Y 轴（2-14）表示截止频率。

作者指出：

“我们可以观察到，FGA-NN 准确地捕捉到了真实胶片颗粒模式和振幅的总体趋势，从而合成出的图像在感知上与真实胶片颗粒相似。

“另一方面，FGA-CONVENT 预测的缩放因子较低，由于其设计，相应较低的 Log2Scale 因子会进行补偿，并且倾向于生成比参考更粗糙的胶片颗粒图案，从而产生独特但视觉上一致的外观。”

他们指出，直接与地面真实粒度参数进行比较是不可靠的，因为缩放和 Log2Scale 可以相互补偿，并且微小的错误通常对视觉影响不大。

信心的考验

颗粒膜 保真度 在四个工作流程中进行了基准测试：带有 VFGS 的 FGA-NN；FGA-CONVENT 加 VFGS；风格-FG;和 3R-INN. 测试使用了 FGC-SEI 和胶片颗粒风格740k 数据集，使用以下方法将输出与真实值进行比较学习感知相似性度量（低密度聚乙烯保护系统）； JSD-NSS;和库尔巴克-莱布勒（KL）散度。

在 FilmGrainStyle740k 数据集上的基准测试结果。由于在该数据集上进行训练，Style-FG 和 3R-INN 的表现优于其他模型，FGA-NN 紧随其后。FGA-CONVENT 的表现不佳，这反映了其对多帧分析和同质区域的依赖——而本例中使用的小尺寸、纹理丰富的输入无法满足这些条件。

在 FilmGrainStyle740k 数据集上的基准测试结果。由于在该数据集上进行训练，Style-FG 和 3R-INN 的表现优于其他模型，FGA-NN 紧随其后。FGA-CONVENT 表现不佳，这反映了其对多帧分析和同质区域的依赖——而本例中使用的小规模、纹理丰富的输入无法满足这些条件。

对于这些结果，作者指出：

在 FilmGrainStyle740k 测试集上，Style-FG 和 3R-INN 取得了最佳效果，因为这些方法是专门针对该数据集训练的，而 FGA-NN 紧随其后。FGA-CONVENT 与 VFGS 结合使用时，在两个测试集上的性能均未达标。

“这完全是因为分析依赖于同质区域，并利用真实胶片颗粒分析用例中的多帧信息，而目前的评估分析提供的是单个低分辨率图像（256×256 到最大 768×512），其中通常包含显著的纹理。

“这进一步增加了传统分析方法面临的挑战，使得 FGA-CONVENT 无法应用于如此小的图像。”

最后，作者指出，虽然基于学习的方法（例如 3R-INN 和 Style-FG）在精选数据集上产生了强大的视觉效果，但它们的高计算成本使得它们不适合部署在最终用户设备上。