Anderson 视角

将 AI 生成的图像引入 HDR 阵营

发布于 2026年4月26日

更新于 2026年5月16日

作者

Martin Anderson

AI-generated image (GPT-2): 'A mother and daughter take a selfie in a bedroom, with an empty dark closet in one version and a brightly revealed, surprised furry creature inside it in the other.'

AI 图像和视频可能令人印象深刻，但它们尚未达到“专业”标准——一个新的研究项目试图解决这个问题。

在专业音视频社区中，人们经常提出的一个反对 AI 的观点是，当前缺乏专业标准的图像和视频复制。其中最重要的标准之一就是能够处理高动态范围（HDR）图像和视频。

HDR 图像是 19 世纪和 20 世纪摄影中的一种称为“Bracketing”的技术的现代等价物，即同一张图片被多次拍摄，每次允许更多的光线照射到胶片上：

上面是一个短的 Bracketed 序列。在下面的插图中，从这些照片中可以推断出高动态范围。 来源

在传统摄影中，这会产生多张图片，可以通过一些专业知识和努力，将它们合成一张单独的照片，利用所有不同曝光级别的细节。但这并不是一个简单的过程。

这些天来，一个“自动 Bracketed”图像序列可以产生多张图像或合并成一个单独的 HDR 图像——基本上是一个多曝光图像，HDR 能够的图像编辑应用程序（如 Photoshop）可以迭代处理，并允许摄影师编排成一个理想的输出图像。

如果您想知道为什么您应该关心这个问题，或者它如何影响您的摄影，这篇文章的插图旨在以一种熟悉的方式演示这一点：

上面左边，我们看到一个典型的 sRGB（即非 HDR）图像。仅仅通过亮化（如右图所示），它并不能显示出衣柜里的怪物，因为这些细节在拍摄时被抛弃了，因为摄影师和相机的自动化过程决定了照片的优先级：

下面是非 HDR 照片中前景如何变得“过曝”以注册衣柜怪物的指示（左），以及当曝光适合明亮的前景物体时，怪物如何陷入黑暗（右）：

下面，我们看到可以从 HDR 图像或图像序列中“恢复”的细节。在这种情况下，怪物隐藏在 HDR 序列的最低可视寄存器中，在其他内容会被“吹出”到近白色的水平。通过选择性地在同一图像中表达一系列亮度级别，这些不和谐的元素可以被组合成一个合理的图像：

非 HDR 图像被称为“显示引用的图像”，而高色域 HDR 图像被称为“场景引用的图像”。

HDR 视频也是如此，这种色调的灵活性和可塑性为电影制作者提供了很多创作自由；因此，创作者不愿意使用大多数生成性 AI 框架的典型 sRGB 输出。

AI 中的 HDR

自然地，研究界对将 AI 生成框架引入 HDR 时代感兴趣。然而，这并不是一项简单的任务，既是因为基于扩散的生成系统的基本架构，也是因为良好的 HDR 数据需要大量的磁盘空间，使得数据集变得笨重；因此，适合此任务的数据集很少见。

尽管如此，新加坡一所大学和 Adobe 研究院之间的合作提出了生成 HDR 图像序列的方法，这种方法可以从理论上应用于视频和静态图像：

来自新项目的网站，文本到图像的“Bracketed”输出示例。 来源

新系统生成同一图像的多个版本，每个版本具有不同的亮度级别，并学习场景的实际亮度，然后将这些版本组合成一个结果，保留阴影和高光中的细节，允许后续的曝光或颜色调整像对真实相机捕获的图像一样进行，而不是对完全处理后的图像进行脆弱的调整。

该系统利用多种模型来完成这项任务，包括 Qwen 和 Flux 的变体：

来自新论文的示例，展示系统如何生成同一场景的多个曝光版本，同时保持底层结构不变。从简单的边缘地图开始，模型在从非常暗到非常亮的设置中生成一致的图像，无论提示描述的是月光、阳光、日落，甚至是一个小物体，如气球，主题和构图保持稳定，仅光照发生变化。该方法可以以受控的、类似相机的方式调整亮度，而不是随着曝光的变化而漂移或创造新内容。来源

作者们指出：

‘生成线性图像是具有挑战性的，因为预训练的 VAE 在潜在扩散模型中难以同时保留极端高光和阴影，这是由于更高的动态范围和比特深度造成的。

‘为此，我们将线性图像表示为一系列曝光 Bracket，每个 Bracket 捕获动态范围的特定部分，并提出了一种基于流的架构用于文本条件曝光 Bracket 生成。

‘我们进一步展示了下游应用，包括文本引导的线性图像编辑和通过 ControlNet 进行结构条件生成。

新工作的标题为 通过合成曝光 Bracket 生成线性图像，来自新加坡南洋理工大学的 S-Lab、Adobe NextCam 和 Adobe 研究院的四位作者。除了随发布的 YouTube 视频和项目页面外，还有一个当前空白的 GitHub 仓库和数据集发布的承诺。

虽然作者在相关项目页面上提供了系统输出的许多示例，但读者需要 HDR 能力的显示器才能真正区分所呈现的 HDR 输出的特征。然而，请在本文末找到研究人员的 YouTube 概述 – 但请注意，示例之间的差异在非 HDR 显示器上可能不明显。

方法和数据

作者们强调了数据收集在这项追求中的重要性：

‘在实践中，获取大量线性图像是极具挑战性的。另外，大多数公共 HDR 数据集要么是全景的（因此几乎专注于大规模场景内容），要么不提供真正的线性图像，因此不适合我们的目的。

‘因此，我们主要使用 RAW 图像数据集作为训练的基础。

研究人员利用现有的选项，利用 RAISE 数据集作为实际训练数据，并使用 MIT-Adobe FiveK 数据集作为评估数据*。

为了构建可用的 HDR 训练数据，研究人员将 RAW 相机文件通过标准化管道处理，以去除相机特有的怪癖，将图像转换为一致的、线性、场景引用的格式：

作者的工作流程图：系统从表示场景四个曝光级别的噪音开始，伴随着文本提示和亮度令牌，并通过保持不同曝光级别对齐的叠加变换器块进行处理。然后，它预测曝光图像集以及整体亮度尺度，并随后解码和合并它们成一个单独的场景引用的图像，保留阴影和高光中的细节。

这涉及从传感器数据中重建完整的 RGB，从中应用色彩校正，规范化白平衡，并在返回清晰线性信号之前暂时进入感知色彩空间进行降噪。然后，使用相机的曝光设置恢复场景中的实际光照，以便每个像素反映真实的亮度，而不是显示就绪的近似值。

由于这些值可能会有很大差异，因此数据然后通过根据每个图像的亮度分布进行缩放来稳定，使用中间值和高光统计来避免同时出现过曝图像和高光溢出，最后获得一个归一化的线性图像，该图像保留了场景中真实的亮度范围，同时保持足够的稳定性以供训练。

然后使用 Qwen2.5-VL 7B 模型为图像创建文本标签，提示是为将在生成时使用的 Flux 模型的特性而设计的。

每个图像被分成曝光“切片”，并通过共享的 VAE 编码器传递，将所有曝光转换为共同的潜在空间，旨在捕获整个亮度范围。潜在空间然后从噪音中精炼并解码回图像，允许在暗区和亮区的一致重构，而不会将它们折叠成一个单一的“扁平化”曝光。

LoRA 微调用于将预训练的 Flux 主干适应于线性图像数据，使用最少的额外参数，有助于单一扩散变换器（single-DiT）模型保持稳定，即使亮度在曝光 Bracket 中变化。

引入了曝光调制自注意力（上述示意图中的中心列），以联合处理所有 Bracket，允许在保持结构和细节对齐的同时根据曝光调整亮度。

使用 3D 旋转位置嵌入（3D-R[o]PE）来编码空间位置和曝光身份，以便模型可以区分每个令牌属于哪个 Bracket，同时保持空间的一致性，实现亮度变化与场景内容的清晰分离。

研究中使用的数据集概述，显示图像在内容类型和室内与室外场景方面的分布，以及处理数据中的亮度值的分布。直方图以对数空间绘制了亮度和辐射度，说明了真实世界亮度的广泛变化，较高的辐射度值对应于物理上更亮的场景，并突出了模型训练的强动态范围。

3D-RoPE 将“特征位于哪里”和“它来自哪个曝光”分成单独的信号，以便可以独立调整亮度变化，而不会损害空间细节。

测试

研究人员使用 Flux-dev 作为生成框架，在四个 NVIDIA A100 GPU 上进行训练，每个 GPU 有 80GB 的 VRAM。批大小设置为每个 GPU 4，经过 10,000 次迭代。

LoRA 微调使用了 64 的秩。AdamW 优化器以 2×10² 的学习率使用（对于曝光调制方面）。

作者指出，虽然有两项与本研究范围类似的先前工作，但没有一项是测试阶段的明显候选者。由 Max Planck 领导的 2022 年 GlowGAN 仅限于生成特定图像类别，而 2025 年由 Max Planck研究所领导的 Bracket Diffusion 可以在 256x256px 下生成 HDR 图像，但需要几分钟时间。

来自原始 GlowGAN 论文的典型低动态范围（LDR）图像会丢失阴影和高光中的细节，而模型会学习生成高动态范围（HDR）版本，这些版本保留了亮度水平和饱和区域的细节，并通过逆色调映射实现这些区域的恢复。来源

因此，在没有直接基准用于线性图像生成的情况下，作者将他们的方法与现有模型的改编版本进行了比较，而不是专门为此目的而设计的替代模型。

一组实验（“T2I Fine-Tuning”）对使用 LoRA 进行微调的文本到图像扩散模型 Flux 进行了微调，以直接生成线性图像，并评估了一个最先进的 T2I 模型如何适应该领域。

第二个比较（“T2V Fine-Tuning”）使用了文本到视频模型 Wan 2.1，其 VAE 将多个帧压缩到一个共享的潜在表示中；在这种设置中，四个曝光 Bracket 被编码到一个单独的潜在表示中，然后解码回去，测试视频样式的管道是否可以建模曝光变化。

第三组实验（“T2I Model Inflation”）将其与 CameraCtrl 和 Generative Photography 进行了比较，这两种方法通过时间模块扩展了图像扩散模型，以产生多帧输出。这些也在相同的数据上进行了微调，以进行一致的比较。

使用的指标包括 Fréchet Inception Distance（FID）；美观度评分（AS）；自然图像质量评估器（NIQUE）；CLIP Sim 评分；和亮度相似度（LS）：

作者方法与几个适应的基准的比较，用于生成线性、场景引用的图像。文本到图像（Flux）和文本到视频（Wan 2.1）模型使用 LoRA 进行微调，以测试现有生成系统如何处理此设置，而 CameraCtrl 和 Generative Photography 扩展了扩散模型的时间组件。一些分数缺失，因为某些模型无法可靠地产生一致的曝光 Bracket，这对于恢复全动态范围是必需的。报告的指标中，新方法在图像质量和准确的亮度重建相关的衡量标准上实现了最强的整体结果。

关于这些结果，作者指出：

‘直接在线性数据上微调 T2I 模型使得平衡阴影和高光细节变得困难。T2I 模型膨胀方法在微调后不仅动态范围有限，而且图像质量明显下降。

‘对于 T2V 微调，Wan 2.1 的 4 倍时间下采样将 4 个曝光 Bracket 纠缠在一个潜在表示中，导致无法仅通过微调来解决的严重分布不匹配。

‘通过使用曝光 Bracket 直接建模场景引用的属性，我们的方法在所有基准上实现了更好的视觉质量和动态范围。