人工智能

Zero123++：单图像到一致的多视图扩散基模型

发布于 2023年11月15日

更新于 2026年5月15日

作者

Kunal Kejriwal

过去几年，新兴的AI生成模型的性能、效率和生成能力有了迅速的进步，这些模型利用了大量的数据集和2D扩散生成技术。今天，生成式AI模型能够生成各种形式的2D和3D媒体内容，包括文本、图像、视频、GIF等。

在本文中，我们将讨论Zero123++框架，这是一个图像条件扩散生成式AI模型，旨在使用单个视图输入生成3D一致的多视图图像。为了最大限度地利用预训练生成模型的优势，Zero123++框架实现了多种训练和条件方案，以最小化从现成的扩散图像模型中微调的努力。我们将深入探讨Zero123++框架的架构、工作原理和结果，并分析其生成高质量一致多视图图像的能力。

Zero123和Zero123++：介绍

Zero123++框架是一个图像条件扩散生成式AI模型，旨在使用单个视图输入生成3D一致的多视图图像。Zero123++框架是Zero123或Zero-1-to-3框架的延续，后者利用零拍照新视图图像合成技术开创了开源单图像到3D转换。虽然Zero123++框架具有良好的性能，但其生成的图像具有明显的几何不一致性，这是3D场景和多视图图像之间仍然存在差距的主要原因。

Zero-1-to-3框架为其他框架提供了基础，包括SyncDreamer、One-2-3-45、Consistent123等，这些框架在Zero123框架上添加了额外的层以获得更一致的结果。其他框架，如ProlificDreamer、DreamFusion、DreamGaussian等，遵循优化方法来获得3D图像，通过从各种不一致的模型中提取3D图像。虽然这些技术是有效的，并且能够生成令人满意的3D图像，但结果可以通过实现能够一致生成多视图图像的基扩散模型来改进。因此，Zero123++框架以Zero-1-to-3为基础，并对Stable Diffusion进行了微调，以获得新的多视图基扩散模型。

在Zero-1-to-3框架中，每个新视图都是独立生成的，这种方法导致了生成的视图之间的不一致性。为了解决这个问题，Zero123++框架采用了一个平铺布局方法，即将对象用六个视图包围成一个单一的图像，并确保正确地对对象的多视图图像进行联合建模。

Zero-1-to-3框架面临的另一个重大挑战是，它不能充分利用Stable Diffusion提供的能力，这最终导致了低效率和增加的成本。有两个主要原因导致Zero-1-to-3框架不能充分利用Stable Diffusion的能力：

在训练过程中，Zero-1-to-3框架没有有效地结合Stable Diffusion提供的局部或全局条件机制。
在训练过程中，Zero-1-to-3框架使用了降低分辨率的方法，即输出分辨率低于训练分辨率，这可能会降低Stable Diffusion模型的图像生成质量。

为了解决这些问题，Zero123++框架实现了一系列的条件技术，以最大限度地利用Stable Diffusion提供的资源，并保持Stable Diffusion模型的图像生成质量。

改进条件和一致性

为了改进图像条件和多视图图像的一致性，Zero123++框架实现了不同的技术，主要目标是重用来自预训练Stable Diffusion模型的先前技术。

多视图生成

生成一致的多视图图像的关键在于正确地对多个图像的联合分布进行建模。在Zero-1-to-3框架中，多视图图像之间的相关性被忽略，因为对于每个图像，框架独立地对条件边缘分布进行建模。然而，在Zero123++框架中，开发人员选择了一个平铺布局方法，即将六个图像平铺成一个单一的图像，以实现一致的多视图生成，以下图所示。

此外，人们发现对象的方向在训练模型时会变得模糊，以避免这种模糊，Zero-1-to-3框架在相机姿势上进行训练，使用相对于输入的仰角和方位角。为了实现这一方法，需要知道输入视图的仰角，这然后被用来确定新视图之间的相对姿势。为了知道这个仰角，框架通常会添加一个仰角估计模块，这种方法通常会带来额外的错误。

噪声调度

Stable Diffusion的原始噪声调度，即比例线性调度，主要关注局部细节，但如以下图所示，它具有较低的信噪比（SNR）的步骤。

这些低信噪比的步骤发生在去噪阶段的早期，这一阶段对于确定全局低频结构至关重要。减少去噪阶段的步骤，无论是在干预还是训练过程中，通常会导致更大的结构变化。虽然这种设置对于单图像生成是理想的，但它限制了框架确保不同视图之间的一致性的能力。为了克服这个障碍，Zero123++框架对Stable Diffusion 2 v-prediction框架进行了微调，以执行一个玩具任务，结果如下所示。

使用比例线性噪声调度，LoRA模型不会过拟合，只是稍微漂白了图像。相反，当使用线性噪声调度时，LoRA框架可以成功地生成空白图像，无论输入提示如何，这表明噪声调度对框架适应新要求的全局能力的影响。

局部条件的缩放参考注意力

在Zero-1-to-3框架中，单视图输入或条件图像在特征维度上与噪声输入连接，以进行图像条件。

这种连接导致目标图像和输入之间的像素级空间对应关系不正确。为了提供适当的局部条件输入，Zero123++框架使用了一个缩放参考注意力方法，即在参考图像上运行一个去噪UNet模型，然后将参考图像的值矩阵和自注意力键追加到模型输入的注意力层中，当模型输入被去噪时，如下图所示。

参考注意力方法能够指导扩散模型生成具有类似纹理的图像和语义内容，而无需微调。通过微调，参考注意力方法可以实现更好的结果，潜在的缩放。

全局条件：FlexDiffuse

在原始Stable Diffusion方法中，文本嵌入是全局嵌入的唯一来源，该方法使用CLIP框架作为文本编码器来执行文本嵌入和模型潜在变量之间的交叉检查。因此，开发人员可以使用文本空间和CLIP图像之间的对齐来使用全局图像条件。

Zero123++框架提议使用可训练的线性指导机制的变体来将全局图像条件纳入框架中，需要最小的微调，如下图所示。如图所示，没有全局图像条件，框架生成的内容质量在输入图像对应的可见区域是令人满意的。然而，对于不可见区域，生成的图像质量明显恶化，这主要是由于模型无法推断对象的全局语义。

模型架构

Zero123++框架使用Stable Diffusion 2v模型作为基础，使用本文中提到的不同方法和技术进行训练。Zero123++框架在Objaverse数据集上预训练，该数据集使用随机HDRI照明进行渲染。框架还采用了Stable Diffusion Image Variations框架中使用的分阶段训练计划方法，以进一步最小化所需的微调量，并保留尽可能多的先前Stable Diffusion模型。

Zero123++框架的工作或架构可以进一步分为顺序步骤或阶段。第一阶段，框架使用AdamW作为优化器，1000个热身步骤和余弦学习率计划，最大化7×10^-5。在第二阶段，框架采用高度保守的恒定学习率，2000个热身集，并采用Min-SNR方法来最大化训练效率。

Zero123++：结果和性能比较

定性性能

为了评估Zero123++框架的质量生成性能，它被与SyncDreamer和Zero-1-to-3-XL进行比较，后者是内容生成的最先进的框架。这些框架被比较在四个具有不同范围的输入图像上。第一张图像是来自Objaverse数据集的电动玩具猫，具有大不确定性。第二张图像是消防器的图像，第三张图像是SDXL模型生成的狗坐在火箭上的图像。最后一张图像是动漫插图。所需的仰角步骤是使用One-2-3-4-5框架的仰角估计方法获得的，背景去除是使用SAM框架获得的。如图所示，Zero123++框架生成了高质量的一致多视图图像，并且能够很好地推广到2D插图和AI生成图像。

定量分析

为了定量地比较Zero123++框架与最先进的Zero-1-to-3和Zero-1-to-3 XL框架，开发人员评估了这些模型在验证集数据上的学习感知图像补丁相似度（LPIPS）得分，验证集数据是Objaverse数据集的一个子集。为了评估模型的多视图图像生成性能，开发人员将地面真实参考图像和6个生成图像分别平铺，然后计算LPIPS得分。结果如下图所示，Zero123++框架在验证集上实现了最佳性能。

文本到多视图评估

为了评估Zero123++框架在文本到多视图内容生成方面的能力，开发人员首先使用SDXL框架和文本提示生成图像，然后使用Zero123++框架对生成的图像进行处理。结果如下图所示，与Zero-1-to-3框架相比，后者无法保证一致的多视图生成，Zero123++框架通过实现文本到图像到多视图方法或管道返回了一致、逼真和详细的多视图图像。

Zero123++深度控制网

除了基础的Zero123++框架外，开发人员还发布了深度控制网Zero123++，这是一个使用ControlNet架构构建的深度控制版本的原始框架。归一化的线性图像根据后续的RGB图像渲染，并训练一个ControlNet框架来使用深度感知控制Zero123++框架的几何形状。

结论

在本文中，我们讨论了Zero123++，一个图像条件扩散生成式AI模型，旨在使用单个视图输入生成3D一致的多视图图像。为了最大限度地利用预训练生成模型的优势，Zero123++框架实现了多种训练和条件方案，以最小化从现成的扩散图像模型中微调的努力。我们还讨论了Zero123++框架实现的不同方法和增强，以帮助其实现与当前最先进框架相当甚至超过的结果。

然而，尽管其效率和生成高质量一致多视图图像的能力，Zero123++框架仍然有一些改进的余地，潜在的研究领域包括一个可能解决Zero123++无法满足一致性全局要求的两阶段精炼模型，以及进一步增强Zero123++生成更高质量图像的能力的额外扩展。

两阶段精炼模型可能解决Zero123++无法满足一致性全局要求的问题。
额外扩展进一步增强Zero123++生成更高质量图像的能力。