人工智能

Dreamcraft3D：具有引导式扩散先验的分层 3D 生成

Published November 16, 2023

Updated April 4, 2026

Kunal Kejriwal

生成式 AI 模型已经成为 AI 行业讨论的热点。2D 生成模型的最近成功为我们今天创建视觉内容的方法铺平了道路。虽然 AI 社区在 2D 生成模型方面取得了显著的成功，但生成 3D 内容仍然是深度生成式 AI 框架面临的重大挑战。这尤其正确，因为 3D 生成内容的需求达到历史新高，推动这一趋势的因素包括广泛的视觉游戏、应用程序、虚拟现实，甚至电影。值得注意的是，虽然有一些 3D 生成式 AI 框架可以为某些类别和任务提供可接受的结果，但它们无法高效地生成 3D 对象。这一缺陷可以归因于训练这些框架所需的广泛 3D 数据的缺乏。最近，开发人员提出了利用预训练的文本到图像 AI 生成模型提供的指导，这种方法已经显示出有希望的结果。

在本文中，我们将讨论 DreamCraft3D 框架，这是一个用于生成 3D 内容的分层模型，能够产生连贯且高保真度的 3D 对象。DreamCraft3D 框架使用 2D 参考图像来指导几何雕刻阶段，并通过关注一致性问题来增强纹理，这些问题是当前框架或方法所面临的。另外，DreamCraft3D 框架采用了视图相关的扩散模型进行评分蒸馏采样，有助于雕刻出有助于连贯渲染的几何形状。

我们将更深入地探讨 DreamCraft3D 框架用于 3D 内容生成的方法。另外，我们将探索利用预训练的文本到图像（T2I）模型进行 3D 内容生成的概念，并检查 DreamCraft3D 框架如何利用这种方法生成真实的 3D 内容。

DreamCraft3D：介绍

DreamCraft3D 是一个用于生成 3D 内容的分层流水线。DreamCraft3D 框架尝试利用最先进的 T2I 或文本到图像生成框架来创建高质量的 2D 图像，使用文本提示。这种方法允许 DreamCraft3D 框架最大限度地发挥最先进的 2D 扩散模型的能力，以表示文本提示中描述的视觉语义，同时保留这些 2D AI 生成框架提供的创造自由。然后使用级联的几何纹理增强和几何雕刻阶段将生成的图像提升到 3D，并在每个阶段应用专门的技术，借助于问题的分解。

对于几何形状，DreamCraft3D 框架专注于全局 3D 结构和多视图一致性，因此为图像中的详细纹理留出了妥协的空间。一旦框架解决了几何相关的问题，它就将重点转向通过实施 3D 感知的扩散来优化连贯和真实的纹理，这种扩散可以启动 3D 优化方法。几何雕刻和纹理增强的两个优化阶段有两个关键的设计考虑因素。

总之，可以将 DreamCraft3D 描述为一个利用分层 3D 内容生成流水线的 AI 生成框架，基本上将 2D 图像转换为其 3D 对应物，同时保持整体 3D 一致性。

利用预训练的 T2I 或文本到图像模型

利用预训练的 T2I 或文本到图像模型生成 3D 内容的想法首先由 DreamFusion 框架在 2022 年提出。DreamFusion 框架尝试强加一个 SDS 或评分蒸馏采样损失来优化 3D 框架，使得在随机视图下的渲染与文本条件图像分布一致，后者由一个高效的文本到图像扩散框架解释。虽然 DreamFusion 方法提供了不错的结果，但仍然存在两个主要问题：模糊和过饱和。为了解决这些问题，最近的工作在尝试改进 2D 蒸馏损失的同时实施了各种阶段优化策略，这最终导致了更好的质量和更真实的 3D 生成图像。

然而，尽管这些框架最近取得了成功，但它们仍然无法匹配 2D 生成框架合成复杂内容的能力。另外，这些框架通常存在“ Janus 问题”，即单独看似合理的 3D 渲染，但当作为一个整体进行检查时，会显示出风格和语义不一致。

为了解决先前工作面临的问题，DreamCraft3D 框架探索了使用整体分层 3D 内容生成流水线的可能性，并从手动艺术过程中汲取灵感，在这个过程中，一个概念首先被草拟成 2D 草图，然后艺术家雕刻粗糙的几何形状，精细化几何细节，并绘制高保真纹理。按照同样的方法， DreamCraft3D 框架将耗时的 3D 内容或图像生成任务分解为各种可管理的步骤。它首先使用文本提示生成高质量的 2D 图像，然后使用纹理增强和几何雕刻将图像提升到 3D 阶段。将过程分解为后续阶段有助于 DreamCraft2D 框架最大限度地发挥分层生成的潜力，最后导致 3D 图像生成质量更高。

在第一阶段，DreamCraft3D 框架部署几何雕刻以使用 2D 图像作为参考生成一致且合理的 3D 几何形状。此外，该阶段不仅使用 SDS 损失用于光度损失和新视图的参考视图，而且框架还引入了一系列策略来促进几何一致性。框架旨在利用 Zero-1-to-3，一种视图条件的现成图像翻译模型，使用参考图像来建模新视图的分布。此外，框架还从隐式表面表示转换为网格表示，以进行从粗糙到精细的几何细化。

DreamCraft3D 框架的第二阶段使用引导式评分蒸馏方法来增强图像的纹理，因为当前的视图条件扩散模型是在有限的 3D 数据上训练的，这就是为什么它们通常难以匹配 2D 扩散模型的性能或保真度。由于这个限制，DreamCraft3D 框架根据被优化的 3D 实例的多视图图像对扩散模型进行微调，这种方法有助于框架增强 3D 纹理，同时保持多视图一致性。当扩散模型在这些多视图渲染上训练时，它为 3D 纹理优化提供了更好的指导，这种方法有助于 DreamCraft3D 框架实现大量的纹理细节，同时保持视图一致性。

如上图所示，DreamCraft3D 框架能够生成具有真实纹理和复杂几何结构的创意 3D 图像和内容。在第一张图中，是动漫角色 Son Goku 的身体与一头野猪的头混合在一起，而第二张图则描绘了一只穿着侦探服装的猎犬。以下是其他一些示例。

DreamCraft3D：工作原理和架构

DreamCraft3D 框架尝试利用最先进的 T2I 或文本到图像生成框架来创建高质量的 2D 图像，使用文本提示。这种方法允许 DreamCraft3D 框架最大限度地发挥最先进的 2D 扩散模型的能力，以表示文本提示中描述的视觉语义，同时保留这些 2D AI 生成框架提供的创造自由。然后使用级联的几何纹理增强和几何雕刻阶段将生成的图像提升到 3D，并在每个阶段应用专门的技术，借助于问题的分解。以下图像简要总结了 DreamCraft3D 框架的工作原理。

让我们更详细地了解纹理增强和几何雕刻阶段的关键设计考虑因素。

几何雕刻

几何雕刻是第一个阶段，DreamCraft3D 框架尝试创建一个 3D 模型，以便它与参考图像在同一参考视图下的外观一致，同时确保即使在不同的视角下也具有最大程度的合理性。为了确保最大程度的合理性，框架使用 SDS 损失来鼓励每个个别采样的视图的合理图像渲染，这是预训练的扩散模型可以识别的。此外，为了有效地利用参考图像的指导，框架惩罚参考视图和渲染图像之间的光度差异，并且仅在视图的前景区域内计算损失。另外，为了鼓励场景稀疏性，框架还实施了一种遮罩损失来渲染轮廓。尽管如此，保持外观和语义在后视图中的一致性仍然是一个挑战，这就是为什么框架采用了额外的方法来产生详细和连贯的几何形状的原因。

3D 感知扩散先验

仅使用每视图监督的 3D 优化方法是欠约束的，这就是为什么 DreamCraft3D 框架使用 Zero-1-to-3，一种视图条件的扩散模型，作为扩散模型。Zero-1-to-3 框架提供了增强的视点感知，因为它是在更大规模的 3D 数据资产上训练的。此外，Zero-1-to-3 框架是一种微调的扩散模型，它根据给定的参考图像和相机姿势来推断图像。

渐进式视图训练

直接在 360 度中推导出自由视图可能会导致几何伪影或不一致，例如椅子上多出一条腿，这可能是由于单个参考图像的模糊性所致。为了解决这个障碍，DreamCraft3D 框架逐渐增加训练视图，然后将已建立的几何形状逐渐传播到 360 度以获得结果。

扩散时间步长退火

DreamCraft3D 框架采用扩散时间步长退火策略，以便与 3D 优化的从粗糙到精细的进展一致。在优化过程开始时，框架优先采样更大的扩散时间步长，以便提供全局结构。随着框架继续训练过程，它线性地在几百次迭代中退火采样范围。由于退火策略，框架能够在早期优化步骤中建立合理的全局几何形状，然后再细化结构细节。

详细结构增强

DreamCraft3D 框架最初优化隐式表面表示以建立粗糙结构。然后，框架使用此结果，并将其与可变形四面体网格或 DMTet 结合，初始化具有纹理的 3D 网格表示，这将学习纹理和几何形状分离。当框架完成结构增强时，模型能够通过仅精化纹理来保留从参考图像中获得的高频细节。

使用引导式评分采样进行纹理增强

虽然几何雕刻阶段强调学习详细和连贯的几何形状，但它会在一定程度上模糊纹理，这可能是由于框架依赖于在粗糙分辨率上运行的 2D 先验模型以及 3D 扩散模型提供的有限锐度所致。此外，包括过饱和和过平滑在内的常见纹理问题是由于大型分类器自由指导所致。

框架使用 VSD 或变分评分蒸馏损失来增强纹理的真实性。框架选择在此阶段使用 Stable Diffusion 模型以获得高分辨率梯度。此外，框架保持四面体网格不变，以促进真实的渲染并优化网格的整体结构。在学习阶段，DreamCraft3D 框架不使用 Zero-1-to-3 框架，因为它对纹理质量有不利影响，并且这些不一致的纹理可能会反复出现，从而导致奇怪的 3D 输出。

实验和结果

为了评估 DreamCraft3D 框架的性能，它与当前的最先进框架进行比较，并分析了定性和定量结果。

与基线模型的比较

为了评估性能，DreamCraft3D 框架与 5 个最先进的框架进行比较，包括 DreamFusion、Magic3D、ProlificDreamer、Magic123 和 Make-it-3D。测试基准包括 300 个输入图像，这些图像是真实世界图像和由 Stable Diffusion 框架生成的图像的混合。测试基准中的每个图像都有一个文本提示、预测的深度图和前景的 alpha 遮罩。框架从图像标题框架中获取真实图像的文本提示。

定性分析

以下图像比较了 DreamCraft3D 框架与当前基线模型，并且可以看出，依赖于文本到 3D 方法的框架通常面临多视图一致性问题。

一方面，有 ProlificDreamer 框架，它提供了真实的纹理，但它在生成合理的 3D 对象方面存在不足。像 Make-it-3D 框架这样的框架依赖于图像到 3D 方法，可以创建高质量的正面视图，但它们无法保持图像的理想几何形状。Magic123 框架生成的图像提供了更好的几何规则化，但它们生成过饱和和过平滑的几何纹理和细节。相比这些框架，DreamCraft3D 框架使用引导式评分蒸馏方法，不仅保持语义一致性，还提高了整体想象力多样性。

定量分析

为了生成令人信服的 3D 图像，不仅要使其类似于输入参考图像，还要从各个角度一致地传达语义，DreamCraft3D 框架使用的技术与基线模型进行比较，并使用四个指标进行评估：PSNR 和 LPIPS 用于测量参考视图点的保真度，Contextual Distance 用于评估像素级别的一致性，CLIP 用于估计语义一致性。结果如以下图像所示。

结论

在本文中，我们讨论了 DreamCraft3D，一种用于生成 3D 内容的分层流水线。DreamCraft3D 框架旨在利用最先进的文本到图像（T2I）生成框架来创建高质量的 2D 图像，使用文本提示。这种方法允许 DreamCraft3D 框架最大限度地发挥最先进的 2D 扩散模型的能力，以表示文本提示中描述的视觉语义，同时保留这些 2D AI 生成框架提供的创造自由。然后使用级联的几何纹理增强和几何雕刻阶段将生成的图像提升到 3D，并在每个阶段应用专门的技术，借助于问题的分解。结果，DreamCraft3D 框架可以生成高保真度和一致的 3D 资产，具有令人信服的纹理，可以从多个角度查看。

Unite.AI