人工智能
LucidDreamer:通过间隔评分匹配实现高保真文本到3D生成

最近在文本到3D生成框架方面的进展标志着生成模型的一个重要里程碑。它们为创建3D资产在各个现实场景中的新可能性铺平了道路。数字3D资产现在在我们的数字存在中占有不可或缺的位置,实现了对复杂环境和物体的全面可视化和交互,这些环境和物体反映了我们的现实世界体验。这些3D生成框架被应用于各种领域,包括动画、建筑、游戏、增强和虚拟现实等。它们还被广泛应用于在线会议、零售、教育和营销等领域。
然而,尽管这些文本到3D生成框架的进展具有前景,但广泛使用3D技术带来了一个主要问题。生成高质量的3D图像和媒体内容仍然需要大量的时间、精力、资源和专业的专业知识。即使满足了这些要求,文本到3D生成仍然经常无法渲染出详细和高质量的3D模型。这种渲染和低质量3D生成的问题在使用评分蒸馏采样(SDS)方法的框架中更为普遍。本文将讨论使用SDS方法的模型中观察到的显著缺陷,这些缺陷引入了不一致性和低质量的更新方向,导致生成输出的过度平滑化。我们还将介绍LucidDreamer框架,一种使用间隔评分匹配(ISM)方法来克服过度平滑化问题的新方法。我们将探讨该模型的架构及其与最先进的文本到3D生成框架的性能。
LucidDreamer3D:使用间隔评分匹配的3D生成介绍
3D生成模型之所以成为生成式人工智能行业的热点,是因为它们在各个领域和行业中具有广泛的应用,并能够实时生成3D内容。由于其广泛的实用应用,开发人员提出了许多3D内容生成方法,其中文本到3D生成框架因其能够仅使用文本描述生成想象中的3D模型而脱颖而出。文本到3D生成框架通过使用预训练的文本到图像扩散模型作为强大的图像来实现这一点,然后在神经参数化的3D模型上训练,允许一致地渲染与文本对齐的3D图像。这种渲染一致3D图像的能力基于评分蒸馏采样的使用,并允许SDS作为将2D结果从扩散模型转换为其3D对应物的核心机制,从而实现无需训练图像即可训练3D模型。尽管它们有效,但使用SDS方法的3D生成框架通常会受到失真和过度平滑问题的困扰,这阻碍了高保真3D生成的实际应用。
为了解决过度平滑问题,LucidDreamer框架实施了一种ISM或间隔评分匹配方法,这是一种新方法,使用两个有效的机制。首先,ISM方法采用DDIM逆方法来减轻由伪真实性不一致引起的平均效应,生成可逆的扩散轨迹。其次,ISM方法不匹配3D模型渲染的图像与伪真实性,而是匹配扩散轨迹中的两个间隔步骤之间的图像,这有助于通过避免一步重构来避免高重构误差。使用ISM代替SDS的结果是始终具有高度保真和详细的输出。
总体而言,LucidDreamer框架旨在对3D生成式人工智能做出以下贡献
- 对SDS进行了深入分析,这是文本到3D生成框架中的基本概念,并找到了其关键局限性,即低质量的伪真实性和过度平滑效应的解释,这些问题困扰着这些3D生成框架。
- 为了应对SDS方法带来的局限性,LucidDreamer框架引入了间隔评分匹配,一种新方法,使用间隔匹配和可逆扩散轨迹来超越SDS,生成高度逼真和详细的输出。
- 通过将ISM方法与3D高斯斑点结合,实现了最先进的3D内容生成性能,超越了现有的方法,并降低了训练成本。
SDS局限性
如前所述,SDS是文本到3D生成模型中最流行的方法之一,它在潜空间中寻找条件后验的模式,并采用预训练的DDPM来建模条件后验。SDS方法还采用加权去噪评分匹配目标来训练DDP。SDS方法的主要目标也可以看作是匹配3D模型的视图与DDPM在单步中估计的伪真实性。然而,开发人员已经观察到,蒸馏过程通常会忽略DDPM的关键方面,如下图所示,预训练的DDPM倾向于预测具有不一致特征的伪真实性,并在蒸馏过程中产生低质量输出。

然而,在不理想的情况下,更新方向会更新到最终导致过度平滑结果的3D表示。此外,值得注意的是,DDPM组件对输入敏感,伪真实性的特征会随着输入的轻微变化而显著变化。另外,摄像机姿势和输入的噪声分量中的随机性可能会增加不可避免的蒸馏过程中的波动。优化输入以获得不一致的伪真实性会导致特征平均结果。此外,SDS方法通过DDPM的单步预测获得所有时间间隔的伪真实性,并不考虑单步DDPM组件无法产生高质量输出的局限性,这表明使用SDS组件蒸馏3D资产或图像可能不是最理想的方法。
LucidDreamer:方法和工作原理
LucidDreamer框架不仅引入了ISM方法,还建立在其他框架的基础上,包括文本到3D生成模型、扩散模型和可微分3D表示框架。话虽如此,让我们详细看看LucidDreamer框架的架构和方法。
间隔评分匹配或ISM
大多数文本到3D生成框架面临的过度平滑和低质量输出问题可以归因于它们使用SDS方法,该方法旨在匹配伪真实性与3D表示,这种匹配是不一致的,通常质量较差。为了应对SDS面临的问题,LucidDreamer框架引入了ISM或间隔评分匹配,一种新方法,具有两个工作阶段。在第一个阶段,ISM组件在蒸馏过程中获得更一致的伪真实性,无论摄像机姿势和噪声的随机性如何。在第二阶段,框架生成质量更好的伪真实性。
SDS的另一个主要限制是为所有时间间隔生成具有单步预测的伪真实性,这使得保证高质量的伪真实性变得具有挑战性,并为提高伪真实性的视觉质量提供了改进的基础。同样,SDS目标可以看作是匹配3D模型的视图与DDPM在单步中估计的伪真实性,尽管蒸馏过程忽略了DDPM组件的一个关键方面,即在蒸馏过程中产生具有不一致特征的低质量伪真实性。
总体而言,ISM组件承诺比以前在文本到3D生成模型中使用的方法提供几个优势。首先,感谢ISM的一致性高质量的伪真实性,它能够产生具有更细结构和更丰富细节的高保真蒸馏输出,从而消除了对大规模指导的需求,并增强了3D内容创建的灵活性。其次,从SDS方法转换为ISM方法的过渡具有边际计算开销,尤其是ISM方法不损害整体效率,尽管它需要为DDIM逆计算付出额外的计算成本。

上图演示了ISM方法的工作原理,并提供了LucidDreamer框架架构的概述。该框架首先使用预训练的文本到3D生成器和提示初始化高斯斑点(即3D表示)。然后,它使用预训练的2D DDPM组件通过DDIM逆计算来破坏随机视图到无条件潜在轨迹,并使用间隔评分进行更新。由于其架构,ISM组件的优化核心集中在更新3D表示以匹配高质量、特征一致的伪真实性,同时计算友好。这一原则使ISM与SDS方法的基本目标保持一致,同时改进了现有的方法。
DDIM逆计算
LucidDreamer框架旨在生成更一致的伪真实性,与3D表示一致。因此,LucidDreamer框架采用DDIM逆计算方法来预测噪声潜在3D表示,并以迭代方式预测可逆噪声潜在轨迹。此外,正是由于DDIM逆计算的可逆性,LucidDreamer框架能够显著增加所有时间间隔的伪真实性的一致性。
高级生成管道
LucidDreamer框架还引入了一个高级管道,除了ISM以外,还探索了影响文本到3D生成视觉质量的因素,并引入了3D高斯斑点或3DGS作为其3D生成和3D点云生成模型的初始化。
3D高斯斑点
现有工作表明,增加批大小和训练渲染分辨率可以显著提高视觉质量。然而,大多数用于文本到3D生成的可学习3D表示都需要大量时间和内存。另一方面,3D高斯斑点方法在优化和渲染方面提供了高效的结果,使LucidDreamer框架中的高级生成管道能够实现大批量和高分辨率渲染,即使在有限的计算资源下也是如此。
初始化
大多数最先进的文本到3D生成框架使用有限的几何形状(如圆、盒子或圆柱体)来初始化其3D表示,这通常会导致非轴对称对象产生不需要的输出。另一方面,LucidDreamer框架引入了3D高斯斑点作为3D表示,因此该框架可以自然地采用几种文本到点生成框架来生成具有人类输入的粗略初始化。初始化策略最终显著提高了收敛速度。
LucidDreamer:实验和结果
文本到3D生成

上图演示了使用原始稳定扩散方法生成的LucidDreamer模型的结果,而下图则讨论了在不同微调检查点上生成的结果。

如图所示,LucidDreamer框架能够使用输入文本和语义线索生成高度一致的3D内容。此外,使用ISM,LucidDreamer框架生成更逼真和更详细的图像,同时避免了过度饱和或过度平滑等常见问题,并在生成常见对象和支持创意创作方面表现出色。
ISM通用性
为了评估ISM的通用性,进行了ISM和SDS方法在显式和隐式表示中的比较,结果如下图所示。

定性比较
为了分析LucidDreamer框架的定性效率,将其与当前最先进的基线模型进行比较,并使用稳定扩散2.1框架进行蒸馏,以确保公平比较。结果如下图所示。如图所示,框架提供了高保真和几何准确的结果,同时消耗的资源和时间较少。

此外,为了提供更全面的评估,开发人员还进行了用户研究。评估选择了28个提示,并使用不同的文本到3D生成方法对每个提示生成对象。然后,用户根据输入提示的对齐程度和保真度对结果进行排名。

LucidDreamer:应用
由于其在各种文本到3D生成任务中的出色性能,LucidDreamer框架具有多种潜在应用,包括零样本头像生成、个性化文本到3D生成和零样本2D和3D编辑。

左上图演示了LucidDreamer在零样本2D和3D编辑任务中的潜力,而左下图则展示了该框架在使用LoRA生成个性化文本到3D输出的能力。右侧的图像展示了该框架生成3D头像的能力。
最后的思考
在本文中,我们讨论了LucidDreamer,一种使用间隔评分匹配(ISM)方法来克服过度平滑问题的新方法,并讨论了模型的架构及其与最先进的文本到3D生成框架的性能。我们还讨论了SDS或评分蒸馏采样,这是一种在大多数最先进的文本到3D生成模型中实施的常见方法,通常会导致生成图像的过度平滑化,以及LucidDreamer框架如何通过引入新的方法,即ISM或间隔评分匹配来解决这个问题,以生成高保真和更逼真的3D图像。结果和评估表明了LucidDreamer框架在广泛的3D生成任务中的有效性,以及它如何在现有的最先进的3D生成模型中表现更好。该框架的出色性能为广泛的实际应用铺平了道路,如前所讨论的那样。












