Connect with us

人工智能

NVIDIA 的 eDiffi 扩散模型允许“用文字绘画”和更多

mm

尝试使用诸如 Stable Diffusion 之类的潜在扩散生成图像模型来创建精确的构图可能就像赶猫一样;系统的想象力和解释能力使其能够从简单的文本提示中创建出色的细节和图像,但这些能力也很难在需要 Photoshop 级别的图像控制时关闭。

现在,NVIDIA 研究院提出了一种新的方法,称为 ensemble diffusion for images (eDiffi),它使用多种嵌入和解释方法(而不是整个流水线中使用同一种方法)来实现对生成内容的控制程度大大提高。在下面的示例中,我们看到用户绘制元素,每种颜色代表文本提示中的一个单词:

“用文字绘画”是 NVIDIA 的 eDiffi 扩散模型的两个新功能之一。每个涂抹的颜色代表提示中的一个单词(请在生成过程中查看左侧的单词),并且应用的区域颜色将仅由该元素组成。请参阅文章末尾的嵌入式官方视频,获取更多示例和更高的分辨率。来源:https://www.youtube.com/watch?v=k6cOx9YjHJc

“用文字绘画”是 NVIDIA 的 eDiffi 扩散模型的两个新功能之一。每个涂抹的颜色代表提示中的一个单词(请在生成过程中查看左侧的单词),并且应用的区域颜色将仅由该元素组成。请参阅来源(官方)视频,获取更多示例和更高的分辨率: https://www.youtube.com/watch?v=k6cOx9YjHJc

这基本上是“用遮罩绘画”,并且颠倒了 Stable Diffusion 中的 npainting 范式,该范式基于修复破损或不满意的图像,或扩展本可以是所需大小的图像。

相反,涂抹的边缘代表了来自单个概念的唯一元素的近似边界,允许用户从一开始设置最终画布的大小,然后分离地添加元素。

新论文中的示例。来源:https://arxiv.org/pdf/2211.01324.pdf

新论文中的示例。 来源:https://arxiv.org/pdf/2211.01324.pdf

eDiffi 中使用的多种方法也意味着该系统在包含每个元素的长且详细的提示方面做得更好,而 Stable Diffusion 和 OpenAI 的 DALL-E 2 倾向于优先考虑提示的某些部分,取决于目标单词在提示中出现的时间或其他因素,例如解开所需图像的各种元素的潜在难度:

来自论文:eDiffi 能够更彻底地遍历提示,直到渲染出尽可能多的元素。虽然 eDiffi 的改进结果(最右列)是精选的,但 Stable Diffusion 和 DALL-E 2 的比较图像也是精选的。

来自论文:eDiffi 能够更彻底地遍历提示,直到渲染出尽可能多的元素。虽然 eDiffi 的改进结果(最右列)是精选的,但 Stable Diffusion 和 DALL-E 2 的比较图像也是精选的。

此外,使用专用的 T5 文本到文本编码器意味着 eDiffi 能够渲染可理解的英文文本,无论是从提示中抽象请求(即 图像包含一些 [x] 文本)还是明确请求(即 这件 T 恤上的字是“Nvidia Rocks”):

eDiffi 中的专用文本到文本处理意味着文本可以在图像中逐字渲染,而不是仅通过文本到图像解释层渲染,从而扭曲输出。

eDiffi 中的专用文本到文本处理意味着文本可以在图像中逐字渲染,而不是仅通过文本到图像解释层渲染,从而扭曲输出。

新框架的另一个优点是,可以提供单个图像作为样式提示,而不需要训练 DreamBooth 模型或在多个示例的流派或 样式 上训练文本嵌入。

可以将样式转移到文本到图像提示或甚至图像到图像提示。

可以将样式转移到文本到图像提示或甚至图像到图像提示。

新论文题为 eDiffi:具有专家去噪器集成的文本到图像扩散模型

T5 文本编码器

使用谷歌的 Text-to-Text Transfer Transformer (T5) 是 eDiffi 中改进结果的关键要素。平均潜在扩散流水线中心是训练图像和它们在互联网上被抓取时(或稍后手动调整,尽管这是一种昂贵且罕见的干预)伴随的字幕之间的关联。

来自 2020 年 7 月 T5 论文的文本转换,可以帮助 eDiffi(和潜在的其他潜在扩散模型)中的生成图像工作流。来源:https://arxiv.org/pdf/1910.10683.pdf

来自 2020 年 7 月 T5 论文的文本转换,可以帮助 eDiffi(和潜在的其他潜在扩散模型)中的生成图像工作流。来源:https://arxiv.org/pdf/1910.10683.pdf

通过重新表述源文本并运行 T5 模块,可以比原始模型训练中获得更准确的关联和表示,几乎就像 事后 手动标记一样,具有更大的具体性和适用性,以满足文本提示的规定。

作者解释:

“在现有的扩散模型工作中,大多数情况下,去噪模型在所有噪声级别上是共享的,时间动态使用一个简单的时间嵌入,该嵌入通过 MLP 网络输入到去噪模型中。我们认为,去噪扩散的复杂时间动态可能不能使用具有有限容量的共享模型从数据中有效地学习。”

“相反,我们提议通过引入专家去噪器集成来扩大去噪模型的容量;每个专家去噪器都是一个针对特定噪声级别范围的去噪模型。这样,我们可以在不减慢采样的情况下增加模型容量,因为每个噪声级别评估 [处理元素] 的计算复杂性保持不变。”

eDiffi 的概念工作流。

eDiffi 的概念工作流。

现有的 CLIP 编码模块也包含在 DALL-E 2 和 Stable Diffusion 中,能够为用户输入的文本找到替代图像解释。但是,它们是使用与原始模型类似的信息训练的,并且不会像 eDiffi 中的 T5 一样用作单独的解释层。

作者指出,eDiffi 是第一次将 T5 和 CLIP 编码器同时纳入单个流水线中:

“由于这两个编码器是使用不同的目标训练的,它们的嵌入偏爱具有相同输入文本的不同图像。虽然 CLIP 文本嵌入有助于确定生成图像的整体外观,但输出往往缺乏文本中的细节。”

“相比之下,仅使用 T5 文本嵌入生成的图像更好地反映了文本中描述的个体对象,但它们的整体外观不够准确。同时使用它们会产生我们模型中最好的图像生成结果。”

中断和增强扩散过程

论文指出,典型的潜在扩散模型将从纯噪声开始,依靠文本在生成的早期阶段。

当噪声解析为某种粗略的布局,代表文本提示中的描述时,文本引导的过程基本上消失了,剩下的过程转向增强视觉特征。

这意味着任何在文本引导噪声解释的萌芽阶段没有解决的元素都很难稍后注入到图像中,因为文本到布局和布局到图像的两个过程相对没有重叠,而且基本布局在到达图像增强过程时已经相当纠缠。

图像过程成熟时。我们可以看到 CLIP 对图像的影响在下行中急剧下降,而 T5 继续影响图像,直到渲染过程更进一步。” width=”1000″ height=”310″>

来自论文:流水线各部分的注意力图,当噪声>图像过程成熟时。我们可以看到 CLIP 对图像的影响在下行中急剧下降,而 T5 继续影响图像,直到渲染过程更进一步。

专业潜力

项目页面和 YouTube 视频中的示例集中在 PR 友好的生成迷因风格的可爱图像上。如往常一样,NVIDIA 研究低估了其最新创新提高照片真实感或 VFX 工作流、改进深度伪造图像和视频的潜力。

在示例中,新手或业余用户粗略地绘制特定元素的放置轮廓,而在更系统的 VFX 工作流中,可以使用 eDiffi 来解释使用文本到图像的多个视频元素帧,其中轮廓非常精确,基于例如通过绿幕或算法方法删除背景的图形。

Runway ML 已经提供基于 AI 的 rotoscoping。在这个示例中,围绕主题的“绿幕”代表 alpha 层,而提取是通过机器学习完成的,而不是通过算法删除真实世界的绿幕背景。来源:https://twitter.com/runwayml/status/1330978385028374529

Runway ML 已经提供基于 AI 的 rotoscoping。在这个示例中,围绕主题的“绿幕”代表 alpha 层,而提取是通过机器学习完成的,而不是通过算法删除真实世界的绿幕背景。 来源:https://twitter.com/runwayml/status/1330978385028374529

使用训练好的 DreamBooth 角色和 eDiffi 的图像到图像流水线,可能开始解决任何潜在扩散模型的麻烦事之一:时间稳定性。在这种情况下,既可以预先浮动施加的图像的边缘,也可以预先浮动图像的内容,并且可以通过使用锁定的 DreamBooth 模型来提供渲染内容的时间连续性,该模型已经“记住”了其训练数据——这对可解释性来说很糟糕,但对于可复制性、保真度和连续性来说很好。

方法、数据和测试

论文指出,eDiffi 模型是在“公共和专有数据集的集合”上训练的,这些数据集由预训练的 CLIP 模型过滤,以删除可能降低输出的整体美观度的图像。最终过滤的图像集由“大约十亿”文本图像对组成。训练图像的大小被描述为“最短边大于 64 像素”。

为此过程训练了多个模型,基本模型和超分辨率模型都使用 AdamW 优化器,学习率为 0.0001,权重衰减为 0.01,批大小为 2048。

基本模型在 256 个 NVIDIA A100 GPU 上训练,两个超分辨率模型在每个模型 128 个 NVIDIA A100 GPU。

系统基于 NVIDIA 自有的 Imaginaire PyTorch 库。用于评估的数据集包括 COCO 和 Visual Genome,尽管它们不包含在最终模型中,用于测试的具体变体是 MS-COCO。测试的对手系统包括 GLIDEMake-A-SceneDALL-E 2Stable Diffusion 和谷歌的两个图像合成系统 ImagenParti

与类似 先前 工作 一致,使用 零次 FID-30K 作为评估指标。在 FID-30K 中,从 COCO 验证集(即不使用训练中的图像或文本)中随机提取 30,000 个字幕,这些字幕然后用作合成图像的文本提示。

然后计算生成图像和真实图像之间的弗雷切特感知距离(FID),以及记录生成图像的 CLIP 分数。

在 COCO 2014 验证数据集上与当前最先进方法的零次 FID 测试结果,结果越低越好。

在 COCO 2014 验证数据集上与当前最先进方法的零次 FID 测试结果,结果越低越好。

eDiffi 能够即使与参数数量远多于其自身的系统(如 Parti 的 200 亿参数)相比,也能在零次 FID 上获得最低(最佳)分数,相比之下,eDiffi 中训练的最高参数模型有 91 亿参数。

结论

NVIDIA 的 eDiffi 代表了一个令人欢迎的替代方案,而不是简单地向现有系统添加更多数据和复杂性,而是使用更智能和分层的方法来解决潜在扩散生成图像系统中一些最棘手的障碍,例如纠缠和不可编辑性。

Stable Diffusion 的子版块和 Discord 讨论已经开始了,无论是直接将可能可用的任何 eDiffi 代码纳入其中,还是在单独的实现中重新演绎 eDiffi 背后的原理。新的流水线如此激进地不同,以至于它将构成对 SD 的整个版本号的变化,抛弃了一些向后兼容性,尽管它提供了对最终合成图像的控制水平大大提高的可能性,而不会牺牲潜在扩散的迷人想象力。

首次发布于 2022 年 11 月 3 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai