人工智能
NVIDIA 的 eDiffi 扩散模型支持“用文字绘画”等
尝试使用潜在扩散生成图像模型进行精确的构图,例如 稳定扩散 可以像放牧的猫一样; 同样的想象力和解释能力也使系统能够创造非凡的细节并从相对简单的文本提示中召唤出非凡的图像。 很难关闭 当您正在寻找对图像生成的 Photoshop 级别控制时。
现在,NVIDIA 研究人员提出了一种新方法,名为 图像的整体扩散 (eDiffi),使用多种嵌入和解释方法的混合(而不是在整个管道中始终使用相同的方法),以允许对生成的内容进行更高级别的控制。 在下面的示例中,我们看到用户绘制元素,其中每种颜色代表文本提示中的单个单词:
实际上,这是“用面具绘画”,并且颠倒了 i绘画范式 稳定扩散,它基于修复损坏或不满意的图像,或扩展本来可以达到所需尺寸的图像。
相反,在这里,绘制涂抹的边距代表单个概念中仅一个独特元素所允许的近似边界,允许用户从一开始就设置最终的画布大小,然后离散地添加元素。
eDiffi 中采用的多样化方法还意味着该系统在包含长而详细的提示中的每个元素方面做得更好,而 Stable Diffusion 和 OpenAI 的 DALL-E 2 倾向于优先考虑提示的某些部分,具体取决于提示的提前时间。目标词出现在提示中或其他因素上,例如理清完整但全面(相对于文本提示)组成所需的各种元素的潜在困难:
此外,使用专用的 T5 文本到文本编码器意味着 eDiffi 能够呈现可理解的英语文本,无论是从提示中抽象地请求(即 图像包含 [x] 的一些文本)或明确要求(即 T 恤上写着“Nvidia Rocks”):
新框架的另一个亮点是,还可以提供单个图像作为风格提示,而不需要训练 DreamBooth 模型或在一个流派的多个示例上进行文本嵌入或 样式.
新文 标题为 eDiffi:具有专家降噪器集合的文本到图像扩散模型及
T5 文本编码器
使用Google的T文本到文本传输转换器 (T5) 是 eDiffi 中展示的改进结果的关键要素。 平均潜在扩散管道集中在经过训练的图像与从互联网上刮取图像时附带的说明文字之间的关联(或者稍后手动调整,尽管这是一种昂贵且因此很少见的干预)。
通过改写源文本并运行 T5 模块,可以获得比最初训练到模型中更精确的关联和表示,几乎类似于 事后 手动标记,对所请求的文本提示的规定具有更大的特异性和适用性。
作者解释说:
在大多数现有的扩散模型研究中,去噪模型在所有噪声级别上共享,并且使用简单的时间嵌入来表示时间动态,该时间嵌入通过 MLP 网络馈送到去噪模型。 我们认为,使用容量有限的共享模型可能无法有效地从数据中学习去噪扩散的复杂时间动态。
“相反,我们建议通过引入专家降噪器集合来扩大降噪模型的容量; 每个专家降噪器都是专门针对特定范围的噪声[级别]的降噪模型。 这样,我们可以在不减慢采样速度的情况下增加模型容量,因为在每个噪声级别评估[已处理元素]的计算复杂性保持不变。
现有的 CLIP DALL-E 2 和 Stable Diffusion 中包含的编码模块还能够为与用户输入相关的文本找到替代图像解释。 然而,它们是根据与原始模型类似的信息进行训练的,并且不像 eDiffi 中的 T5 那样用作单独的解释层。
作者表示,eDiffi 是第一次将 T5 和 CLIP 编码器合并到单个管道中:
由于这两个编码器是针对不同的目标进行训练的,因此它们的嵌入有利于使用相同的输入文本形成不同的图像。 虽然 CLIP 文本嵌入有助于确定生成图像的全局外观,但输出往往会错过文本中的细粒度细节。
“相比之下,单独使用 T5 文本嵌入生成的图像可以更好地反映文本中描述的各个对象,但它们的全局外观不太准确。 联合使用它们可以在我们的模型中产生最佳的图像生成结果。
中断和增强扩散过程
该论文指出,典型的潜在扩散模型将在生成的早期阶段仅依靠文本开始从纯噪声到图像的旅程。
当噪音分解为代表文本提示中的描述的某种粗略布局时,该过程的文本引导方面基本上消失,并且该过程的其余部分转向增强视觉特征。
这意味着在文本引导噪声解释的初始阶段未解决的任何元素稍后都很难注入到图像中,因为这两个过程(文本到布局和布局到图像)的重叠相对较少,当到达图像增强过程时,基本布局就相当纠结了。
专业潜力
项目页面和 YouTube 视频中心的示例介绍了公关友好型模因可爱图像的生成。 与往常一样,NVIDIA 研究正在淡化其最新创新在改善真实感或 VFX 工作流程方面的潜力,以及改善 Deepfake 图像和视频的潜力。
在示例中,新手或业余用户为特定元素绘制了放置的粗略轮廓,而在更系统的 VFX 工作流程中,可以使用 eDiffi 使用文本到图像来解释视频元素的多个帧,其中轮廓非常精确,并且基于例如通过绿屏或算法方法去除背景的图形。
使用经过培训的 梦想展位 字符和带有 eDiffi 的图像到图像管道,有可能开始解决其中的一个问题 任何 潜在扩散模型:时间稳定性。 在这种情况下,强加的图像的边缘和图像的内容都将“预浮动”在用户画布上,并且渲染内容具有时间连续性(即,将现实世界的太极拳练习者变成机器人) )通过使用锁定的 DreamBooth 模型提供,该模型已“记住”其训练数据 - 不利于可解释性,但对于可重复性、保真度和连续性却非常有利。
方法、数据和测试
该论文指出,eDiffi 模型是在“公共和专有数据集的集合”上进行训练的,并通过预先训练的 CLIP 模型进行了严格过滤,以删除可能降低输出的总体美观评分的图像。 最终的过滤图像集包含“大约十亿”文本图像对。 训练图像的大小被描述为“最短边大于64像素”。
许多模型都针对该过程进行了训练,基础模型和超分辨率模型都经过了训练 亚当 优化器的学习率为 0.0001,权重衰减为 0.01,批量大小为 2048。
基本模型在 256 个 NVIDIA A100 GPU 上进行训练,两个超分辨率模型在 128 个 NVIDIA A100 每个型号的 GPU。
该系统基于NVIDIA自己的 意象 PyTorch 库。 COCO 和视觉基因组数据集用于评估,但未包含在最终模型中, 麦可可 用于测试的特定变体。 测试的竞争对手系统是 滑行, 有意义, 达尔-E 2, 稳定扩散,以及Google的两个图像合成系统, 图像 和 零件.
按照类似 先 工作, 零次发射 FID-30K 被用作评价指标。 在 FID-30K 下,从 COCO 验证集中随机提取 30,000 个字幕(即不是训练中使用的图像或文本),然后将其用作合成图像的文本提示。
Frechet 起始距离 (FID然后,除了记录生成的图像的 CLIP 分数之外,还计算生成的图像和真实图像之间的 )。
在结果中,即使针对参数数量多得多的系统(例如 Parti 的 20 亿个参数),eDiffi 也能够在零样本 FID 上获得最低(最佳)得分,而最高得分为 9.1 亿个参数。为测试训练了指定的 eDiffi 模型。
结论
NVIDIA 的 eDiffi 代表了一种受欢迎的替代方案,它可以替代简单地向现有系统添加越来越多的数据和复杂性,而是使用更智能和分层的方法来解决与潜在扩散生成图像系统中的纠缠和不可编辑性相关的一些最棘手的障碍。
Stable Diffusion subreddits 和 Discords 上已经讨论过直接合并任何可用于 eDiffi 的代码,或者在单独的实现中重新展示其背后的原理。 然而,新的管道是完全不同的,它将构成标清的整个版本号变化,放弃一些向后兼容性,尽管提供了对最终合成图像的控制水平大大提高的可能性,而不牺牲迷人的潜在扩散的想象力。
首次发布于 3 年 2022 月 XNUMX 日。