存根 通过多模态大语言模型指导基于指令的图像编辑 - Unite.AI
关注我们.

人工智能

通过多模态大语言模型指导基于指令的图像编辑

mm

发布时间

 on

通过多模态大型语言模型指导基于指令的图像编辑

视觉设计工具和视觉语言模型在多媒体行业有着广泛的应用。尽管近年来取得了显着的进步,但对这些工具的操作仍然需要深入了解。为了增强可访问性和控制性,多媒体行业越来越多地采用文本引导或基于指令的图像编辑技术。这些技术利用自然语言命令而不是传统的区域掩模或详细描述,从而允许更灵活和受控的图像处理。然而,基于指令的方法通常提供简短的指示,这可能对现有模型的完全捕获和执行构成挑战。此外,以创建逼真图像的能力而闻名的扩散模型在图像编辑领域的需求量很大。

此外, 多模态大语言模型 (MLLM)在涉及视觉感知响应生成和跨模式理解的任务中表现出了令人印象深刻的表现。 MLLM 引导图像编辑 (MGIE) 是一项受 MLLM 启发的研究,评估它们的功能并分析它们如何支持通过文本或引导指令进行编辑。这种方法涉及学习提供明确的指导并得出表达性的指令。 MGIE 编辑模型理解视觉信息并通过端到端训练执行编辑。在本文中,我们将深入研究 MGIE,评估它对全局图像优化、Photoshop 风格的修改和本地编辑的影响。我们还将讨论 MGIE 在依赖表达指令的基于指令的图像编辑任务中的重要性。让我们开始我们的探索吧。

MLLM 引导图像编辑或 MGIE:简介

多模态大语言模型和扩散模型因其卓越的生成能力而成为目前使用最广泛的两种人工智能和机器学习框架。一方面,您拥有扩散模型,以生成高度逼真和视觉上吸引人的图像而闻名,而另一方面,您拥有多模态大型语言模型,以其在生成各种内容(包括文本、语言、语音和图像/视频。 

扩散模型交换潜在的跨模态图以执行反映输入目标标题更改的视觉操作,并且它们还可以使用引导掩模来编辑图像的特定区域。但扩散模型广泛用于多媒体应用的主要原因是扩散模型不依赖于详细的描述或区域掩模,而是采用基于指令的编辑方法,允许用户通过使用文本指令或命令来表达如何直接编辑图像。继续前进,大型语言模型无需介绍,因为它们在一系列不同的语言任务中展示了显着的进步,包括文本摘要、机器翻译、文本生成和回答问题。法学硕士通常接受大量不同的训练数据的训练,这些数据赋予他们视觉创造力和知识,使他们能够执行多种视觉语言任务。基于 LLM、MLLM 或多模式大语言模型,可以使用图像作为自然输入并提供适当的视觉感知响应。 

话虽如此,尽管扩散模型和 MLLM 框架广泛用于图像编辑任务,但基于文本的指令存在一些指导问题,从而影响了整体性能,从而导致了 MGIE 或 MLLM 引导图像编辑(一种人工智能驱动的图像编辑工具)的开发。框架由扩散模型和 MLLM 模型组成,如下图所示。 

在 MGIE 架构中,扩散模型经过端到端训练,可以通过对预期目标的潜在想象来执行图像编辑,而 MLLM 框架则学习预测精确的表达指令。扩散模型和 MLLM 框架共同利用了固有的视觉推导,使其能够解决模糊的人类命令,从而实现逼真的图像编辑,如下图所示。 

MGIE 框架从两种现有方法中汲取了大量灵感: 基于指令的图像编辑 和视觉大语言模型

基于指令的图像编辑可以通过遵循人类命令来显着提高视觉操作的可访问性和可控性。用于基于指令的图像编辑有两个主要框架:GAN 框架和扩散模型。 GAN 或生成对抗网络 能够改变图像,但要么仅限于特定领域,要么产生不切实际的结果。另一方面,经过大规模训练的扩散模型可以控制全局图的跨模态注意力图,从而实现图像编辑和变换。基于指令的编辑通过接收直接命令作为输入来工作,通常不限于区域掩码和详细描述。但是,所提供的说明可能不明确或不够精确,无法遵循编辑任务的说明。 

视觉大型语言模型以其跨各种任务的文本生成和泛化能力而闻名,它们通常具有强大的文本理解能力,并且可以进一步生成可执行程序或伪代码。大语言模型的这种功能允许 MLLM 感知图像,并使用视觉特征对齐和指令调整来提供足够的响应,最近的模型采用 MLLM 来生成与聊天或输入文本相关的图像。然而,MGIE 与 MLLM 或 VLLM 的区别在于,虽然后者可以从头开始生成与输入不同的图像,但 MGIE 利用 MLLM 的功能通过派生指令增强图像编辑功能。 

MGIE:架构和方法论

传统上,大型语言模型已用于自然语言处理生成任务。但自从 MLLM 成为主流以来,LLM 就被赋予了通过感知图像输入来提供合理响应的能力。传统上,多模态大语言模型是从预训练的LLM初始化的,它包含一个视觉编码器和一个适配器来提取视觉特征,并将视觉特征分别投影到语言模态中。因此,MLLM 框架能够感知视觉输入,尽管输出仍然仅限于文本。 

所提出的 MGIE 框架旨在解决这个问题,并促进 MLLM 根据给定的文本指令将输入图像编辑为输出图像。为了实现这一目标,MGIE 框架配备了 MLLM 并进行训练以得出简洁且明确的表达性文本指令。此外,MGIE框架在其架构中添加了特殊的图像标记来弥合视觉和语言模态之间的差距,并采用编辑头来进行模态的转换。这些模态作为多模态大语言模型的潜在视觉想象,指导扩散模型完成编辑任务。然后,MGIE 框架能够执行视觉感知任务以进行合理的图像编辑。 

简洁表达教学

传统上,由于指令调整和特征对齐,多模态大语言模型可以通过其跨模态感知提供与视觉相关的响应。为了编辑图像,MGIE 框架使用文本提示作为图像的主要语言输入,并导出编辑命令的详细解释。然而,这些解释通常可能过于冗长或涉及重复描述,导致意图被误解,迫使 MGIE 应用预先训练的摘要器来获得简洁的叙述,从而允许 MLLM 生成摘要输出。该框架将简洁而明确的指导视为表达性指令,并应用交叉熵损失来使用教师执行来训练多模态大语言模型。

与文本指令相比,使用表达指令提供了更具体的想法,因为它弥补了合理图像编辑的差距,进一步提高了框架的效率。此外,MGIE框架在推理阶段得出简洁的表达指令,而不是产生冗长的叙述并依赖外部总结。因此,MGIE框架能够掌握编辑意图的视觉想象,但仍局限于语言形态。为了克服这个障碍,MGIE 模型在具有可训练词嵌入的表达指令之后附加一定数量的视觉标记,允许 MLLM 使用其 LM 或语言模型头生成它们。 

具有潜在想象力的图像编辑

下一步,MGIE框架采用编辑头将图像指令转化为实际的视觉引导。编辑头是一个序列到序列模型,有助于映射来自 MLLM 以有意义的潜在语义作为其编辑指导。更具体地说,词嵌入的转换可以解释为视觉模态的一般表示,并使用实例感知的视觉想象组件来实现编辑意图。此外,为了用视觉想象力指导图像编辑,MGIE 框架在其架构中嵌入了潜在扩散模型,其中包括变分自动编码器,并解决潜在空间中的去噪扩散问题。潜在扩散模型的主要目标是通过保留潜在输入并遵循编辑指导来生成潜在目标。扩散过程在固定的时间间隔内向潜在目标添加噪声,并且噪声水平随着每个时间步长而增加。 

MGIE的学习

下图总结了所提出的 MGIE 框架的学习过程的算法。 

可以看出,MLLM 学习使用指令损失导出简洁的表达指令。该框架利用输入图像指令的潜在想象力,转换编辑头的模态,并指导潜在扩散模型合成结果图像,并应用编辑损失进行扩散训练。最后,该框架冻结了大部分权重,从而实现参数高效的端到端训练。 

MGIE:结果和评估

MGIE 框架使用 IPr2Pr 数据集作为其主要预训练数据,它包含超过 1 万条 CLIP 过滤数据,其中包含从 GPT-3 模型中提取的指令,以及用于合成图像的 Prompt-to-Prompt 模型。此外,MGIE 框架将基于 CLIP 文本编码器和扩散模型构建的 InsPix2Pix 框架视为基于指令的图像编辑任务的基线。此外,MGIE 模型还考虑了 LLM 引导的图像编辑模型,该模型用于来自仅指令输入但没有视觉感知的表达指令。 

定量分析

下图总结了零样本设置中的编辑结果,其中模型仅在 IPr2Pr 数据集上进行训练。对于涉及 Photoshop 式修改的 GIER 和 EVR 数据,表达性指令可以揭示具体的目标,而不是模糊的命令,使编辑结果更接近编辑意图。 

尽管 LGIE 和 MGIE 都使用与 InsPix2Pix 模型相同的数据进行训练,它们可以通过大语言模型的学习提供详细的解释,但 LGIE 仍然局限于单一模态。此外,MGIE 框架可以提供显着的性能提升,因为它可以访问图像,并且可以使用这些图像来导出显式指令。 

为了评估用于特定目的的基于指令的图像编辑任务的性能,开发人员在每个数据集上微调多个模型,如下表所示。 

可以看出,在为 EVR 和 GIER 调整 Photoshop 风格的编辑任务后,模型表现出性能的提升。然而,值得注意的是,由于微调也使得表达指令更加针对特定领域,因此 MGIE 框架见证了性能的巨大提升,因为它还学习了与领域相关的指导,从而允许扩散模型展示来自特定领域的具体编辑场景。微调大语言模型有利于局部修改和局部优化。此外,由于视觉感知指导更符合预期的编辑目标,因此与 LGIE 相比,MGIE 框架始终能提供卓越的结果。 

下图展示了输入或真实目标图像和表达指令的 CLIP-S 分数。较高的 CLIP 分数表明指令与编辑源的相关性,并且可以观察到,与 LGIE 模型相比,在输入和输出图像上,MGIE 具有更高的 CLIP 分数。 

定性结果

下图完美总结了MGIE框架的定性分析。 

众所周知,LGIE 框架仅限于单一模式,因此它具有单一的基于语言的洞察力,并且很容易得出错误或不相关的图像编辑解释。然而,MGIE 框架是多模式的,通过访问图像,它可以完成编辑任务,并提供与目标非常吻合的明确的视觉想象力。 

最后的思考

在本文中,我们讨论了 MGIE 或 MLLM 引导图像编辑,这是一项受 MLLM 启发的研究,旨在评估多模态大语言模型并分析它们如何使用文本或引导指令促进编辑,同时学习如何通过派生表达指令来提供明确的指导同时地。 MGIE 编辑模型捕获视觉信息并使用端到端训练执行编辑或操作。 MGIE 框架不会生成模糊且简短的指导,而是生成明确的视觉感知指令,从而实现合理的图像编辑。 

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。