人工智能

MiniGPT-5：通过生成性Vokens实现交错的视觉和语言生成

发布于 2023年10月23日

更新于 2026年5月22日

作者

Kunal Kejriwal

过去几年，大型语言模型（LLM）因在自然语言处理（NLP）方面的突破而受到全球AI开发者的关注。这些模型在文本生成和理解方面设立了新的基准。然而，尽管在文本生成方面取得了进展，生成与文本叙述相符的图像仍然是一个挑战。为了解决这个问题，开发人员引入了一种基于“生成性Vokens”的创新视觉和语言生成方法，弥合了文本和图像输出之间的差距。

MiniGPT-5的基础是一个两阶段的训练策略，重点关注不需要综合图像描述的多模态数据生成。为了提高模型的完整性，模型采用了分类器自由引导系统，增强了Voken在图像生成中的有效性。在初始阶段，MiniGPT-5框架已经展示了强大的性能，并且在MMDialog数据集上训练的Divter模型基础上取得了显著的改进，并且在VIST数据集上的人类评估中始终展示了其能够提供可比拟甚至更好的多模态输出的能力，这进一步突出了其性能和效率在各个基准上的表现。

MiniGPT5：介绍

随着LLM框架的最新发展和基于这些LLM框架的应用，多媒体特征集成是一个日益流行的领域，它也证明了一个至关重要的进步，能够驱动从最先进的内容创作工具到最先进的多模态对话代理的广泛应用。随着持续的研究和开发，语言和视觉模型已经达到了可以无缝地生成文本和视觉数据的阶段。LLM生成多模态数据的能力将有助于增强各个领域（包括电子商务、媒体和虚拟现实）之间的交互。

最终，目标是允许模型使用文本和视觉模态以一致和逻辑的方式综合、识别和响应，从而在信息流和逻辑一致的叙述中发挥至关重要的作用。实现文本和视觉模态融合的需求主要是由LLM中更流畅、集成和交互的多模态交互的需求驱动的，最后实现语言和视觉的交替生成。然而，在LLM中实现集成和交互的多模态交互是一个复杂的任务，充满了众多挑战，包括

尽管当前LLM在文本生成和处理文本图像对方面非常高效和有能力，但它们在生成图像方面并不令人满意。
这些视觉和语言模型的开发严重依赖于主题专注的数据，这使得模型很难将生成的文本与其对应的图像对齐。
最后，需要制定更有效的策略，因为随着LLM能力的增加，尤其是在执行下游任务时，LLM的内存需求也会增加。

MiniGPT-5框架，一个交错的语言和视觉生成算法技术，引入了“生成性Vokens”的概念，以解决上述挑战。MiniGPT-5框架提出了一种新的多模态数据生成方法，通过将大型语言模型与稳定扩散技术相结合，使用特殊的视觉令牌。所提出的两阶段训练方法强调了无描述的基础阶段的重要性，并使模型能够在数据有限的情况下高效地执行。

但是什么使MiniGPT-5模型与当前现有框架区别开来的是，MiniGPT-5框架的通用阶段不包含特定领域的注释。此外，为了确保生成的文本及其对应的图像相互协调，MiniGPT-5框架采用了双重损失策略，这进一步增强了MiniGPT-5使用分类器自由引导和生成性Vokens的方法。MiniGPT-5框架优化了训练效率，并通过其参数高效的微调策略解决了内存约束。

为了给您一个快速的总结，MiniGPT-5框架

提出了一种使用多模态编码器的方法，这是一种新颖且通用的方法，历史上已被证明比传统LLM更有效，并使用生成性令牌与稳定扩散技术相结合来生成交错的语言和视觉输出。
提出了一种双阶段训练策略，用于生成无描述的多模态输出，并在训练期间包含分类器自由引导，以进一步提高生成数据的质量。

MiniGPT-5模型的灵感来自之前在以下领域的研究和工作

文本到图像生成：为了将文本描述转换为其对应的视觉表示，并生成文本到图像模型。

MLLMs或多模态大型语言模型：使用预训练的LLM模型来探索其在生成多模态数据方面的应用和有效性。
大型语言模型的多模态生成：为了增强LLM无缝集成语言和视觉数据生成的能力。

MiniGPT-5：方法、架构和框架

为了将大型语言模型与多模态数据生成能力相结合，MiniGPT-5模型引入了一个框架，旨在将文本到图像生成模型与预训练的多模态大型语言模型集成。MiniGPT-5框架进一步引入了“生成性Vokens”，特殊的视觉令牌，使开发人员能够通过直接在原始图像上训练来解决不同领域之间的差异。为了进一步提高LLM生成的多模态数据的质量，MiniGPT-5框架引入了分类器自由策略，结合先进的两阶段训练方法。让我们详细了解MiniGPT-5框架。

多模态输入阶段

最近LLM的发展使得LLM的多模态理解能力成为可能，允许将图像作为序列输入处理。MiniGPT-5框架使用专门设计的生成性Vokens来输出视觉特征，尝试扩展LLM的多模态理解能力到多模态数据生成。此外，MiniGPT-5框架使用参数高效和最先进的微调技术来学习多模态输出与LLM框架。

多模态编码

MiniGPT-5框架中的预训练视觉编码器将每个输入图像转换为特征，并将每个文本令牌嵌入为向量，当这些嵌入被连接在一起时，会生成输入提示特征。

在大型语言模型中添加Vokens

传统上，大型语言模型的词汇表仅包含文本令牌，这就是为什么MiniGPT-5框架的开发人员需要弥合生成性和传统LLM之间的差距。MiniGPT-5框架将一组特殊的令牌作为生成性令牌引入LLM的词汇表中。然后，框架利用LLM对这些特殊Vokens的隐藏输出状态来生成图像，并且Vokens的插入由其位置表示。

PEFT或参数高效微调

PEFT或参数高效微调是在LLM中使用的关键概念，但其在多模态设置中的应用仍然在很大程度上未被探索。MiniGPT-5框架使用MiniGPT-4框架编码器上的参数高效微调来训练模型，以更好地理解提示或指令，并提高模型在零样本或新颖环境中的整体性能。

多模态输出生成

为了准确地将生成模型与生成性令牌对齐，MiniGPT-5框架制定了一个紧凑的映射模块来匹配维度，并纳入监督损失，包括潜在扩散模型损失和文本空间损失。潜在扩散监督损失直接将适当的视觉特征与令牌对齐，而文本空间损失帮助模型学习令牌的正确位置。由于MiniGPT-5框架中的生成性Vokens直接由图像引导，MiniGPT-5框架不需要图像具有全面的描述，从而实现无描述的学习。

文本空间生成

MiniGPT-5框架遵循因果语言建模方法，共同生成Vokens和文本在文本空间中，并在训练阶段，开发人员将Vokens追加到地面真实图像的位置，并训练模型预测文本生成中的Vokens。

映射Voken特征用于图像生成

在生成文本空间后，框架将隐藏输出状态与文本到图像生成模型的文本条件特征空间对齐。框架还支持一个特征映射模块，包括一个双层MLP模型、一个可学习的解码器特征序列和一个四层编码器-解码器变换器模型。

使用LDM或潜在扩散模型进行图像生成

为了在去噪过程中生成所需的图像，框架使用映射特征作为条件输入。框架还采用LDM或潜在扩散模型进行指导，在训练阶段，地面真实图像首先使用预训练的VAE转换为潜在特征，然后通过添加噪声获得潜在噪声特征。

MiniGPT-5框架采用的综合方法使开发人员能够对视觉和文本元素有一个连贯的理解和生成，使用专门的令牌，利用预训练模型的能力，并使用创新训练技术。

MiniGPT-5：训练和结果

在开发MiniGPT-5框架时，开发人员观察到，直接在有限的交错文本和图像数据集上训练可能会导致图像质量降低和对齐不佳，考虑到图像和文本域之间的显著域移。为了缓解这个问题，开发人员采用了两种不同的训练策略，

包括将分类器自由引导技术纳入，以提高生成性令牌在扩散过程中的有效性。
第二种策略进一步分为两个阶段
1. 一个初始的预训练阶段，主要关注粗特征的对齐。
2. 一个微调阶段，促进特征学习。

CFG或分类器自由引导

首先利用CFG进行多模态生成的想法是为了增强生成的图像和文本之间的一致性和逻辑性，并且CFG是在文本到图像扩散过程中引入的。这种方法观察到，通过训练无条件和有条件的生成，并使用条件dropout，生成模型可以实现增强的条件结果。

两阶段训练策略

鉴于图像和文本生成之间的显著域移，MiniGPT-5框架使用两阶段策略进行训练

单模态对齐阶段或UAS，
多模态学习阶段或MLS。

最初，框架将图像生成特征与单个文本图像对数据集中的Voken特征对齐，每个数据样本包含一个文本和一个图像，文本通常是图像的标题。在此阶段，框架允许LLM通过使用标题作为LLM输入来生成Vokens。

一旦UAS成功执行，模型就可以为单个文本描述生成图像，但在交错语言和视觉生成（包括文本图像对和复杂推理）方面存在困难。为了解决这个障碍，开发人员使用VIST等交错视觉和语言数据集进一步微调了MiniGPT-5框架的PEFT参数。在此阶段，框架从数据集中构建了三个不同的任务

仅文本生成：给定下一个图像生成相关文本。
仅图像生成：给定下一个文本生成相关图像。
多模态生成：使用给定的上下文生成文本图像对。

MiniGPT-5：基准和结果

为了全面评估其多模态生成的性能，MiniGPT-5开发团队将其性能与其他著名的基准模型（包括Divter、GILL和微调的单模态生成模型）进行比较，并在下表中展示了比较结果。

MiniGPT-5框架认识到，多模态输出可能根据上下文是有意义的，但可能与现实不同，这是MiniGPT-5框架还纳入人类输入来评估和评估模型性能的主要原因。总体而言，MiniGPT-5框架的多模态任务的有效性是从三个角度来衡量的。

语言连贯性：评估生成的内容是否与提供的上下文无缝地对齐。
图像质量：评估或评估生成的图像的相关性和清晰度。
多模态一致性：确定文本图像输出是否与初始上下文同步。

VIST最终步骤评估

在实验的第一阶段，MiniGPT-5框架旨在生成相应的图像，并且下表总结了从该设置中获得的结果。

如所见，MiniGPT-5框架在所有三个设置中都可以超越微调的SD2框架，从而突出了MiniGPT-5管道的有效性。

上图比较了MiniGPT-5框架和微调的MiniGPT-4框架在S-BERT、Rouge-L和Meteor性能指标上的表现。结果表明，使用生成性Vokens不会对框架在执行多模态理解任务时的性能产生负面影响。结果还表明，MiniGPT-5框架能够利用长水平多模态输入提示来生成高质量和连贯的图像，而不会损害原始模型的多模态理解能力。

上表比较了三个框架在5000个样本上的多模态生成性能，考虑了多模态一致性、图像质量和语言连贯性方面。如所见，MiniGPT-5框架在70%以上的案例中超越了其他两个基准模型。另一方面，下表展示了MiniGPT-5框架在CC3M验证数据集上的单图像生成性能。由于数据限制，开发人员发现使用稳定扩散时存在Voken对齐的差距。尽管存在此限制，MiniGPT-5框架在所有指标上都超越了当前的GILL基准模型。

结论

在本文中，我们讨论了MiniGPT-5，一种交错的语言和视觉生成算法技术，引入了“生成性Vokens”的概念，以利用LLM生成多模态数据的能力，通过将大型语言模型与预训练的文本到图像生成模型对齐。我们讨论了MiniGPT-5框架的基本组件和整体架构，以及结果，这些结果表明与当前基准和最先进的模型相比，性能和效率有了显著的改进。MiniGPT-5旨在为多模态内容和数据生成领域设定新的基准，并旨在解决以前的模型在尝试解决同一问题时面临的挑战。MiniGPT-5通过使用生成性Vokens和先进的训练技术，展示了在多模态生成任务中的潜力，并有望在未来成为多模态数据生成的领先模型。