关注我们.

安德森的角度

RAG 增强图像生成的未来

mm
ChatGPT-4o:“几十年前,照片是一种光化学过程,照片打印通常在暗室中完成,湿照片像衣服一样挂在绳子上。给我展示一下那种环境,10 张照片在暗室的一条线上晾干,一位身穿白大褂的科学家从绳子上取下其中一张。散景对焦,1792x1024”

稳定扩散、通量等生成扩散模型和混元等视频模型依赖于使用固定数据集在一次资源密集型训练过程中获得的知识。在这次训练之后引入的任何概念(称为 知识断层 – 除非通过以下方式补充,否则模型中不存在 微调 或外部适应技术,如 低秩适应 (LoRA)。

因此,如果一个输出图像或视频的生成系统能够 联系在线资源 并根据需要将它们纳入生成过程。这样,例如,一个对最新发布的 Apple 或 Tesla 产品一无所知的传播模型仍然可以生成包含这些新产品的图像。

关于语言模型,我们大多数人都熟悉 Perplexity、Notebook LM 和 ChatGPT-4o 等系统,它们可以将新颖的外部信息融入到 检索增强生成 (RAG)模型。

RAG 流程使 ChatGPT 4o 的响应更具相关性。来源:https://chatgpt.com/

RAG 流程使 ChatGPT 4o 的响应更具相关性。 来源:https://chatgpt.com/

然而,在生成图像时,这是一种不常见的功能,ChatGPT 承认在这方面存在自身的局限性:

ChatGPT 4o 根据总体路线和它所解释的描述,对全新手表发布的可视化做出了很好的猜测;但它无法“吸收”新图像并将其融入基于 DALL-E 的一代。

ChatGPT 4o 根据总体路线和它所解释的描述,对全新手表发布的可视化做出了很好的猜测;但它无法“吸收”新图像并将其融入基于 DALL-E 的一代。

将外部检索到的数据合并到生成的图像中是一项挑战,因为必须首先将传入的图像分解为标记和嵌入,然后将其映射到模型最接近该主题的训练领域知识。

虽然这个过程对于训练后工具很有效,比如 控制网但是,这样的操作基本上还是很肤浅的,本质上是通过渲染管道来传输检索到的图像,但并没有将其深度集成到模型的内部表示中。

因此,该模型缺乏像神经渲染系统那样生成新视角的能力 神经RF 可以构建具有真实空间和结构理解的场景。

成熟的逻辑

大型语言模型 (LLM)(例如 Perplexity)中基于 RAG 的查询也存在类似的限制。当此类模型处理外部检索的数据时,其功能就像成年人利用一生的知识来推断某个主题的概率一样。

然而,就像一个人无法将新信息追溯到塑造他们基本世界观的认知框架中一样(当他们的偏见和先入之见仍在形成时),法学硕士也无法将新知识无缝地融合到其预先训练的结构中。

相反,它只能“影响”或将新数据与现有的内部知识并列,使用所学原理进行分析和推测,而不是在基础层面进行综合。

这种等值不足 并列内部化 生成图像的生成可能比基于语言的生成更明显:“原生”(而非基于 RAG)生成更深层次的网络连接和更强的创造力已经在 各种研究.

RAG 图像生成的隐藏风险

即使从技术上讲,以 RAG 风格的方式将检索到的互联网图像无缝集成到新合成的图像中是可行的,但安全相关的限制会带来额外的挑战。

用于训练生成模型的许多数据集都经过精心挑选,以尽量减少露骨、种族主义或暴力内容以及其他敏感类别的存在。然而,这个过程并不完善,残留关联可能会持续存在。为了缓解这种情况,DALL·E 和 Adob​​e Firefly 等系统依赖于二级过滤机制,这些机制会筛选输入提示和生成的输出以查找违禁内容。

因此,一个简单的 NSFW 过滤器(主要拦截露骨内容)不足以评估检索到的基于 RAG 的数据的可接受性。此类内容仍然可能具有冒犯性或有害性,超出了模型预定义的审核参数,可能会引入 AI 缺乏上下文意识而无法正确评估的内容。

的发现 最近的漏洞 在中国共产党制作的旨在压制有关被禁政治内容讨论的 DeepSeek 中,研究人员强调了如何利用替代输入途径来绕过模型的道德保障;可以说,这也适用于从互联网上检索到的任意新数据,当这些数据旨在被纳入新的图像生成时。

用于图像生成的 RAG

尽管存在这些挑战和棘手的政治问题,但仍有许多项目试图使用基于 RAG 的方法将新数据纳入视觉生成。

雷迪

MTT综合医学训练疗法国际教学中心 基于检索的扩散 (ReDi)项目是一个无需学习的框架,通过检索相似信息来加速扩散模型推理 轨迹 来自预先计算的知识库。

数据集中的值可以“借用”到 ReDi 中的新一代。来源:https://arxiv.org/pdf/2302.02285

数据集中的值可以被“借用”到 ReDi 中的新一代。 来源:https://arxiv.org/pdf/2302.02285

在扩散模型中,轨迹是模型从中生成图像所采用的逐步路径 纯噪音。通常,这个过程会通过多个步骤逐渐发生,每一步都会使图像更加细化。

ReDi 通过跳过许多步骤来加快速度。它不是计算每一个步骤,而是从数据库中检索类似的过去轨迹并跳转到流程中的后续点。这减少了所需的计算次数,使基于扩散的图像生成速度更快,同时仍保持高质量。

ReDi 不会修改扩散模型的 权重,而是使用知识库跳过中间步骤,从而减少采样所需的函数估计次数。

当然,这与随意将特定图像合并到生成请求中并不相同;但它确实与类似类型的生成有关。

2022 年发布,这一年潜在扩散模型 捕获 在公众的想象中,ReDi 似乎是最早依赖 RAG 方法的基于扩散的方法之一。

不过需要指出的是,2021 年 Facebook Research 发布了 实例条件 GAN,试图调节 图像输入新颖,这种 投影 进入潜在空间在文献中极为常见,无论是对于 GAN 还是扩散模型;挑战在于使这样的过程无需训练且可以实时运行,就像以 LLM 为重点的 RAG 方法一样。

RDM

RAG 增强图像生成的另一个早期尝试是 检索增强扩散模型 (RDM),它引入了半参数 生成图像合成的方法。传统的扩散模型将所有学习到的视觉知识存储在其神经网络参数中,而 RDM 则依赖于外部图像数据库:

在 RDM* 中的说明性伪查询中检索最近邻居。

在 RDM* 中的说明性伪查询中检索最近邻居。

在训练过程中,模型会检索 最近的邻居 (视觉或语义上相似的图像)来自外部数据库,以指导生成过程。这使得模型能够根据现实世界的视觉实例来调节其输出。

检索过程由 CLIP 嵌入,旨在强制检索到的图像与查询共享有意义的相似性,并提供新的信息以改进生成。

这减少了对参数的依赖,有助于较小的模型获得有竞争力的结果,而不需要大量的训练数据集。

RDM 方法支持 事后 修改:研究人员可以在推理时交换数据库,从而实现零样本适应新的风格、领域,甚至完全不同的任务,如风格化或类条件合成。

在下面几行中,我们看到最近的邻居被纳入 RDM* 中的扩散过程。

在下面几行中,我们看到最近的邻居被纳入 RDM* 中的扩散过程。

RDM 的一个关键优势是它能够在不重新训练模型的情况下改进图像生成。只需更改检索数据库,模型就可以推广到从未明确训练过的新概念。这对于以下应用特别有用: 领域转移 发生,例如基于不断发展的数据集生成医学图像,或调整文本到图像模型以用于创造性应用。

不利的是,这种基于检索的方法依赖于外部数据库的质量和相关性,这使得数据管理成为实现高质量生成的重要因素;而且这种方法与商业 LLM 中典型的基于 RAG 的交互的图像合成等价物还相去甚远。

ReMoDiffuse

ReMoDiffuse 是一个检索增强运动扩散模型,专为 3D 人体运动生成而设计。与 传统运动生成模型 纯粹依赖于学习到的表示,ReMoDiffuse 从大型运动数据集中检索相关运动样本,并将它们集成到去噪过程中,其模式类似于 RDM(参见上文)。

RAG 增强型 ReMoDiffuse(最右边)与之前方法的比较。来源:https://arxiv.org/pdf/2304.01116

RAG 增强的 ReMoDiffuse(最右边)与之前方法的比较。 来源:https://arxiv.org/pdf/2304.01116

这使得模型能够生成设计得更加自然和多样化的运动序列,并且在语义上忠实于用户的文本提示。

ReMoDiffuse 采用创新的 混合检索机制它根据语义和运动相似性选择运动序列,目的是确保检索到的运动不仅在主题上相关,而且在集成到新一代时在物理上也是合理的。

然后,该模型使用 语义调制变压器,它选择性地吸收从检索到的运动中获取的知识,同时保持生成序列的特征:

ReMoDiffuse 管道的架构。

ReMoDiffuse 管道的架构。

该项目的 条件混合物 技术增强了模型在不同提示和检索条件下概括的能力,在生成过程中平衡检索到的运动样本和文本提示,并调整每个源在每个步骤中获得的权重。

这有助于防止不切实际或重复的输出,即使是罕见的提示。它还解决了 尺度敏感性问题 经常出现在 无分类器指导 扩散模型中常用的技术。

RA-CM3

斯坦福的2023 帕普检索增强多模态语言模型 (RA-CM3) 允许系统在推理时访问现实世界的信息:

斯坦福大学的检索增强多模态语言模型 (RA-CM3) 使用互联网检索图像来增强生成过程,但仍处于原型阶段,无法公开访问。来源:https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

斯坦福大学的检索增强多模态语言模型 (RA-CM3) 模型使用互联网检索的图像来增强生成过程,但仍然是一个没有公开访问的原型。 来源:https://cs.stanford.edu/~myasu/files/RACM3_slides.pdf

RA-CM3 将检索到的文本和图像集成到生成流程中,增强了文本到图像和图像到文本的合成。使用 CLIP 进行检索,并使用 变压器 作为生成器,该模型在编写输出之前会参考相关的多模式文档。

MS-COCO 基准测试显示,与 DALL-E 和类似系统相比,有显著改进,达到了 12 分 弗雷谢起始距离 (FID)减少,计算成本更低。

然而,与其他检索增强方法一样,RA-CM3 不会无缝地内化其检索到的知识。相反,它会将新数据叠加到其预先训练好的网络中,就像 LLM 使用搜索结果增强响应一样。虽然这种方法可以提高事实准确性,但它并不能取代需要深度综合的领域对训练更新的需求。

此外,该系统的实际实现似乎尚未发布,即使是基于 API 的平台。

瑞尔瑞格

A 新版本 来自中国,并促使我们研究 RAG 增强生成图像系统的一个系统叫做 检索增强现实图像生成 (RealRAG)。

绘制到 RealRAG 中的外部图像(中下)。来源:https://arxiv.o7rg/pdf/2502.00848

绘制到 RealRAG 中的外部图像(中下方)。 来源:https://arxiv.o7rg/pdf/2502.00848

RealRAG 从公开可用的数据集中检索相关对象的实际图像,例如 影像网, 斯坦福汽车, 斯坦福狗牛津花然后,它将检索到的图像集成到生成过程中,解决模型中的知识空白。

RealRAG 的一个关键组件是 自我反思对比学习,它训练检索模型来查找信息丰富的参考图像,而不仅仅是选择 视觉上相似 的。

作者指出:

“我们的关键见解是训练一个检索器,该检索器检索的图像远离生成器的生成空间,但接近文本提示的表示。

“为此,我们首先根据给定的文本提示生成图像,然后利用生成的图像作为查询,在基于真实对象的数据库中检索最相关的图像。这些最相关的图像被用作反射底片。”

这种方法可以确保检索到的图像有助于 缺乏知识 到生成过程,而不是强化模型中现有的偏见。

最左边是检索到的参考图像;中间是没有使用 RAG;最右边是使用检索到的图像。

最左边是检索到的参考图像;中间是没有使用 RAG;最右边是使用检索到的图像。

然而,对检索质量和数据库覆盖率的依赖意味着其有效性可能因高质量参考资料的可用性而有所不同。如果数据集中不存在相关图像,该模型可能仍会难以理解不熟悉的概念。

RealRAG 是一种高度模块化的架构,可与多种其他生成架构兼容,包括基于 U-Net、基于 DiT 和自回归模型。

一般来说,检索和处理外部图像会增加计算开销,系统的性能取决于检索机制的优劣 概括 跨越不同的任务和数据集。

结语

这是对图像检索多模态生成系统的代表性概述,而非详尽概述。有些此类系统仅使用检索来改善视觉理解或数据集管理,以及其他各种动机,而不是寻求生成图像。一个例子是 互联网浏览器.

文献中许多其他 RAG 集成项目仍未发布。仅包含已发表研究的原型包括 重新想象尽管它来自谷歌,但却只能访问本地自定义数据库中的图像。

此外,2024 年 XNUMX 月,百度 公布 基于图像的检索增强生成 (iRAG),这是一个使用“从数据库”检索图像的新平台。尽管据报道 Ernie 平台上有 iRAG,但似乎没有关于此检索过程的更多细节,该过程似乎依赖于 本地 数据库(即服务本地且用户不能直接访问)。

此外,2024 统一的文本到图像生成和检索 提供了另一种基于 RAG 的方法,即使用外部图像在生成时增强结果——同样,来自本地数据库,而不是来自 特设 互联网资源。

基于 RAG 的图像生成增强技术的兴奋点可能集中在可以将互联网来源或用户上传的图像直接合并到生成过程的系统上,并允许用户参与图像的选择或来源。

然而,这是一个重大挑战,至少有两个原因:首先,因为此类系统的有效性通常取决于在资源密集型培训过程中形成的深度整合关系;其次,如前所述,由于对安全性、合法性和版权限制的担忧,这一特性不太可能出现在 API 驱动的 Web 服务和一般的商业部署中。

 

* Source: https://proceedings.neurips.cc/paper_files/paper/2022/file/62868cc2fc1eb5cdf321d05b4b88510c-Paper-Conference.pdf

首次发布于 4 年 2025 月 XNUMX 日星期二

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai