AI 入门 101
AI 中的扩散模型 – 您需要了解的一切

在 AI 生态系统中,扩散模型正在为技术进步设定方向和步伐。它们正在革新我们处理复杂的 生成式 AI 任务的方式。这些模型基于高斯原理、方差、微分方程和生成序列的数学。 (我们将在下面解释这些技术术语)
由 Nvidia、Google、Adobe 和 OpenAI 开发的现代 AI 中心产品和解决方案将扩散模型置于聚光灯下。 DALL.E 2、 Stable Diffusion 和 Midjourney 是最近在互联网上流行的扩散模型的著名例子。用户提供一个简单的文本提示作为输入,这些模型可以将其转换为逼真的图像,如下图所示。

使用 Midjourney v5 生成的图像,输入提示:加州罂粟花。来源: Midjourney
让我们探索扩散模型的基本工作原理以及它们如何改变我们今天所看到的世界的方向和规范。
什么是扩散模型?
根据研究论文 “去噪扩散概率模型“,扩散模型被定义为:
“扩散模型或概率扩散模型是一种参数化的马尔可夫链,使用变分推断训练以生成与数据匹配的样本,在有限时间内”
简单来说,扩散模型可以生成与其训练数据类似的数据。如果模型在猫的图像上训练,它可以生成类似的逼真的猫图像。
现在,让我们尝试分解上面提到的技术定义。扩散模型从可以分析和预测随时间变化的系统行为的概率模型的工作原理和数学基础中汲取灵感。例如,预测股票市场回报或流行病的传播。
定义指出它们是使用变分推断训练的参数化马尔可夫链。马尔可夫链是定义系统随时间切换不同状态的数学模型。系统的当前状态只能确定转换到特定状态的概率。换句话说,系统的当前状态持有系统可以在任何时候遵循或获得的可能状态。
使用变分推断训练模型涉及复杂的概率分布计算。其目标是找到马尔可夫链的确切参数,使其在特定时间后与观察到的(已知或实际)数据匹配。该过程最小化模型的损失函数的值,即预测(未知)和观察(已知)状态之间的差异。
一旦模型训练完成,它就可以生成与观察到的数据匹配的样本。这些样本代表系统可以遵循或随时间获得的可能轨迹或状态,每个轨迹都有不同的发生概率。因此,模型可以通过生成一系列样本并找到它们的相应概率(这些事件发生的可能性)来预测系统的未来行为。
如何解释 AI 中的扩散模型?
扩散模型是深度生成模型,通过向可用训练数据(也称为向前扩散过程)添加噪声(高斯噪声),然后逆转该过程(称为去噪或反向扩散过程)来恢复数据。模型逐渐学习去除噪声。这种学习的去噪过程可以从随机种子(随机噪声图像)生成新的高质量图像,如下图所示。

反向扩散过程:通过训练的扩散模型对噪声图像进行去噪以恢复原始图像(或生成其变体)。来源: 去噪扩散概率模型
3 种扩散模型类别
有 三个基本的数学框架 支撑扩散模型背后的科学。所有三个都基于添加噪声然后去除噪声来生成新样本的原理。让我们在下面讨论它们。

扩散模型向图像添加和去除噪声。来源: 视觉中的扩散模型:调查
1. 去噪扩散概率模型(DDPMs)
如上所述,DDPMs 主要用于去除视觉或音频数据中的噪声。它们在各种图像和音频去噪任务中表现出色。例如,电影行业使用现代图像和视频处理工具来提高制作质量。
2. 噪声条件得分基于生成模型(SGMs)
SGMs 可以从给定分布中生成新样本。它们通过学习一个估计得分函数来工作,该函数可以估计目标分布的对数密度。对数密度估计对可用数据点进行假设,即它们是未知数据集(测试集)的一部分。然后可以使用此得分函数从分布中生成新数据点。
例如, 深度伪造 因为可以生成名人假视频和音频而声名狼藉。但是,它们主要归因于 生成对抗网络(GANs)。然而,SGMs 已经 展示了类似的能力 – 有时甚至超过 – 在生成高质量的名人面部方面。另外,SGMs 还可以帮助扩展医疗数据集,这些数据集由于严格的法规和行业标准而难以大量获取。
3. 随机微分方程(SDEs)
SDEs 描述了随机过程在时间上的变化。它们被广泛应用于物理和金融市场中,涉及对市场结果有重大影响的随机因素。
例如,商品的价格是高度动态的,并受到一系列随机因素的影响。SDEs 可以计算金融衍生品,如期货合约(如原油合约)。它们可以模拟波动并准确计算有利的价格,从而提供安全感。
AI 中扩散模型的主要应用
让我们来看看扩散模型在 AI 中的一些广泛应用。
高质量视频生成
使用 深度学习 创建高端视频具有挑战性,因为它需要高的视频帧连续性。这就是扩散模型的用处所在,因为它们可以生成视频帧的子集以填充缺失的帧,从而生成高质量和平滑的视频,且无延迟。
研究人员已经开发了 灵活扩散模型和残差视频扩散 技术来实现这一目的。这些模型还可以通过无缝地添加 AI 生成的帧到实际帧之间来生成逼真的视频。
这些模型可以简单地通过添加虚拟帧来提高低帧率视频的每秒帧数(FPS),从而在几乎没有帧丢失的情况下实现更流畅的播放。这些框架还可以进一步帮助深度学习模型从头开始生成类似高端摄像头拍摄的自然镜头的 AI 视频。
2023 年有大量的 AI 视频生成器 可以让视频内容的制作和编辑变得快速和简单。
文本到图像生成
文本到图像模型使用输入提示来生成高质量的图像。例如,给定输入 “红苹果在盘子上”,生成一个逼真的苹果在盘子上的图像。 混合扩散 和 unCLIP 是可以根据用户输入生成高度相关和准确图像的两种著名模型。
另外, GLIDE 由 OpenAI 是 2021 年发布的一种广泛使用的解决方案,使用用户输入生成逼真的图像。之后,OpenAI 发布了其迄今为止最先进的图像生成模型 DALL.E-2。
同样,Google 也开发了一种图像生成模型,称为 Imagen,它使用大型语言模型来深入理解输入文本,并生成逼真的图像。
我们已经提到了其他流行的图像生成工具,如 Midjourney 和 Stable Diffusion(DreamStudio)。让我们看一下使用 Stable Diffusion 生成的图像。

使用 Stable Diffusion 1.5 生成的图像,输入提示:超写实的人脸拼贴,非常老的 Thom Yorke,侧面,各种年龄,微距镜头,边缘空间,由 Lee Bermejo、Alphonse Mucha 和 Greg Rutkowski 创作,灰胡子,光滑脸庞,颧骨。
AI 中的扩散模型 – 未来会怎样?
扩散模型已经展现出作为生成高质量样本的强大方法的巨大潜力。通过提高人类使用和操纵数据的能力,扩散模型可以从根本上改变我们今天所看到的世界。我们可以期待看到更多扩散模型的应用成为我们日常生活的重要组成部分。
话虽如此,扩散模型并不是唯一的生成式 AI 技术。研究人员还使用生成对抗网络(GANs)、变分自编码器和基于流的深度生成模型来生成 AI 内容。了解扩散模型与其他生成模型的区别可以帮助我们在未来产生更有效的解决方案。
要了解更多关于 AI 基础技术的信息,请访问 Unite.ai。查看我们关于生成式 AI 工具的精选资源。












