AI 入门 101
在 AI 中的扩散模型 – 您需要知道的一切

在 AI 生态系统中,扩散模型正在为技术进步的方向和步伐设定标准。它们正在改变我们处理复杂的 生成性 AI 任务的方式。这些模型基于高斯原理、方差、微分方程和生成序列的数学。 (我们将在下面解释技术术语)
现代以 Nvidia、Google、Adobe 和 OpenAI 为代表的 AI 中心产品和解决方案将扩散模型置于聚光灯下。 DALL.E 2、Stable Diffusion 和 Midjourney 是最近在互联网上流行的扩散模型的著名例子。用户提供一个简单的文本提示作为输入,这些模型可以将其转换为逼真的图像,如下所示。

使用 Midjourney v5 生成的图像,输入提示:加州罂粟,鲜艳。来源:Midjourney
让我们探索扩散模型的基本工作原理以及它们如何改变我们今天看到的世界的方向和规范。
什么是扩散模型?
根据研究论文“去噪扩散概率模型”,扩散模型被定义为:
“扩散模型或概率扩散模型是使用变分推理训练的参数化马尔可夫链,用于生成与数据在有限时间后匹配的样本”
简单来说,扩散模型可以生成与其训练数据类似的数据。如果模型在猫的图像上训练,它可以生成类似的逼真猫图像。
现在,让我们尝试分解上面提到的技术定义。扩散模型的灵感来自于一个可以分析和预测随时间变化的系统行为的概率模型的工作原理和数学基础,例如预测股票市场回报或流行病的传播。
定义指出,它们是使用变分推理训练的参数化马尔可夫链。马尔可夫链是定义系统随时间在不同状态之间切换的数学模型。系统的当前状态只能确定转换到特定状态的概率。换句话说,系统的当前状态持有系统可以在任何给定时间跟随或获取的可能状态。
使用变分推理训练模型涉及对概率分布进行复杂的计算。其目标是找到与观察到的(已知或实际)数据在特定时间后匹配的马尔可夫链的确切参数。这个过程最小化了模型的损失函数的值,即预测(未知)和观察(已知)状态之间的差异。
一旦模型训练完成,它就可以生成与观察到的数据匹配的样本。这些样本代表系统可以遵循或获取的可能轨迹或状态,以及每个轨迹发生的不同概率。因此,模型可以通过生成一系列样本并找到它们的概率(这些事件发生的可能性)来预测系统的未来行为。
如何解释 AI 中的扩散模型?
扩散模型是深度生成模型,通过向可用的训练数据(也称为向前扩散过程)添加噪声(高斯噪声),然后逆转该过程(称为去噪或逆扩散过程)来恢复数据。模型逐渐学习去除噪声。这个学习的去噪过程可以从随机种子(随机噪声图像)生成新的、高质量的图像,如下图所示。

逆扩散过程:噪声图像通过训练的扩散模型去噪以恢复原始图像(或生成其变体)。来源:去噪扩散概率模型
3 种扩散模型类别
有 三个基本的数学框架 支撑扩散模型背后的科学。所有三个都基于添加噪声然后去除噪声来生成新样本的原理。让我们在下面讨论它们。

扩散模型向图像添加和去除噪声。来源:视觉中的扩散模型:调查
1. 去噪扩散概率模型(DDPMs)
如上所述,DDPMs 是主要用于去除视觉或音频数据噪声的生成模型。它们在各种图像和音频去噪任务中表现出色。例如,电影行业使用现代图像和视频处理工具来提高制作质量。
2. 噪声条件得分基于生成模型(SGMs)
SGMs 可以从给定分布中生成新样本。它们通过学习估计目标分布对数密度的得分函数来工作。对数密度估计对可用数据点做出假设,即它们是未知数据集(测试集)的一部分。然后可以使用此得分函数从分布中生成新数据点。
例如,深度伪造 以产生名人假视频和音频而闻名。但是,它们主要归因于 生成对抗网络(GANs)。然而,SGMs 已经 展示了相似的能力 – 有时甚至超过 – 在生成高质量的名人面部方面。另外,SGMs 可以帮助扩展医疗数据集,这些数据集由于严格的法规和行业标准而难以大量获得。
3. 随机微分方程(SDEs)
SDEs 描述了随机过程在时间上的变化。它们被广泛应用于物理和金融市场,涉及对市场结果有着重大影响的随机因素。
例如,商品价格非常动态,受到一系列随机因素的影响。SDEs 计算金融衍生品,如期货合约(如原油合约)。它们可以模拟波动并计算有利的价格以提供安全感。
AI 中扩散模型的主要应用
让我们看一下 AI 中扩散模型的一些广泛应用。
高质量视频生成
使用 深度学习 创建高端视频具有挑战性,因为它需要高的视频帧连续性。这就是扩散模型派上用场的地方,因为它们可以生成视频帧的子集以填充缺失的帧,从而产生高质量且无延迟的视频。
研究人员已经开发了 灵活的扩散模型和残余视频扩散 技术来实现这一目的。这些模型还可以通过无缝地添加 AI 生成的帧来生成逼真的视频,使其看起来像来自高端摄像头的自然拍摄。
这些模型可以简单地通过添加虚拟帧来扩展低帧率视频的帧率(每秒帧数),从而在几乎没有帧丢失的情况下生成高质量的视频。这些框架还可以帮助基于深度学习的模型从头开始生成类似自然拍摄的 AI 视频。
2023 年有大量的 AI 视频生成器 可用于快速简便地制作和编辑视频内容。
文本到图像生成
文本到图像模型使用输入提示来生成高质量的图像。例如,给定输入“红苹果在盘子上”并生成一个逼真的苹果在盘子上的图像。 混合扩散 和 unCLIP 是两个著名的此类模型的例子,它们可以根据用户输入生成高度相关且准确的图像。
此外,GLIDE 由 OpenAI 是 2021 年发布的另一个著名解决方案,使用用户输入生成逼真的图像。后来,OpenAI 发布了其迄今为止最先进的图像生成模型 DALL.E-2。
同样,Google 也开发了一个图像生成模型,称为 Imagen,它使用大型语言模型来深入理解输入文本并生成逼真的图像。
我们上面提到了其他流行的图像生成工具,如 Midjourney 和 Stable Diffusion (DreamStudio)。请看一下使用 Stable Diffusion 生成的图像。

使用 Stable Diffusion 1.5 生成的图像,输入提示:人脸拼贴,超写实,很多变化的老托姆·约克,面部变化,歌手兼词曲作者,(侧)侧面,各种年龄,微距镜头,边缘空间,由李·伯梅霍、阿方斯·慕夏和格雷格·鲁特科夫斯基,灰胡子,光滑面部,颧骨
AI 中的扩散模型 – 未来会发生什么?
扩散模型已经表现出巨大的潜力,成为从复杂图像和视频数据集生成高质量样本的强大方法。通过提高人类使用和操纵数据的能力,扩散模型可以潜在地改变我们今天看到的世界。我们可以期待看到更多扩散模型的应用成为我们日常生活的重要组成部分。
话虽如此,扩散模型并不是唯一的生成性 AI 技术。研究人员还使用生成对抗网络(GANs)、变分 自编码器 和基于流的深度生成模型来生成 AI 内容。了解扩散模型与其他生成模型的区别可以帮助在未来几天内产生更有效的解决方案。
要了解更多关于 AI 基础技术的信息,请访问 Unite.ai。查看我们关于生成性 AI 工具的精选资源。
