人工智能

人工智能中的扩散模型——你需要知道的一切

发布时间

1年前

2023 年 3 月 31 日

在人工智能生态系统中，扩散模型正在确定技术进步的方向和步伐。他们正在彻底改变我们处理复杂问题的方式生成式人工智能任务。这些模型基于高斯原理、方差、微分方程和生成序列的数学原理。（我们将在下面解释技术术语）

Nvidia、Google、Adobe 和 OpenAI 开发的现代以 AI 为中心的产品和解决方案使扩散模型成为人们关注的焦点。达尔.E 2, 稳定扩散及中途是最近在互联网上流传的扩散模型的突出例子。用户提供简单的文本提示作为输入，这些模型可以将其转换为逼真的图像，如下所示。

使用 Midjourney v5 使用输入提示生成的图像：充满活力的加州罂粟花。来源：中途

让我们探讨扩散模型的基本工作原理，以及它们如何改变我们今天所看到的世界的方向和规范。

什么是扩散模型？

根据研究出版物“去噪扩散概率模型，”扩散模型定义为：

“扩散模型或概率扩散模型是使用变分推理训练的参数化马尔可夫链，以在有限时间后生成与数据匹配的样本”

简而言之，扩散模型可以生成与其训练数据相似的数据。如果模型对猫的图像进行训练，它可以生成类似的逼真的猫图像。

现在让我们尝试分解一下上面提到的技术定义。扩散模型的灵感来自概率模型的工作原理和数学基础，该模型可以分析和预测系统随时间变化的行为，例如预测股市回报或大流行的传播。

定义指出它们是通过变分推理训练的参数化马尔可夫链。马尔可夫链是定义随时间在不同状态之间切换的系统的数学模型。系统现有的状态只能决定转变到特定状态的概率。换句话说，系统的当前状态保存了系统在任何给定时间可以遵循或获取的可能状态。

使用变分推理训练模型涉及概率分布的复杂计算。它的目的是找到与特定时间后观察到的（已知或实际）数据相匹配的马尔可夫链的确切参数。此过程最小化模型损失函数的值，即预测（未知）状态和观察到（已知）状态之间的差异。

经过训练，模型可以生成与观察到的数据相匹配的样本。这些样本代表系统随着时间的推移可能遵循或获取的可能轨迹或状态，并且每个轨迹都有不同的发生概率。因此，该模型可以通过生成一系列样本并找出它们各自的概率（这些事件发生的可能性）来预测系统的未来行为。

如何解读人工智能中的扩散模型？

扩散模型是深度生成模型，其工作原理是向可用训练数据添加噪声（高斯噪声）（也称为前向扩散过程），然后反转该过程（称为去噪或反向扩散过程）以恢复数据。模型逐渐学会消除噪声。这种学习的去噪过程从随机种子（随机噪声图像）生成新的高质量图像，如下图所示。

反向扩散过程：通过训练的扩散模型对噪声图像进行去噪以恢复原始图像（或生成其变体）。来源：去噪扩散概率模型

3 扩散模型类别

这里有三个基本数学框架支撑扩散模型背后的科学。这三者都遵循相同的原理，即添加噪声，然后将其去除以生成新样本。下面我们来讨论一下。

扩散模型添加和去除图像中的噪声。来源：视觉扩散模型：一项调查

1. 去噪扩散概率模型（DDPM）

如上所述，DDPM 是生成模型，主要用于消除视觉或音频数据中的噪声。他们在各种图像和音频去噪任务上表现出了令人印象深刻的结果。例如，电影制作行业使用现代图像和视频处理工具来提高制作质量。

2.基于噪声条件评分的生成模型（SGM）

SGM 可以根据给定的分布生成新样本。他们通过学习可以估计目标分布的对数密度的估计得分函数来工作。对数密度估计假设可用数据点是未知数据集（测试集）的一部分。然后，该评分函数可以从分布中生成新的数据点。

例如，深度假货因制作名人的虚假视频和音频而臭名昭著。但他们大多归因于生成对抗网络（GAN）。然而，SGM 已表现出相似的能力——有时表现优于其他人 – 创造高品质的名人面孔。此外，SGM 还可以帮助扩展医疗保健数据集，由于严格的法规和行业标准，这些数据集不易大量获得。

3. 随机微分方程（SDE）

SDE 描述了与时间有关的随机过程的变化。它们广泛应用于涉及对市场结果产生重大影响的随机因素的物理和金融市场。

例如，商品价格高度动态，并受到一系列随机因素的影响。 SDE 计算期货合约（如原油合约）等金融衍生品。他们可以对波动进行建模并准确计算优惠价格，从而给人一种安全感。

扩散模型在人工智能中的主要应用

让我们看看人工智能中扩散模型的一些广泛采用的实践和用途。

高质量视频生成

使用以下内容创建高端视频深入学习具有挑战性，因为它需要视频帧的高连续性。这就是扩散模型派上用场的地方，因为它们可以生成视频帧的子集来填充丢失的帧之间，从而产生高质量且流畅的视频，没有延迟。

研究人员开发了灵活的扩散模型和残留视频扩散技术来达到这个目的。这些模型还可以通过在实际帧之间无缝添加人工智能生成的帧来生成逼真的视频。

这些模型可以在从可用帧中学习模式后添加虚拟帧，从而简单地扩展低 FPS 视频的 FPS（每秒帧数）。这些框架几乎没有帧丢失，可以进一步帮助基于深度学习的模型从头开始生成基于人工智能的视频，这些视频看起来就像来自高端摄像机设置的自然镜头。

范围广泛，引人注目人工智能视频生成器将于 2023 年推出，使视频内容制作和编辑变得快速、简单。

文本到图像生成

文本到图像模型使用输入提示来生成高质量图像。例如，输入“盘子上的红苹果”并生成盘子上苹果的逼真图像。混合扩散和取消CLIP 是此类模型的两个突出示例，它们可以根据用户输入生成高度相关且准确的图像。

也， OpenAI 的 GLIDE 是 2021 年发布的另一个广为人知的解决方案，可使用用户输入生成逼真的图像。随后，OpenAI 发布了 DALL.E-2，这是其迄今为止最先进的图像生成模型。

同样，谷歌也开发了一种图像生成模型，称为图像，它使用大型语言模型来对输入文本进行深入的文本理解，然后生成逼真的图像。

我们已经提到了其他流行的图像生成工具，例如 Midjourney 和 Stable Diffusion (梦想工作室）多于。看看下面使用稳定扩散生成的图像。

使用 Stable Diffusion 1.5 使用以下提示创建的图像：“拼贴、超现实、多种变体非常古老的 thom yorke 肖像、面部变化、歌手兼作曲家、（侧面）轮廓、不同年龄、微距镜头、阈限空间，由Lee Bermejo、Alphonse Mucha 和 Greg Rutkowski，白胡子、光滑的脸、颧骨”