人工智能

视频生成 AI：探索 OpenAI 的突破性 Sora 模型

发布时间

2个月前

2024 年 3 月 1 日

阿尤什·米塔尔

OpenAI 公布了其最新的人工智能作品—— 空，一款革命性的文本到视频生成器，能够根据简单的文本提示生成长达 1 分钟的高保真、连贯的视频。 Sora 代表了生成视频人工智能的巨大飞跃，其功能远远超过了以前最先进的模型。

在这篇文章中，我们将对 Sora 进行全面的技术深入研究——它的底层工作原理、OpenAI 用于实现 Sora 令人难以置信的视频生成能力的新技术、它的关键优势和当前的局限性，以及 Sora 所代表的巨大潜力。人工智能创造力的未来。

索拉概述

在较高级别上，Sora 将文本提示作为输入（例如“两只狗在田野里玩耍”），并生成包含真实图像、动作和音频的匹配输出视频。

Sora 的一些关键功能包括：

生成长达 60 秒的高分辨率视频（1080p 或更高）
制作具有一致的对象、纹理和动作的高保真、连贯的视频
支持多种视频风格、宽高比和分辨率
对图像和视频进行调节以在它们之间进行扩展、编辑或转换
展示 3D 一致性和长期对象持久性等新兴模拟能力

在幕后，Sora 结合并扩展了两项关键的人工智能创新—— 扩散模型和变形金刚 – 实现前所未有的视频生成能力。

Sora 的技术基础

Sora 建立在近年来取得巨大成功的两项突破性人工智能技术之上——深度扩散模型和 Transformer：

扩散模型

扩散模型是一类深度生成模型，可以创建高度逼真的模型合成图像和视频。他们通过获取真实的训练数据来工作，添加噪音来破坏它，然后训练一个神经网络逐步消除噪声以恢复原始数据。这训练模型生成高保真、多样化的样本，捕获现实世界视觉数据的模式和细节。

Sora 使用一种称为“扩散模型”的扩散模型去噪扩散概率模型（DDPM）。 DDPM 将图像/视频生成过程分解为多个较小的去噪步骤，从而更容易训练模型以反转扩散过程并生成清晰的样本。

具体来说，Sora 使用 DDPM 的视频变体（称为 DVD-DDPM），旨在直接在时域中对视频进行建模，同时实现跨帧的强时间一致性。这是 Sora 能够制作连贯、高保真视频的关键之一。

变压器

Transformer 是一种革命性的神经网络架构，近年来已在自然语言处理中占据主导地位。 Transformer 跨基于注意力的块并行处理数据，使它们能够对序列中复杂的远程依赖关系进行建模。

Sora 通过传入视频的标记化补丁而不是文本标记来调整转换器来操作视觉数据。这使得模型能够理解视频序列中的空间和时间关系。 Sora 的 Transformer 架构还支持远程一致性、对象持久性和其他紧急模拟功能。

通过结合这两种技术——利用 DDPM 进行高保真视频合成，利用 Transformer 实现全局理解和连贯性——Sora 突破了生成视频 AI 的可能性界限。

当前的局限性和挑战

尽管 Sora 能力很强，但仍然存在一些关键限制：

缺乏物理理解 – 索拉对物理和因果关系缺乏天生的理解。例如，破损的物体可能会在视频过程中“愈合”。
长时间内不连贯 – 超过 1 分钟的样本中可能会出现视觉伪影和不一致。保持超长视频的完美连贯性仍然是一个开放的挑战。
零星的物体缺陷 – Sora 有时会生成视频，其中对象在帧与帧之间不自然地移动位置或自发地出现/消失。
关闭分发提示时遇到困难 – 远远超出 Sora 训练分布的高度新颖的提示可能会导致低质量的样本。 Sora 的能力在其训练数据附近最强。

进一步扩大模型规模，训练数据，并且需要新技术来解决这些限制。视频生成人工智能前面的路还很长。

负责任地开发视频生成人工智能

与任何快速发展的技术一样，除了好处之外，还需要考虑潜在的风险：

合成虚假信息 – Sora 使创建受操纵的虚假视频比以往任何时候都更加容易。需要采取保障措施来检测生成的视频并限制有害的滥用。
数据偏差——像 Sora 这样的模型反映了训练数据的偏差和局限性，这些数据需要多样化和具有代表性。
有害内容——如果没有适当的控制，文本转视频人工智能可能会产生暴力、危险或不道德的内容。深思熟虑的内容审核政策是必要的。
知识产权问题——未经许可对受版权保护的数据进行培训会引发衍生作品的法律问题。数据许可需要仔细考虑。

在最终公开部署 Sora 时，OpenAI 需要非常小心地解决这些问题。总体而言，如果使用得当，Sora 代表了一种非常强大的创造力、可视化、娱乐等工具。

视频生成人工智能的未来

Sora 证明了生成视频人工智能的令人难以置信的进步即将到来。随着这项技术的不断快速发展，它可能会朝着以下一些令人兴奋的方向发展：

持续时间较长的样本 – 模型可能很快就能生成数小时而不是几分钟的视频，同时保持连贯性。这极大地扩展了可能的应用。
完全时空控制 – 除了文本和图像之外，用户还可以直接操作视频潜在空间，从而实现强大的视频编辑能力。
可控模拟 – 像 Sora 这样的模型可以通过文本提示和交互来操纵模拟世界。
个性化视频 – 人工智能可以生成针对个人观众或环境定制的独特视频内容。
多模态融合 – 语言、音频和视频等模式的更紧密集成可以实现高度互动的混合媒体体验。
专业领域 – 特定领域的视频模型可以在医疗成像、工业监控、游戏引擎等定制应用中表现出色。

结论

空OpenAI 在生成视频 AI 领域取得了爆炸性的飞跃，展示了去年看似几十年后才能实现的功能。虽然解决开放挑战的工作仍有待完成，但 Sora 的优势表明，这项技术有朝一日大规模模仿和扩展人类视觉想象力的巨大潜力。

来自 DeepMind、Google、Meta 等的其他模型也将继续突破这一领域的界限。人工智能生成视频的未来看起来非常光明。我们可以预期这项技术将在未来几年扩大创造性的可能性并找到非常有用的应用程序，同时需要深思熟虑的治理来降低风险。

对于人工智能开发人员和从业者来说，这都是一个激动人心的时刻，因为像 Sora 这样的视频生成模型开启了新的可能性。这些进步可能对媒体、娱乐、模拟、可视化等领域产生的影响才刚刚开始显现。

相关话题：LLM 自然语言处理 OpenAI 空文本到视频生成器

下一步

5年内我们能实现AGI吗？ NVIDIA 首席执行官黄仁勋相信这是可能的

不要错过

探索 Gemini 1.5：谷歌最新的多模态 AI 模型如何超越其前身提升 AI 格局

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能

视频生成 AI：探索 OpenAI 的突破性 Sora 模型

人工智能

视频生成 AI：探索 OpenAI 的突破性 Sora 模型

目录

索拉概述

Sora 的技术基础

扩散模型

变压器

当前的局限性和挑战

负责任地开发视频生成人工智能

视频生成人工智能的未来

结论

最新文章

联合人工智能

视频生成 AI：探索 OpenAI 的突破性 Sora 模型

目录

索拉概述

Sora 的技术基础

扩散模型

变压器

当前的局限性和挑战

负责任地开发视频生成人工智能

视频生成人工智能的未来

结论

你可能会喜欢

最新文章