通过文本引导输入进行一致的 AI 视频内容编辑 - Unite.AI

人工智能

通过文本引导输入进行一致的 AI 视频内容编辑

更新 on 2022 年 12 月 9 日

By

马丁安德森

虽然专业视觉特效社区很感兴趣，并且偶尔会觉得有点受到威胁 – 通过图像和视频合成方面的新创新，大多数基于人工智能的视频编辑项目缺乏时间连续性，将许多这些努力归入“迷幻”领域，闪烁并迅速变化纹理和结构、不一致的效果以及那种令人回想起的原始技术争论光化学时代的视觉效果。

如果你想改变视频中一些非常具体的东西，而不属于深度伪造的领域（即，在一个人的现有镜头上强加一个新的身份），大多数当前的解决方案都在相当严格的限制下运行，在以下方面：生产质量视觉效果所需的精度。

一个例外是魏茨曼科学研究所的一个松散的学者协会正在进行的工作。 2021 年，其三名研究人员与 Adobe 合作，公布一种分解视频并叠加一致的内部映射的新颖方法 – 分层神经图谱 – 合成输出，包含 alpha 通道和时间上连贯的输出。

摘自 2021 年的论文：对源剪辑中道路完整遍历的估计是通过神经网络进行编辑的，而传统上需要大量的动态观察和匹配移动。由于背景和前景元素由不同的网络处理，因此掩模是真正的“自动”。来源：https://layered-neural-atlases.github.io/

摘自 2021 年的论文：对源剪辑中道路完整遍历的估计是通过神经网络进行编辑的，而传统上需要大量的动态观察和匹配移动。由于背景和前景元素由不同的网络处理，因此掩模是真正的“自动”。来源：https://layered-neural-atlases.github.io/

虽然它落入了被覆盖的领域的某个地方光流在 VFX 管道中，分层图集在传统 CGI 工作流程中没有直接等效项，因为它本质上构成了可以通过传统软件方法生成和编辑的“时间纹理图”。在上图中的第二张图像中，路面的背景在视频的整个运行时间中（形象地）呈现。更改基本图像（上图中左起第三张图像）会产生背景的一致变化。

上面“展开”图集的图像仅代表个别解释的框架；任何目标视频帧中的一致变化都会映射回原始帧，保留任何必要的遮挡和其他必要的场景效果，例如阴影或反射。

核心架构使用多层感知器 (MLP) 来表示展开的图集、Alpha 通道和映射，所有这些都在 2D 空间中协同优化，消除了 NeRF 式的 3D 几何点、深度图、以及类似的 CGI 风格装饰。

单个对象的参考图集也可以可靠地更改：

2021年框架下对移动物体的一致改变。来源：https://www.youtube.com/watch?v=aQhakPFC4oQ

2021年框架下对移动物体的一致改变。 来源：https://www.youtube.com/watch?v=aQhakPFC4oQ

本质上，2021 系统将几何对齐、匹配移动、映射、重新纹理化和动态观察结合到一个离散的神经过程中。

文字直播

2021 年论文的三位原始研究人员与 NVIDIA 研究人员一起，共同推动了这项技术的新创新，该技术将分层地图集的强大功能与文本引导 CLIP 技术相结合，该技术本周再次受到关注。开放人工智能释放 DALL-E 2 框架的一部分。

新的架构，名为 文字直播，允许最终用户根据文本提示对实际视频内容进行本地化编辑：

前台编辑的两个示例。为了获得更好的分辨率和清晰度，请查看原始视频：https://text2live.github.io/sm/pages/video_results_atlases.html

前台编辑的两个示例。为了获得更好的分辨率和清晰度，请查看原始视频： https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live 通过利用特定于受影响视频剪辑的内部数据库，提供语义和高度本地化的编辑，无需使用预先训练的生成器。

Text2Live 下的背景和前景（对象）转换。来源：https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live 下的背景和前景（对象）转换。 来源：https://text2live.github.io/sm/pages/video_results_atlases.html

该技术不需要用户提供的掩模，例如典型的动态观察或绿屏工作流程，而是需要估计 相关性地图 通过基于引导技术 2021研究来自特拉维夫大学计算机科学学院和 Facebook 人工智能研究中心 (FAIR)。

通过基于变压器的通用注意力模型生成的输出图。

通过基于变压器的通用注意力模型生成的输出图。

新的纸标题为 Text2LIVE：文本驱动的分层图像和视频编辑。最初的 2021 团队由 Weizmann 的 Omer Bar-Tal 和 NVIDIA Research 的 Yoni Kasten 加入。

建筑

Text2Live 包含一个在唯一输入图像和目标文本提示上训练的生成器。在 400 亿个文本/图像对上进行预训练的对比语言图像预训练 (CLIP) 模型提供了相关的视觉材料，可以从中解释用户输入的转换。

生成器接受输入图像（帧）并输出包含颜色和不透明度信息的目标 RGBA 层。然后，该层通过额外的增强合成到原始素材中。

生成的 RGBA 层中的 Alpha 通道提供内部合成功能，无需依赖涉及 After Effects 等基于像素的软件的传统管道。

生成的 RGBA 层中的 Alpha 通道提供内部合成功能，无需依赖涉及 After Effects 等基于像素的软件的传统管道。

通过对与目标视频或图像相关的内部图像进行训练，Text2Live 避免了以下要求：颠倒将输入图像放入生成对抗网络（GAN）的潜在空间中，这是目前的一种做法还远远不够准确满足制作视频编辑要求，或者使用更精确和可配置的扩散模型，但是无法保持忠诚度到目标视频。

来自 Text2Live 的各种基于提示的转换编辑。

来自 Text2Live 的各种基于提示的转换编辑。

先前的方法要么使用基于传播的方法 or 基于光流的接近。由于这些技术在某种程度上是基于帧的，因此两者都无法在输出视频中创建一致的时间外观变化。相反，神经分层图集提供了一个处理变化的单一空间，然后随着视频的进展，它可以保持忠实于所承诺的变化。

没有“嘶嘶声”或随机幻觉：Text2Live 获取文本提示“生锈的吉普车”的解释，并将其应用到视频中汽车的神经分层图谱一次，而不是为每个解释帧重新启动转换。

没有“嘶嘶声”或随机幻觉：Text2Live 获取文本提示“生锈的吉普车”的解释，并将其应用到视频中汽车的神经分层图集一次，而不是为每个解释帧重新启动转换。

Text2Live 将吉普车持续转变为生锈文物的工作流程。

Text2Live 将吉普车持续转变为生锈文物的工作流程。

Text2Live 更接近于基于人工智能的合成领域的突破，而不是在丰富的文本到图像领域的突破，本周随着第二代 OpenAI 的 DALL-E 框架（它可以将目标图像合并为转换过程的一部分，但除了直接干预照片的能力仍然有限）审查源训练数据并施加过滤器，旨在防止用户滥用）。

相反，Text2Live 允许最终用户提取图集，然后在基于像素的高控制环境（例如 Photoshop）（甚至可以说是更抽象的图像合成框架，例如神经RF），然后将其反馈到正确定向的环境中，但该环境不依赖于 3D 估计或基于 CGI 的向后查看方法。

此外，作者声称，Text2Live 是第一个以完全自动方式实现屏蔽和合成的类似框架。

首次发布于 7 年 2022 月 XNUMX 日。

相关话题：甘生成对抗网络图像合成神经RF 研究

基于原始人体生物特征的 Deepfake 检测

研究人员距离实现“情商”人工智能又近了一步

马丁安德森

机器学习、人工智能和大数据领域的作家。
个人网站：马丁南德森.ai
联系我们: [电子邮件保护]
推特：@manders_ai