人工智能
通过文本引导输入进行一致的 AI 视频内容编辑
虽然专业视觉特效社区很感兴趣,并且偶尔会觉得 有点受到威胁 – 通过图像和视频合成方面的新创新,大多数基于人工智能的视频编辑项目缺乏时间连续性,将许多这些努力归入“迷幻”领域, 闪烁并迅速变化 纹理和结构、不一致的效果以及那种令人回想起的原始技术争论 光化学时代 的视觉效果。
如果你想改变视频中一些非常具体的东西,而不属于深度伪造的领域(即,在一个人的现有镜头上强加一个新的身份),大多数当前的解决方案都在相当严格的限制下运行,在以下方面:生产质量视觉效果所需的精度。
一个例外是魏茨曼科学研究所的一个松散的学者协会正在进行的工作。 2021 年,其三名研究人员与 Adobe 合作, 公布 一种分解视频并叠加一致的内部映射的新颖方法 – 分层神经图谱 – 合成输出,包含 alpha 通道和时间上连贯的输出。
虽然它落入了被覆盖的领域的某个地方 光流 在 VFX 管道中,分层图集在传统 CGI 工作流程中没有直接等效项,因为它本质上构成了可以通过传统软件方法生成和编辑的“时间纹理图”。 在上图中的第二张图像中,路面的背景在视频的整个运行时间中(形象地)呈现。 更改基本图像(上图中左起第三张图像)会产生背景的一致变化。
上面“展开”图集的图像仅代表个别解释的框架; 任何目标视频帧中的一致变化都会映射回原始帧,保留任何必要的遮挡和其他必要的场景效果,例如阴影或反射。
核心架构使用多层感知器 (MLP) 来表示展开的图集、Alpha 通道和映射,所有这些都在 2D 空间中协同优化,消除了 NeRF 式的 3D 几何点、深度图、以及类似的 CGI 风格装饰。
单个对象的参考图集也可以可靠地更改:
本质上,2021 系统将几何对齐、匹配移动、映射、重新纹理化和动态观察结合到一个离散的神经过程中。
文字直播
2021 年论文的三位原始研究人员与 NVIDIA 研究人员一起,共同推动了这项技术的新创新,该技术将分层地图集的强大功能与文本引导 CLIP 技术相结合,该技术本周再次受到关注。开放人工智能 释放 DALL-E 2 框架的一部分。
新的架构,名为 文字直播,允许最终用户根据文本提示对实际视频内容进行本地化编辑:
Text2Live 通过利用特定于受影响视频剪辑的内部数据库,提供语义和高度本地化的编辑,无需使用预先训练的生成器。
该技术不需要用户提供的掩模,例如典型的动态观察或绿屏工作流程,而是需要估计 相关性地图 通过基于引导技术 2021研究 来自特拉维夫大学计算机科学学院和 Facebook 人工智能研究中心 (FAIR)。
新的 纸 标题为 Text2LIVE:文本驱动的分层图像和视频编辑。 最初的 2021 团队由 Weizmann 的 Omer Bar-Tal 和 NVIDIA Research 的 Yoni Kasten 加入。
建筑
Text2Live 包含一个在唯一输入图像和目标文本提示上训练的生成器。 在 400 亿个文本/图像对上进行预训练的对比语言图像预训练 (CLIP) 模型提供了相关的视觉材料,可以从中解释用户输入的转换。
生成器接受输入图像(帧)并输出包含颜色和不透明度信息的目标 RGBA 层。 然后,该层通过额外的增强合成到原始素材中。
通过对与目标视频或图像相关的内部图像进行训练,Text2Live 避免了以下要求: 颠倒 将输入图像放入生成对抗网络(GAN)的潜在空间中,这是目前的一种做法 还远远不够准确 满足制作视频编辑要求,或者使用更精确和可配置的扩散模型,但是 无法保持忠诚度 到目标视频。
先前的方法要么使用 基于传播的方法 or 基于光流的 接近。 由于这些技术在某种程度上是基于帧的,因此两者都无法在输出视频中创建一致的时间外观变化。 相反,神经分层图集提供了一个处理变化的单一空间,然后随着视频的进展,它可以保持忠实于所承诺的变化。
Text2Live 更接近于基于人工智能的合成领域的突破,而不是在丰富的文本到图像领域的突破,本周随着 第二代 OpenAI 的 DALL-E 框架(它可以将目标图像合并为转换过程的一部分,但除了直接干预照片的能力仍然有限) 审查源训练数据并施加过滤器,旨在防止用户滥用)。
相反,Text2Live 允许最终用户提取图集,然后在基于像素的高控制环境(例如 Photoshop)(甚至可以说是更抽象的图像合成框架,例如 神经RF),然后将其反馈到正确定向的环境中,但该环境不依赖于 3D 估计或基于 CGI 的向后查看方法。
此外,作者声称,Text2Live 是第一个以完全自动方式实现屏蔽和合成的类似框架。
首次发布于 7 年 2022 月 XNUMX 日。