关注我们.

人工智能

通过文本引导输入进行一致的 AI 视频内容编辑

mm

虽然专业的视觉特效社区对图像和视频合成领域的新创新很感兴趣——有时甚至感到有点威胁——但大多数基于人工智能的视频编辑项目缺乏时间连续性,使得这些努力被归入“迷幻”领域, 闪烁并迅速变化 纹理和结构、不一致的效果以及那种令人回想起的原始技术争论 光化学时代 的视觉效果。

如果你想改变视频中不属于深度伪造范畴的非常具体的内容(即在某人的现有镜头上强加新的身份),那么就生产质量视觉效果所需的精度而言,大多数当前解决方案都会受到相当严重的限制。

一个例外是魏茨曼科学研究所的一个松散的学者协会正在进行的工作。 2021 年,其三名研究人员与 Adob​​e 合作, 公布 一种分解视频并叠加一致的内部映射的新颖方法 – 分层神经图谱 – 合成输出,包含 alpha 通道和时间上连贯的输出。

摘自 2021 年的论文:对源剪辑中道路完整遍历的估计是通过神经网络进行编辑的,而传统上需要大量的动态观察和匹配移动。 由于背景和前景元素由不同的网络处理,因此掩模是真正的“自动”。 来源:https://layered-neural-atlases.github.io/

摘自 2021 年的论文:通过神经网络对源剪辑中道路完整遍历的估算进行编辑,而传统上这种编辑方式需要大量的转描和匹配移动。由于背景和前景元素由不同的网络处理,因此蒙版真正实现了“自动化”。 来源:https://layered-neural-atlases.github.io/

虽然它落入了被覆盖的领域的某个地方 光流 在视觉特效流程中,分层图集在传统的 CGI 工作流程中没有直接对应物,因为它本质上构成了一个“时间纹理贴图”,可以通过传统的软件方法制作和编辑。在上图的第二幅图中,路面的背景在整个视频播放过程中(形象地)呈现。更改该基础图像(上图左侧第三幅图)会导致背景产生一致的变化。

上面“展开”图集的图像仅代表单独解释的帧;任何目标视频帧中的一致变化都会映射回原始帧,保留任何必要的遮挡和其他必要的场景效果,例如阴影或反射。

核心架构使用多层感知器 (MLP) 来表示展开的图集、Alpha 通道和映射,所有这些都在 2D 空间中协同优化,消除了 NeRF 式的 3D 几何点、深度图、以及类似的 CGI 风格装饰。

单个对象的参考图集也可以可靠地更改:

2021年框架下对移动物体的一致改变。 来源:https://www.youtube.com/watch?v=aQhakPFC4oQ

2021年框架下对移动物体的一致改变。 来源:https://www.youtube.com/watch?v=aQhakPFC4oQ

本质上,2021 系统将几何对齐、匹配移动、映射、重新纹理化和动态观察结合到一个离散的神经过程中。

文字直播

2021 年论文的三位原始研究人员与 NVIDIA 研究人员共同参与了该技术的一项新创新,该技术将分层图集的强大功能与文本引导的 CLIP 技术相结合,而这种技术在本周 OpenAI 的 释放 DALL-E 2 框架的一部分。

新的架构,名为 文字直播,允许最终用户根据文本提示对实际视频内容进行本地化编辑:

前台编辑的两个示例。 为了获得更好的分辨率和清晰度,请查看原始视频:https://text2live.github.io/sm/pages/video_results_atlases.html

前台编辑的两个示例。 为了获得更好的分辨率和清晰度,请查看原始视频: https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live 利用特定于受影响视频片段的内部数据库,无需使用预先训练的生成器即可提供语义和高度本地化的编辑。

Text2Live 下的背景和前景(对象)转换。 来源:https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live 下的背景和前景(对象)转换。 来源:https://text2live.github.io/sm/pages/video_results_atlases.html

该技术不需要用户提供的掩模,例如典型的动态观察或绿屏工作流程,而是需要估计 相关性地图 通过基于引导技术 2021研究 来自特拉维夫大学计算机科学学院和 Facebook 人工智能研究中心 (FAIR)。

通过基于变压器的通用注意力模型生成的输出图。

通过基于变压器的通用注意力模型生成的输出图。

新的 标题为 Text2LIVE:文本驱动的分层图像和​​视频编辑. 最初的 2021 年团队成员包括魏兹曼的 Omer Bar-Tal 和 NVIDIA Research 的 Yoni Kasten。

卓越

Text2Live 包含一个在唯一输入图像和目标文本提示上训练的生成器。 在 400 亿个文本/图像对上进行预训练的对比语言图像预训练 (CLIP) 模型提供了相关的视觉材料,可以从中解释用户输入的转换。

生成器接受输入图像(帧)并输出包含颜色和不透明度信息的目标 RGBA 层。 然后,该层通过额外的增强合成到原始素材中。

生成的 RGBA 层中的 Alpha 通道提供内部合成功能,无需依赖涉及 After Effects 等基于像素的软件的传统管道。

生成的 RGBA 层中的 Alpha 通道提供内部合成功能,无需依赖涉及 After Effects 等基于像素的软件的传统管道。

通过对与目标视频或图像相关的内部图像进行训练,Text2Live 避免了以下要求: 颠倒 将输入图像放入生成对抗网络(GAN)的潜在空间中,这是目前的一种做法 还远远不够准确 满足制作视频编辑的要求,或者使用更精确、更可配置的扩散模型,但 无法保持忠诚度 到目标视频。

来自 Text2Live 的各种基于提示的转换编辑。

来自 Text2Live 的各种基于提示的转换编辑。

先前的方法要么使用 基于传播的方法 or 基于光流的 接近。 由于这些技术在某种程度上是基于帧的,因此两者都无法在输出视频中创建一致的时间外观变化。 相反,神经分层图集提供了一个处理变化的单一空间,然后随着视频的进展,它可以保持忠实于所承诺的变化。

没有“嘶嘶声”或随机幻觉:Text2Live 获取文本提示“生锈的吉普车”的解释,并将其应用到视频中汽车的神经分层图谱一次,而不是为每个解释帧重新启动转换。

没有“嘶嘶声”或随机幻觉:Text2Live 获得文本提示“生锈的吉普车”的解释,并将其应用到视频中汽车的神经分层图谱一次,而不是为每个解释的帧重新开始转换。

Text2Live 将吉普车持续转变为生锈文物的工作流程。

Text2Live 将吉普车改造成生锈文物的工作流程。

Text2Live 更接近于基于人工智能的合成领域的突破,而不是在丰富的文本到图像领域的突破,本周随着 第二代 OpenAI 的 DALL-E 框架(该框架可以将目标图像作为转换过程的一部分,但其直接干预照片的能力仍然有限,此外 审查源训练数据并施加过滤器,旨在防止用户滥用)。

相反,Text2Live 允许最终用户提取图集,然后在基于像素的高控制环境(例如 Photoshop)(甚至可以说是更抽象的图像合成框架,例如 神经RF),然后将其反馈到正确定向的环境中,但该环境不依赖于 3D 估计或基于 CGI 的向后查看方法。

此外,作者声称,Text2Live 是第一个以完全自动方式实现屏蔽和合成的类似框架。

 

首次发布于 7 年 2022 月 XNUMX 日。

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai