使用AI为真实视频添加对话
一种新的AI框架可以在不重新拍摄的情况下,通过单一的端到端系统,重写、删除或添加人物在视频中的话语。 三年前,每周在学术门户网站上发布的20-30个AI视频修改框架中的任何一个都会让互联网震惊;然而,如今这一热门研究方向已变得如此多产,几乎构成了另一个“AI垃圾”分支,因此我报道此类发布的频率远低于两三年前。不过,当前这一领域的一个新发布引起了我的注意:一个集成系统,可以干预真实的视频片段,并在现有视频中插入新的语音(而不是更常见的从人脸或帧生成整个生成式片段)。在下面的示例中(我根据发布者项目网站上的众多样本视频剪辑而成),我们首先看到真实的源片段,然后在其下方看到在片段中间插入的AI语音,包括语音合成和唇形同步:点击播放。 局部编辑与拼接——FacEDiT提供的几种模式之一。请参考源网站以获得更高分辨率。 来源 – https://facedit.github.io/这种方法是新方法开发的三种模式之一,名为“局部编辑与拼接”,也是作者(以及我自己)最感兴趣的一种。本质上,该片段通过使用中间帧之一作为新AI解释的起点,并将其后续的(真实)帧作为生成插入片段应努力匹配的目标来扩展。在上面看到的片段中,这些“种子”帧和“目标”帧表现为最上方的视频暂停,而下方修改后的视频提供生成式填充。作者将这种面部和语音合成方法定位为第一种完全集成的端到端方法,用于此类AI视频编辑,并指出了像这样完全开发的框架在电视和电影制作中的潜力:“电影制作人和媒体制作人经常需要修改录制视频的特定部分——可能是一个词说错了,或者剧本在拍摄后发生了变化。例如,在《泰坦尼克号》(1997)的标志性场景中,罗斯说‘我永远不会放手,杰克。’导演后来可能决定应该是‘我永远不会忘记你,杰克。’”“传统上,此类更改需要重新拍摄整个场景,这既昂贵又耗时。说话人脸合成通过自动修改面部运动以匹配修改后的语音,提供了一种实用的替代方案,消除了重新拍摄的需要。”尽管此类AI介入可能面临文化或行业阻力,但它们也可能构成人类主导的VFX系统和工具套件中的一种新型功能。无论如何,就目前而言,挑战纯粹是技术性的。除了通过额外的AI生成对话来扩展片段外,新系统还可以改变现有的语音:点击播放。 一个改变现有对话而非插入额外对话的示例。请参考源网站以获得更高分辨率。技术现状目前没有端到端系统提供这种合成能力;尽管越来越多的生成式AI平台,如Google的Veo系列,可以生成音频,其他各种框架也可以创建深度伪造音频,但目前必须创建一个相当复杂的、由不同架构和技巧组成的流程,才能以新系统——名为FacEDiT——所能实现的方式干扰真实素材。该系统使用扩散变换器(DiT)结合流匹配,根据周围(上下文)运动和语音音频内容创建面部运动。该系统利用了处理面部重建的现有流行软件包,包括LivePortrait(最近被Kling收购)。除此之外,鉴于他们的方法是第一个将这些挑战集成到单一解决方案中的,作者创建了一个名为FacEDiTBench的新颖基准,以及几个专门针对这一非常具体任务的全新评估指标。这项新工作名为FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling,来自韩国浦项科技大学(POSTECH)、韩国科学技术院(KAIST)和美国德克萨斯大学奥斯汀分校的四位研究人员。方法FacEDiT通过学习如何根据周围运动和语音音频来填充演员原始表演的缺失部分,从而训练用于重建面部运动。如下面的示意图所示,这个过程使模型在训练期间充当间隙填充器,预测与语音匹配同时与原始视频保持一致的面部运动:在推理时,相同的架构支持两种不同的输出,具体取决于视频被掩码的程度:部分编辑,即仅改变一个短语,其余部分保持不变;或全句生成,即从头开始完全合成新的运动。该模型通过流匹配进行训练,将视频编辑视为面部运动两个版本之间的一种路径。流匹配不是学习从头开始猜测编辑后的脸应该是什么样子,而是学习在嘈杂的占位符和正确运动之间逐渐平滑地移动。为了促进这一点,系统使用上述LivePortrait系统的一个版本(见上图示意图)从每帧中提取一组紧凑的数字来表示面部运动。这些运动向量旨在描述表情和头部姿势,而不纠缠身份,以便语音更改可以本地化,而不影响人物的整体外观。FacEDiT训练为了训练FacEDiT,每个视频片段被分解为一系列面部运动快照,每帧与相应的音频块配对。然后随机隐藏运动数据的某些部分,并要求模型根据语音和周围未掩码的运动上下文,猜测那些缺失的运动应该是什么样子。由于掩码跨度和它们的位置在训练样本之间各不相同,模型逐渐学会如何处理小的内部编辑和较长的间隙,以进行全序列生成,具体取决于它获得的信息量。该系统前述的扩散变换器通过学习随时间细化噪声输入来恢复掩码运动。语音和运动不是一次性全部输入模型,而是通过交叉注意力将音频线程化到每个处理块中,帮助系统更精确地将唇部运动与音频语音匹配。为了在编辑过程中保持真实感,注意力偏向于相邻帧而非整个时间线,迫使模型专注于局部连续性,并防止在修改区域边缘出现闪烁或运动跳跃。位置嵌入(告诉模型每帧在序列中出现的位置)进一步帮助模型保持自然的时间流和上下文。在训练期间,系统学习基于语音和附近未掩码的运动来重建掩码跨度,从而预测缺失的面部运动。在推理时,重用相同的设置,但掩码现在由语音中的编辑引导。当插入、删除或更改一个词或短语时,系统定位受影响的区域,将其掩码,并生成与新音频匹配的运动。全序列生成被视为一种特殊情况,即整个区域被掩码并从头合成。数据与测试该系统的骨干由22层扩散变换器组成,每层有16个注意力头,前馈维度为1024和2024像素。运动和外观特征使用冻结的LivePortrait组件提取,语音通过WavLM编码,并使用VoiceCraft修改。一个专用的投影层将786维的语音特征映射到DiT的潜在空间,只有DiT和投影模块是从头开始训练的。训练在AdamW优化器下进行,目标学习率为1e-4,进行了一百万步,使用两块A6000 GPU(每块48GB VRAM),总批次大小为8。FacEDiTBenchFacEDiTBench数据集包含250个示例,每个示例包含原始和编辑后语音的视频片段,以及两者的转录文本。视频来自三个来源,其中100个片段来自HDTF,100个来自Hallo3,50个来自CelebV-Dub。每个都经过手动检查,以确认音频和视频都足够清晰以供评估。使用GPT‑4o修改每个转录文本以创建语法有效的编辑。这些修改后的转录文本与原始语音一起传递给VoiceCraft以生成新音频;在每个阶段,转录文本和生成的语音都经过人工质量审查。每个样本都标有编辑类型、更改时间点和修改跨度长度,编辑分类为插入、删除或替换。更改的单词数范围从1到3个单词的短编辑,4到6个单词的中等编辑,到7到10个单词的长编辑。定义了三个自定义指标来评估编辑质量。光度连续性,通过比较边界处的像素级差异,衡量编辑片段的光照和颜色与周围视频的融合程度;运动连续性,通过测量编辑和未编辑帧之间的光流变化,评估面部运动的一致性;以及身份保持,通过使用ArcFace人脸识别模型比较原始序列和生成序列的面部嵌入,估计编辑后主体的外观是否保持一致。测试测试模型使用上述三个数据集的材料进行训练,总计约200小时的视频内容,包括视频博客、电影以及高分辨率的YouTube视频。为了评估说话人脸编辑,使用了FacEDiTBench,以及HDTF测试分割,后者已成为此类任务基准测试的标准。由于没有直接可比的系统能够封装这种端到端功能,作者选择了各种至少能重现部分目标功能、并可作为基线的框架;即KeyFace;EchoMimic;EchoMimicV2;Hallo;Hallo2;Hallo3;V-Express;AniPortrait;和SadTalker。还使用了几种既定指标来评估生成和编辑质量,唇形同步准确性通过SyncNet评估,报告唇部运动与音频之间的绝对误差(LSE-D)和置信度分数(LSE-C);Fréchet视频距离(FVD)量化视频整体看起来有多真实;以及学习感知相似性度量(LPIPS),测量生成帧与原始帧之间的感知相似性。对于编辑,除LPIPS外的所有指标仅应用于修改后的片段;对于生成,评估整个视频,边界连续性被排除。每个模型都被要求合成一个匹配的视频片段,然后将其拼接到原始剪辑中(研究人员指出,这种方法经常在编辑部分与周围素材相接处引入可见的不连续性)。还测试了第二种方法,即从修改后的音频重新生成整个视频——但这不可避免地覆盖了未编辑的区域,并且未能保留原始表演:关于这些结果,作者评论道:“(我们的)模型在编辑任务上显著优于现有方法。它实现了强大的边界连续性和高身份保持,展示了其在编辑过程中保持时间和视觉一致性的能力。此外,其卓越的唇形同步准确性和低FVD反映了合成视频的真实感。”点击播放。 结果,由本作者根据支持项目网站上发布的视频汇编而成。请参考源网站以获得更高分辨率。此外,还进行了一项人类研究,以评估编辑和生成两方面的感知质量。对于每次比较,参与者观看六个视频,并根据整体质量对它们进行排名,考虑唇形同步准确性、自然度和头部运动的真实感。在编辑试验中,参与者还评估了编辑和未编辑片段之间过渡的平滑度:在研究中,FacEDiT在编辑质量和过渡无缝性方面均以明显优势持续排名最高,在生成设置中也获得了高分,这表明其测量优势转化为了感知上更受偏爱的输出。由于篇幅有限,我们请读者参考源论文以获取消融研究的进一步细节,以及在新工作中运行和报告的其他测试。事实上,此类原型研究产品很难生成有意义的测试结果部分,因为核心产品本身不可避免地会成为后续工作的潜在基线。结论即使是推理,像这样的系统也可能在推理时需要大量的计算资源,这使得下游用户——这里大概是VFX工作室——难以在本地进行工作。因此,能够适应现实本地资源的方法将始终受到供应商的青睐,这些供应商有法律义务保护客户的素材和一般知识产权。这并不是批评这项新成果,它很可能在量化权重或其他优化下完美运行,并且是同类产品中第一个在相当长一段时间内吸引我回到这一研究方向的。 首次发布于202年12月17日星期三。同一天EET时间20:10编辑,为正文第一段增加额外空间。