人工智能

深度伪造的情感黎明

mm

研究人员开发了一种新的机器学习技术,可以在视频中任意地对面部施加新的情感,利用最近出现的现有技术来匹配唇部运动和外语配音。该研究是波士顿东北大学和麻省理工学院媒体实验室之间的合作,题为《可逆的皱眉:视频到视频的面部情感翻译》。虽然研究人员承认,最初的结果质量需要通过进一步的研究来改进,但他们声称,这种被称为Wav2Lip-Emotion的技术是第一个直接通过神经网络技术解决全视频表情修改的问题。基础代码已经在GitHub上发布,尽管模型检查点稍后将添加到开源存储库中,作者承诺。

左边是源视频的‘悲伤’帧,右边是‘高兴’帧。在中间是两种初生的方法来合成替代情感——顶行:一个完全遮罩的面部,整个表情表面都被替换了;底行:一种更传统的Wav2Lip方法,只替换了面部的下半部分。来源:https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

左边是源视频的‘悲伤’帧,右边是‘高兴’帧。在中间是两种初生的方法来合成替代情感——顶行:一个完全遮罩的面部,整个表情表面都被替换了;底行:一种更传统的Wav2Lip方法,只替换了面部的下半部分。 来源:https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

单个视频作为源数据

理论上,这样的操作现在可以通过传统的深度伪造存储库(如DeepFaceLabFaceSwap)进行全面的训练。然而,标准的工作流程将涉及使用一个替代身份来替换“目标”身份,例如一个模仿目标的演员,他们自己的表情将被转移到另一个个体,以及他们的整个表演。另外,深度伪造语音克隆技术通常是必要的,以完成幻觉。
进一步,实际上改变源视频中target1>target1的表情,在这些流行的框架中将涉及改变面部对齐向量,以一种这些架构目前不支持的方式。

Wav2Lip-Emotion保持原始视频音频对话的唇部同步,同时转换相关的表情。

Wav2Lip-Emotion保持原始视频音频对话的唇部同步,同时转换相关的表情


机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai