人工智能

深度伪造的情感黎明

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

研究人员开发了一种新的机器学习技术，可以在视频中任意地对面部施加新的情感，利用最近出现的现有技术来匹配唇部运动和外语配音。该研究是波士顿东北大学和麻省理工学院媒体实验室之间的合作，题为《可逆的皱眉：视频到视频的面部情感翻译》。虽然研究人员承认，最初的结果质量需要通过进一步的研究来改进，但他们声称，这种被称为Wav2Lip-Emotion的技术是第一个直接通过神经网络技术解决全视频表情修改的问题。基础代码已经在GitHub上发布，尽管模型检查点稍后将添加到开源存储库中，作者承诺。

左边是源视频的‘悲伤’帧，右边是‘高兴’帧。在中间是两种初生的方法来合成替代情感——顶行：一个完全遮罩的面部，整个表情表面都被替换了；底行：一种更传统的Wav2Lip方法，只替换了面部的下半部分。来源：https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

单个视频作为源数据

理论上，这样的操作现在可以通过传统的深度伪造存储库（如DeepFaceLab或FaceSwap）进行全面的训练。然而，标准的工作流程将涉及使用一个替代身份来替换“目标”身份，例如一个模仿目标的演员，他们自己的表情将被转移到另一个个体，以及他们的整个表演。另外，深度伪造语音克隆技术通常是必要的，以完成幻觉。
进一步，实际上改变源视频中target1>target1的表情，在这些流行的框架中将涉及改变面部对齐向量，以一种这些架构目前不支持的方式。

Wav2Lip-Emotion保持原始视频音频对话的唇部同步，同时转换相关的表情。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

深度伪造的情感黎明

单个视频作为源数据

You may like