Anderson 视角
检测深度伪造视频通话中的监视器照明

美国国家安全局(NSA)和加利福尼亚大学伯克利分校的研究人员之间的一项新合作提供了一种检测视频通话中深度伪造内容的新方法——通过观察监视器照明对通话另一端的人的外观的影响。

Popular DeepFaceLive 用户 Druuzil Tech & Games 在直播中尝试自己的 Christian Bale DeepFaceLab 模型,同时改变照明源。来源:https://www.youtube.com/watch?v=XPQLDnogLKA
该系统通过在用户屏幕上放置一个图形元素来工作,该元素的颜色变化范围比典型的深度伪造系统能够响应的速度更快——即使像实时深度伪造流媒体实现 DeepFaceLive(如上图所示)具有维持实时颜色传输和考虑环境照明的能力。
显示在通话另一端的人的监视器上的统一颜色图像会循环变化一系列有限的色调变化,这些变化旨在不激活网络摄像头的自动白平衡和其他照明补偿系统,从而不会损害该方法的效果。

来自论文的图,显示监视器前用户的照明条件变化,有效地作为一个漫射的“区域光”。来源:https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
该方法背后的理论是,实时深度伪造系统无法及时响应屏幕上的图形变化,从而在某些色谱部分增加“延迟”,揭示其存在。
为了能够准确测量反射的监视器光,系统需要考虑和扣除与监视器光无关的环境照明的影响。然后,它可以区分活跃照明色调和用户面部色调的测量结果,代表每次之间的时间差为1-4帧。

通过限制屏幕上的“检测器”图形的色调变化,并确保用户的网络摄像头不会由于监视器照明的变化而自动调整其捕获设置,研究人员能够区分深度伪造系统对照明变化的调整中的一个可察觉的延迟。
论文得出结论:
‘由于我们对实时视频通话的合理信任,以及视频通话在个人和职业生活中的日益普遍,我们提出验证视频(和音频)通话的技术将变得越来越重要。’
该研究由美国国防部应用研究数学家Candice R. Gerstner和伯克利大学教授Hany Farid进行,题为使用主动照明检测实时深度伪造视频。
信任的侵蚀
反深度伪造研究场景在过去六个月中发生了显著的转变,从一般的深度伪造检测(即针对预先录制的视频和色情内容)转向“活跃度”检测,以应对视频会议通话中深度伪造事件的日益增长的浪潮,以及FBI最近关于远程工作中使用此类技术的警告。
即使视频通话没有被深度伪造,人工智能驱动的视频模仿者的机会也开始产生偏执症。
论文指出:
‘实时深度伪造的创建带来了独特的威胁,因为人们普遍信任实时视频或电话通话,并且实时检测深度伪造具有挑战性。’
研究人员长期以来一直致力于寻找深度伪造内容的不可轻易补偿的迹象。虽然媒体通常将其描述为安全研究人员和深度伪造开发人员之间的技术战争,但大多数早期方法的否定(例如眼眨分析、头部姿势辨别和行为分析)只是因为开发人员和用户试图创建更真实的深度伪造,而不是专门解决安全社区最新的“线索”。
照亮实时深度伪造视频
在实时视频环境中检测深度伪造具有考虑视频连接差、视频内容可能受到NASA式延迟、渲染伪影和音视频降级等因素的影响的负担。即使没有深度伪造层,视频内容也可能受到这些因素的影响,从而隐藏实时深度伪造架构中的粗糙边缘。
作者的新系统改进了2020年费城天普大学网络计算中心的一项出版物中的结果和方法。

来自2020年论文的图,显示用户屏幕内容变化时面部照明的变化。 来源:https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
作者解释说:
‘因为所有现代网络摄像头都具有自动曝光,先前工作中使用的高强度主动照明可能会触发摄像头的自动曝光,从而混淆记录的面部外观。为了避免这一点,我们采用了一种等亮度变化的主动照明。’
‘虽然这可以避免摄像头的自动曝光,但它可能会触发摄像头的白平衡,从而再次混淆记录的面部外观。为了避免这一点,我们在一个色调范围内操作,我们通过实验确定该范围不会触发白平衡。’
对于这一举措,作者还考虑了类似的先前尝试,例如LiveScreen,它强制在终端用户的监视器上显示一个不显眼的照明模式,以揭示深度伪造内容。
虽然该系统实现了94.8%的准确率,但研究人员得出结论,光线模式的微妙性使得在明亮的环境中难以实施这种隐蔽方法,并建议他们自己的系统或类似的系统可以被默认集成到流行的视频会议软件中:
‘我们的提议的干预可以通过通话参与者共享他们的屏幕并显示时间变化的模式来实现,或者,理想情况下,它可以直接集成到视频通话客户端中。’
测试
作者使用了一组合成和真实的主题来测试他们的Dlib驱动的深度伪造检测器。对于合成场景,他们使用了来自瑞士洛桑联邦理工学院的Mitsuba,一个正向和逆向渲染器。

模拟环境测试的样本,具有不同的皮肤色调、光源大小、环境光强度和相机距离。
场景中包括一个具有兰伯特反射和中性皮肤色的参数化CGI头部,从一个具有90°视野的虚拟相机捕获。头部位于虚拟相机2英尺前。
为了测试该框架在各种可能的皮肤色调和设置下的性能,研究人员运行了一系列测试,顺序变化了多个方面,包括皮肤色调、距离和照明光大小。
作者评论说:
‘在模拟中,满足我们的各种假设后,我们的提议技术对广泛的成像配置具有很高的鲁棒性。’
对于真实场景,研究人员使用了15名具有不同皮肤色调的志愿者,在不同的环境中进行测试。每位志愿者都经历了两个受限色调变化的循环,在条件下,30Hz的显示刷新率与网络摄像头同步,这意味着主动照明只会持续一秒钟。结果与合成测试结果大致相同,尽管随着照明值的增加,相关性明显提高。
未来方向
研究人员承认,该系统不考虑典型的面部遮挡,例如刘海、眼镜或胡须。然而,他们指出,这种遮挡可以通过标记和后续语义分割添加到后续系统中,这些系统可以被训练为仅从目标对象的感知皮肤区域中获取值。
作者还建议,可以采用类似的范式来检测深度伪造的音频通话,并且可以在人类正常听觉范围之外的频率下播放必要的检测声音。
也许最有趣的是,研究人员还建议,超出面部的评估区域在更丰富的捕获框架中可以显著提高深度伪造检测的可能性:
‘更复杂的3D照明估计可能会提供一个更丰富的外观模型,这将更加难以被伪造者规避。虽然我们只关注了面部,但计算机显示也照亮了颈部、躯干和周围的背景,从而可以进行类似的测量。’
‘这些额外的测量将迫使伪造者考虑整个3D场景,而不仅仅是面部。’
* 我将作者的内联引用转换为超链接。
最初发布于2022年7月6日。












