人工智能
检测通过监视器照明的深度伪造视频通话

美国国家安全局(NSA)的一名研究人员和加利福尼亚大学伯克利分校之间的新合作提出了检测直播视频环境中深度伪造内容的一种新方法,即通过观察监视器照明对视频通话另一端人员外观的影响。

流行的DeepFaceLive用户Druuzil Tech & Games在直播会话中尝试自己的基斯·贝利DeepFaceLab模型,光源发生变化。 来源:https://www.youtube.com/watch?v=XPQLDnogLKA
该系统通过在用户屏幕上放置一个图形元素,该元素更快地改变其颜色的狭窄范围,以至于典型的深度伪造系统无法响应,即使它具有像DeepFaceLive(如上所示)这样的实时深度伪造流媒体实现,具有维持直播色彩转换和考虑环境照明的某些能力。
显示在另一端人员监视器上的统一颜色图像(即潜在的深度伪造欺诈者)会循环通过有限的色调变化,旨在不激活网络摄像头的自动白平衡和其他临时照明补偿系统,这将损害该方法。

来自论文的图,展示了用户前面的监视器的照明条件变化,有效地作为一个漫射的“区域光”。 来源:https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
这种方法背后的理论是,直播深度伪造系统无法及时响应图形中显示的变化,从而在色谱的某些部分增加深度伪造效果的“滞后”,揭示其存在。
为了能够准确地测量反射的监视器光,系统需要考虑和扣除与监视器光无关的一般环境照明的影响。然后,它可以区分活跃照明色调和用户面部色调的测量结果,代表每个之间的1-4帧的时间差:

通过限制屏幕上“检测器”图形的色调变化,并确保用户的网络摄像头不会由于监视器照明的过度变化而提示自动调整其捕获设置,研究人员能够区分深度伪造系统对照明变化的调整中的一个明显的滞后。
论文得出结论:
“由于我们对直播视频通话的合理信任,以及视频通话在我们个人和职业生活中的日益普遍,我们提出,验证视频(和音频)通话的技术将变得越来越重要。”
该研究由美国国防部应用研究数学家Candice R. Gerstner和伯克利大学教授Hany Farid共同完成,题为《使用主动照明检测实时深度伪造视频》。
信任的侵蚀
反深度伪造研究场景在过去六个月中发生了显著的转变,从一般的深度伪造检测(即针对预先录制的视频和色情内容)转向“活跃度”检测,以应对视频会议通话中深度伪造使用的日益增长的浪潮,以及FBI最近关于在远程工作应用中使用此类技术的警告。
即使视频通话未被深度伪造,人工智能驱动的视频模仿者带来的机会增加也开始产生偏执。
新论文指出:
“实时深度伪造的产生构成了独特的威胁,因为人们普遍信任直播视频或电话通话,并且检测实时深度伪造的挑战,当通话正在进行时。”
研究社区长期以来一直致力于找到深度伪造内容的不可篡改的迹象,这些迹象不能轻易被弥补。虽然媒体通常将其描述为安全研究人员和深度伪造开发人员之间的技术战争,但早期方法(如眼眨分析、头部姿势辨别和行为分析)的否定主要是因为开发人员和用户试图制作更真实的深度伪造,而不是直接应对安全社区确定的最新“线索”。
照亮直播深度伪造视频
检测直播视频环境中的深度伪造内容需要考虑到视频会议场景中常见的视频连接不良问题。即使没有深度伪造层,视频内容也可能受到NASA式延迟、渲染伪影和音频、视频的其他类型的降级的影响,这些都可能隐藏直播深度伪造架构中的粗糙边缘,包括视频和音频深度伪造。
作者的新系统改进了2020年费城坦普尔大学网络计算中心的一篇论文中的结果和方法。

来自2020年的论文,我们可以观察到用户屏幕内容变化时面部照明的变化。 来源:https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
新工作的不同之处在于它考虑了网络摄像头对照明变化的响应。作者解释说:
“因为所有现代网络摄像头都执行自动曝光,之前工作中使用的高强度主动照明可能会触发相机的自动曝光,这反过来会混淆记录的面部外观。为了避免这一点,我们采用了一种等亮度的色调变化。”
“虽然这避免了相机的自动曝光,但它可能会触发相机的白平衡,这反过来会再次混淆记录的面部外观。为了避免这一点,我们在一个我们通过实验确定不会触发白平衡的色调范围内操作。”
对于这一举措,作者还考虑了类似的先前尝试,例如LiveScreen,它将一种不显眼的照明模式强加于最终用户的监视器,以揭示深度伪造内容。
虽然该系统实现了94.8%的准确率,但研究人员得出结论,光模式的微妙性将使这种隐蔽方法在明亮的环境中难以实施,并建议他们自己的系统或类似的系统可以被公开地和默认地集成到流行的视频会议软件中:
“我们的提议的干预可以通过通话参与者实现,他们只需共享自己的屏幕并显示时间变化的模式,或者,理想情况下,它可以直接集成到视频通话客户端中。”
测试
作者使用了一组合成和真实世界的主题来测试他们的Dlib驱动的深度伪造检测器。对于合成场景,他们使用了瑞士联邦理工大学洛桑分校的Mitsuba,一种前向和逆向渲染器。

来自模拟环境测试的样本,具有不同的皮肤色调、光源大小、环境光强度和相机距离。
场景中包括一个从虚拟相机捕获的参数化CGI头部,虚拟相机具有90°的视野。头部具有兰伯特反射和中性皮肤色调,并位于虚拟相机前2英尺。
为了测试该框架在可能的皮肤色调和设置范围内,研究人员运行了一系列测试,顺序地改变了多个方面,包括皮肤色调、距离和照明光大小。
作者评论说:
“在模拟中,满足我们的各种假设后,我们的提议技术对广泛的成像配置具有高度的鲁棒性。”
对于真实世界的场景,研究人员使用了15名志愿者,具有多种皮肤色调,在不同的环境中。每个人都经历了两个受限色调变化的循环,在条件下,30Hz的显示刷新率与网络摄像头同步,这意味着主动照明只会持续一秒钟。结果与合成测试大致相似,尽管相关性随着照明值的增加而显著增加。
未来方向
研究人员承认,该系统不考虑典型的面部遮挡,例如刘海、眼镜或面部毛发。然而,他们指出,这种掩码可以在后续系统中添加(通过标记和随后的语义分割),这些系统可以被训练为仅从目标对象的感知皮肤区域中获取值。
作者还建议,可以采用类似的范式来检测深度伪造的音频通话,并且必要的检测声音可以以人类正常听觉范围以外的频率播放。
也许最有趣的是,研究人员还建议,评估区域超出面部的更丰富的捕获框架可以显著提高深度伪造检测的可能性:
“更复杂的3D照明估计很可能提供更丰富的外观模型,这将更加难以被伪造者规避。虽然我们只关注面部,但计算机显示也照亮了脖子、上身和周围的背景,从这些区域也可以进行类似的测量。”
“这些额外的测量将迫使伪造者考虑整个3D场景,而不仅仅是面部。”
* 我将作者的内联引用转换为超链接。
最初发布于2022年7月6日。












