存根 通过显示器照明检测 Deepfake 视频通话 - Unite.AI
关注我们.

人工智能

通过显示器照明检测 Deepfake 视频通话

mm
更新 on

美国国家安全局 (NSA) 和加州大学伯克利分校的研究人员之间的一项新合作提供了一种在实时视频环境中检测深度伪造内容的新颖方法 - 通过观察监视器照明对图像外观的影响视频通话另一端的人。

受欢迎的 DeepFaceLive 用户 Druuzil Tech & Games 在与粉丝的现场会议中尝试他自己的 Christian Bale DeepFaceLab 模型,同时光源会发生变化。 来源:https://www.youtube.com/watch?v=XPQLDnogLKA

受欢迎的 DeepFaceLive 用户 Druuzil Tech & Games 在与粉丝的现场会议中尝试他自己的 Christian Bale DeepFaceLab 模型,同时光源会发生变化。 来源:https://www.youtube.com/watch?v=XPQLDnogLKA

该系统的工作原理是在用户屏幕上放置一个图形元素,该元素可以比典型的 Deepfake 系统响应速度更快地改变其颜色的窄范围 - 即使像实时 Deepfake 流实现一样 深脸直播 (如上图所示),它具有一定的维持实时色彩传输和环境照明的能力。

另一端的人(即潜在的 Deepfake 欺诈者)的显示器上显示的统一彩色图像会通过有限的色调变化变化进行循环,这些变化的目的不是激活网络摄像头的自动白平衡和其他功能。 特设 照明补偿系统,这会损害该方法。

论文中展示了用户面前显示器的照明条件变化,该显示器有效地充当漫射“区域光”。 资料来源:https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

论文中展示了用户面前显示器的照明条件变化,该显示器有效地充当漫射“区域光”。 资料来源:https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

该方法背后的理论是,实时深度伪造系统无法及时响应屏幕图形中描绘的变化,从而增加了色谱某些部分的深度伪造效果的“滞后”,从而暴露了其存在。

为了能够准确测量反射的显示器光,系统需要考虑并折扣与显示器光无关的一般环境照明的影响。 然后,它能够区分主动照明色调和用户面部色调测量中的缺陷,这表示两者之间存在 1-4 帧差异的时间偏移:

通过限制屏幕“检测器”图形中的色调变化,并确保用户的网络摄像头不会因显示器照明的过度变化而提示自动调整其捕获设置,研究人员已经能够辨别出明显的滞后在deepfake系统对光照变化的调整中。

通过限制屏幕“检测器”图形中的色调变化,并确保用户的网络摄像头不会因显示器照明水平的过度变化而提示自动调整其捕获设置,研究人员已经能够辨别出一个重要的信息: Deepfake 系统对光照变化的调整存在延迟。

论文的结论是:

“由于我们对实时视频通话的合理信任,以及视频通话在我们的个人和职业生活中日益普遍,我们认为验证视频(和音频)通话的技术只会变得越来越重要。”

根据一项研究, 标题为 使用主动照明检测实时深度伪造视频,来自美国国防部应用研究数学家 Candice R. Gerstner 和伯克利教授 Hany Farid。

信任的侵蚀

过去六个月,反深度造假研究领域发生了显着的转变,从一般的深度造假检测(即针对预先录制的视频和色情内容)转向“活体”检测,以应对日益增长的深度造假使用事件浪潮。视频电话会议,以及联邦调查局最近关于此类技术越来越多使用的警告 在远程工作应用中.

即使视频通话没有被深度伪造,人工智能驱动的视频冒充者的机会也会增加 开始产生偏执.

新论文指出:

“实时深度造假的产生[构成]独特的威胁,因为围绕实时视频或电话的普遍信任感,以及在通话过程中实时检测深度造假的挑战。”

研究界早已为自己设定了目标,即找到无法轻易补偿的深度造假内容的可靠迹象。 尽管媒体通常将其描述为安全研究人员和 Deepfake 开发人员之间的技术战争,但大多数对早期方法的否定(例如 眨眼分析, 头部姿势辨别行为分析)的发生仅仅是因为开发人员和用户试图制作更真实的深度伪造品,而不是专门针对安全社区确定的最新“告诉”。

揭示实时 Deepfake 视频

在实时视频环境中检测深度伪造会带来解决视频连接不良的负担,这在视频会议场景中非常常见。 即使没有深度伪造层介入,视频内容也可能会受到 NASA 式的延迟、渲染伪影以及其他类型的音频和视频质量下降的影响。 这些可以用来隐藏实时深度伪造架构中的粗糙边缘,无论是在视频还是在 音频深度伪造.

作者的新系统改进了文献中的结果和方法。 2020年出版 来自费城天普大学网络计算中心。

从 2020 年的论文中,我们可以观察到随着用户屏幕内容的变化,“填充”面部照明的变化。 资料来源:https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

从 2020 年的论文中,我们可以观察到随着用户屏幕内容的变化,“填充”面部照明的变化。 资料来源:https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

新作品的不同之处在于它考虑了网络摄像头对照明变化的响应方式。 作者解释道:

“由于所有现代网络摄像头都执行自动曝光,因此[之前的工作中使用的]高强度主动照明类型可能会触发相机的自动曝光,从而使记录的面部外观变得混乱。 为了避免这种情况,我们采用了由色调等亮度变化组成的主动照明。

虽然这可以避免相机的自动曝光,但它可能会触发相机的白平衡,从而再次混淆记录的面部外观。 为了避免这种情况,我们根据经验确定不会触发白平衡的色调范围。

对于这一举措,作者还考虑了类似的先前努力,例如 实况屏幕,这会在最终用户的显示器上强制显示不显眼的照明图案,以揭示深度伪造的内容。

尽管该系统达到了 94.8% 的准确率,但研究人员得出的结论是,光图案的微妙性将使这种隐蔽的方法难以在明亮的环境中实施,因此他们建议他们自己的系统或沿着类似路线图案化的系统,可以公开并默认合并到流行的视频会议软件中:

“我们提出的干预措施可以由呼叫参与者来实现,只需共享她的屏幕并显示随时间变化的模式,或者,理想情况下,它可以直接集成到视频呼叫客户端中。”

检测

作者混合使用了合成和现实世界的主题来测试他们的 Dlib驱动 深度伪造探测器。 对于合成场景,他们使用了 三叶芹,来自洛桑瑞士联邦理工学院的正向和反向渲染器。

来自模拟数据集的样本,具有不同的肤色、光源大小、环境光强度和与相机的距离。

来自模拟环境测试的样本,具有不同的肤色、光源大小、环境光强度和与相机的距离。

所描绘的场景包括从具有 90° 视场的虚拟相机捕获的参数化 CGI 头部。 头部特征 朗伯反射率 和中性肤色,位于虚拟相机前面 2 英尺处。

为了在一系列可能的肤色和设置上测试该框架,研究人员进行了一系列测试,依次改变不同的方面。 改变的方面包括肤色、接近度和照明光大小。

作者评论:

“在模拟中,在满足我们的各种假设的情况下,我们提出的技术对于各种成像配置都具有高度鲁棒性。”

对于现实世界的场景,研究人员在不同的环境中使用了 15 名具有不同肤色的志愿者。 在 30Hz 显示器刷新率与网络摄像头同步的条件下,每个都经历了两个受限制的色调变化周期,这意味着主动照明一次只能持续一秒钟。 结果与综合测试大致相当,但相关性随着照明值的增加而显着增加。

未来发展方向

研究人员承认,该系统无法考虑典型的面部遮挡,例如刘海、眼镜或面部毛发。 然而,他们指出,这种掩蔽可以添加到以后的系统中(通过标记和随后的语义分割),可以训练这些系统专门从目标对象的感知皮肤区域获取值。

作者还建议,可以采用类似的范例来检测深度伪造的音频通话,并且必要的检测声音可以以超出人类正常听觉范围的频率播放。

也许最有趣的是,研究人员还建议,在更丰富的捕获框架中将评估区域扩展到面部之外可以显着提高深度伪造检测的可能性*:

'更复杂的3D 照明估计  可能会提供更丰富的外观模型,这对于伪造者来说更难以规避。 虽然我们只关注面部,但计算机显示屏还照亮了颈部、上半身和周围背景,从中可以进行类似的测量。

“这些额外的测量将迫使伪造者考虑整个 3D 场景,而不仅仅是脸部。”

 

* 我将作者的内联引用转换为超链接。

首次发布于 6 年 2022 月 XNUMX 日。