网络安全
使用智能手机的“振动”功能检测视频会议Deepfakes

新加坡的最新研究提出了一种新方法,用于检测智能手机视频会议工具的另一端是否有人使用诸如DeepFaceLive等方法来冒充他人。
该新方法被称为SFake,它放弃了大多数系统使用的被动方法,而是通过智能手机的“振动”功能(使用智能手机中常见的“振动”机制),并微妙地模糊用户的脸部。
尽管实时深度伪造系统可以复制运动模糊,但只要训练数据或预训练数据中包含模糊的视频,就无法快速响应这种意外的模糊,并继续输出未模糊的面部部分,揭示了深度伪造会议调用。

DeepFaceLive无法快速响应模拟摄像机振动引起的模糊。来源:https://arxiv.org/pdf/2409.10889v1
研究人员自建数据集(因为没有现成的包含主动摄像机抖动的数据集)的测试结果表明,SFake在面对具有挑战性的情况时(例如,视频会议中对方手持摄像机而不是使用静态手机支架时),即使在自然的手部运动下,也优于其他基于视频的深度伪造检测方法。
视频基于深度伪造检测的日益增长的需求
视频基于深度伪造检测的研究近年来有所增加。在过去几年成功的语音基于深度伪造劫案之后,今年早些时候,一名金融工作者被欺骗,将2500万美元转移到一个冒充首席财务官的深度伪造视频会议中的诈骗者。
虽然这种系统需要很高的硬件访问权限,但许多智能手机用户已经习惯于金融和其他类型的验证服务要求我们录制面部特征进行面部识别(事实上,这是LinkedIn验证过程的一部分)。
因此,很可能这种方法将越来越多地被视频会议系统强制执行,因为这种犯罪继续登上头条。
大多数解决方案都假设一个非常静态的场景,即通信者使用固定网络摄像头,没有运动或过多的环境或照明变化。智能手机通话没有这样的“固定”情况。
相反,SFake使用一系列检测方法来弥补手持智能手机视频会议的众多视觉变体,并似乎是第一个使用智能手机内置的标准振动设备来解决这个问题的研究项目。
该论文题为Shaking the Fake:通过主动探测实时检测深度伪造视频,由新加坡南洋理工大学的两名研究人员撰写。
方法
SFake被设计为一个基于云的服务,一个本地应用程序将数据发送到远程API服务进行处理,并将结果发送回去。
然而,其仅450mb的占用空间和优化方法论使其能够完全在设备上处理深度伪造检测,在网络连接可能导致发送的图像过度压缩并影响诊断过程的情况下。
以这种“全部本地”方式运行意味着该系统将直接访问用户的摄像头视频流,而不会受到编解码器干扰,这种干扰通常与视频会议有关。
平均分析时间需要4秒的视频样本,在此期间,用户被要求保持静止,并在此期间SFake发送“探测”以引起摄像机振动,在系统如DeepFaceLive无法及时响应的随机间隔内。
(应该重新强调的是,任何没有在训练数据集中包含模糊内容的攻击者不太可能能够产生即使在更有利的情况下也能产生模糊的模型,并且DeepFaceLive不能简单地将此功能添加到在不充分的数据集上训练的模型中)
该系统选择面部的特定区域作为潜在的深度伪造内容,排除眼睛和眉毛(因为该区域的眨眼和其他面部运动超出了模糊检测的范围,并不是理想的指标)。

SFake的概念架构。
如上所示,SFake选择合适且不可预测的振动模式,确定最佳焦距,并执行面部识别(包括通过Dlib组件估计标准的68个面部特征点),然后从输入面部提取梯度,并专注于这些梯度的选定区域。
通过顺序分析短片中的每一帧,直到达到平均或“理想”序列,并丢弃其余部分,获得了方差序列。
这提供了可以用作深度伪造内容概率量化的提取特征,基于训练数据库(稍后会详细介绍)。
该系统需要1920×1080像素的图像分辨率,以及至少2x的变焦要求。该论文指出,Microsoft Teams、Skype、Zoom和Tencent Meeting都支持此类分辨率(甚至更高的分辨率)。
大多数智能手机都有前置和自拍摄像头,通常只有一个摄像头具有SFace所需的变焦功能;因此,应用程序将需要通信者使用满足这些要求的摄像头。
目标是将用户面部的正确比例放入系统将分析的视频流中。该论文指出,女性使用移动设备的平均距离为34.7cm,男性为38.2cm(如期刊中报道),SFace在这些距离下表现非常好。
由于手持视频的稳定性是一个问题,而手部运动引起的模糊会阻碍SFace的功能,研究人员尝试了几种补偿方法。最成功的方法是计算估计的特征点的中心点,并将其用作“锚点”-一种算法稳定技术。通过这种方法,准确率达到92%。
数据和测试
由于没有合适的数据集,研究人员建立了自己的数据集:
‘我们使用8个不同品牌的智能手机来录制15位不同年龄和性别的参与者,以建立自己的数据集。我们将智能手机放在20厘米远的手机支架上,2倍变焦,瞄准参与者的脸,以包含所有面部特征,同时振动智能手机以不同的模式。 ‘
‘对于前置摄像头无法变焦的手机,我们使用后置摄像头作为替代。我们录制了150个长视频,每个20秒。默认情况下,我们假设检测周期持续4秒。我们从一个长视频中随机选择10个4秒长的片段,通过随机化开始时间。因此,我们总共获得了1500个真实片段,每个4秒长。’
虽然DeepFaceLive(GitHub链接)是研究的中心目标,因为它目前是最广泛使用的开源实时深度伪造系统,但研究人员还包括四种其他方法来训练他们的基础检测模型:Hififace;FS-GANV2;RemakerAI;以及MobileFaceSwap – 最后一个选择尤其合适,因为目标环境是移动设备。
使用1500个伪造视频和1500个真实且未修改的视频进行训练。
SFace与几种不同的分类器进行了测试,包括SBI;FaceAF;CnnDetect;LRNet;DefakeHop变体;以及免费的在线深度伪造检测服务Deepaware。对于每一种深度伪造方法,训练了1500个伪造视频和1500个真实视频。
对于基础测试分类器,使用了一个简单的两层神经网络,具有ReLU激活函数。随机选择1000个真实视频和1000个伪造视频(但伪造视频仅限DeepFaceLive示例)。
使用面积下受试者操作特征曲线(AUC/AUROC)和准确率(ACC)作为指标。
对于训练和推理,使用了NVIDIA RTX 3060,并在Ubuntu下运行测试。测试视频使用Xiaomi Redmi 10x、Xiaomi Redmi K50、OPPO Find x6、Huawei Nova9、Xiaomi 14 Ultra、Honor 20、Google Pixel 6a和Huawei P60录制。
为了符合现有的检测方法,测试是在PyTorch中实现的。主要测试结果如下所示:

SFace与其他方法的比较结果。
作者在这里评论说:
‘在所有情况下,SFace的检测准确率都超过95%。在五种深度伪造算法中,除了Hififace外,SFace在检测其他深度伪造算法方面比其他六种检测方法更好。当检测DeepFaceLive时,分类器的准确率最高,达到98.8%。 ‘
‘当面对RemakerAI生成的假面时,其他检测方法的性能较差。我们推测这可能是因为从互联网上下载视频时会自动压缩视频,导致图像细节丢失,从而降低检测准确率。然而,这并不影响SFace的检测,SFace在检测RemakerAI方面的准确率达到96.8%。 ‘
作者进一步指出,SFace在2x变焦应用于摄像头的情况下是最好的系统,因为这会放大运动,并且是一个极具挑战性的场景。即使在这种情况下,SFace也能够实现84%和83%的识别准确率,分别对应2.5和3的放大倍数。
结论
一个利用实时深度伪造系统的弱点来对抗它的项目是一个令人耳目一新的贡献,在一个深度伪造检测被那些仅仅重新炒作陈旧的频率分析方法(这些方法远非对抗深度伪造领域的创新)所主导的年份中。
2022年底,另一个系统使用监视器亮度变化作为检测钩子;同年,我自己的演示展示了DeepFaceLive无法处理硬90度侧面视图,这在社区中引起了一些兴趣。
DeepFaceLive是此类项目的正确目标,因为它几乎可以肯定是视频会议欺诈的犯罪兴趣的焦点。
然而,我最近看到了一些传闻证据,表明LivePortrait系统,在VFX社区中非常流行,处理侧面视图的能力比DeepFaceLive好得多;如果能将其纳入本研究,将会很有趣。
最初发表于2024年9月24日星期二
