Anderson 视角

使用智能手机的“振动”功能检测视频会议深度伪造

发布于 2024年9月24日

更新于 2026年5月20日

作者

Martin Anderson

An AI-generated illustration: 'a gorgeous panoramic picture of a man sitting in an office, looking into his smartphone, which he is holding; the man is wearing a Guy Fawkes mask; photorealistic, UHQ' - ChatGPT 3, Tuesday, 2024年9月24日 13:27:31

新加坡的最新研究提出了一种新颖的方法来检测智能手机视频会议工具的另一端是否有人使用诸如 DeepFaceLive 等方法来冒充他人。

这项新方法被称为 SFake ，它放弃了大多数系统采用的被动方法，而是通过智能手机的“振动”功能（使用智能手机中常见的“振动”机制）来使用户的手机振动，并微妙地模糊他们的脸部。

尽管实时深度伪造系统可以复制运动模糊，但只要训练数据中包含模糊的镜头，或者至少在预训练数据中包含模糊的镜头，它们就无法快速响应这种意外的模糊，并继续输出非模糊的面部部分，揭示了深度伪造会议呼叫的存在。

DeepFaceLive无法快速模拟摄像机振动引起的模糊。来源：https://arxiv.org/pdf/2409.10889v1

测试结果表明，SFake在研究人员自行创建的数据集上表现出了色，甚至在面对挑战性情况下，例如视频会议中自然的手部运动，SFake仍然能够检测出深度伪造。

视频会议深度伪造检测的日益增长的需求

最近，视频会议深度伪造检测的研究有所增加。在过去几年中，成功的语音深度伪造攻击之后，今年早些时候，一名金融工作者被欺骗成为了一名深度伪造视频会议呼叫中的CFO，转移了2500万美元给骗子。

尽管这种系统需要高水平的硬件访问权限，但许多智能手机用户已经习惯于金融和其他类型的验证服务要求我们记录面部特征以进行面部识别（事实上，这是LinkedIn验证过程的一部分）。

因此，似乎这种方法很可能会在视频会议系统中越来越多地被采用，因为这种犯罪继续引起关注。

大多数解决方案都假设一个非常静态的场景，即通信者使用静止的网络摄像头，没有运动或过度的环境或照明变化。智能手机呼叫没有这样的“固定”情况。

相反，SFake使用一系列检测方法来补偿手持智能手机视频会议的高可变性，并且似乎是第一个通过使用智能手机中标准的振动设备来解决这个问题的研究项目。

来自新加坡南洋理工大学的两位研究人员的论文的标题为 摇动假象：通过主动探测实时深度伪造视频 。

方法

SFake被设计为一个基于云的服务，一个本地应用程序将数据发送到远程API服务进行处理，并将结果发送回去。

然而，其仅450mb的占用空间和优化方法论使其能够完全在设备上处理深度伪造检测，在网络连接可能导致发送的图像过度压缩的情况下，影响诊断过程。

在这种方式下运行“全部本地”意味着该系统将直接访问用户的摄像头视频流，而不会受到编解码器干扰，这种干扰通常与视频会议相关联。

平均分析时间需要四秒钟的视频样本，在此期间，用户被要求保持静止，并在此期间，SFake发送“探测”以在选择性随机间隔内引起摄像机振动，这些间隔系统如DeepFaceLive无法及时响应。

(应该再次强调的是，任何攻击者如果没有在训练数据集中包含模糊内容，很可能无法生成一个可以在更有利的情况下生成模糊的模型，而且DeepFaceLive不能简单地将此功能添加到训练在欠培养数据集上的模型中）

该系统选择面部的特定区域作为潜在的深度伪造内容区域，排除眼睛和眉毛（因为在该区域的眨眼和其他面部运动不在模糊检测的范围内，也不是理想的指标）。

SFake的概念架构。

如上所示的概念架构，选择合适且不可预测的振动模式后，确定最佳焦距，并执行面部识别（包括通过 Dlib 组件估计标准的68个面部特征点），SFake从输入面部提取梯度，并专注于这些梯度的选定区域。

通过顺序分析短片中的每一帧，直到达到平均或“理想”序列，并忽略其余的，获得了方差序列。

这提供了可以用作深度伪造内容概率量化的提取特征，基于训练数据库（稍后会详细介绍）。

该系统需要1920×1080像素的图像分辨率，以及至少2x的镜头变焦要求。论文指出，Microsoft Teams、Skype、Zoom和Tencent Meeting都支持此类分辨率（甚至更高的分辨率）。

大多数智能手机都有前置和自置摄像头，通常只有一个具有SFake所需的变焦功能；因此，应用程序将需要通信者使用满足这些要求的任一摄像头。

目标是将用户面部的 正确比例 放入系统将分析的视频流中。论文观察到，女性使用移动设备的平均距离为34.7厘米，男性为38.2厘米（如报道在 Journal of Optometry 中），SFake在这些距离下运行得很好。

由于手持视频的稳定性是一个问题，而手部运动引起的模糊会阻碍SFake的功能，研究人员尝试了几种方法来补偿。其中最成功的方法是计算估计的特征点的中心点，并将其用作“锚点”——有效地是一种算法稳定技术。通过这种方法，获得了92％的准确率。

数据和测试

由于没有合适的数据集，研究人员创建了自己的数据集：

‘我们使用8种不同品牌的智能手机来录制15名参与者（不同性别和年龄），以建立自己的数据集。我们将智能手机放在20厘米远的手机支架上，放大两倍，瞄准参与者的面部，以包含所有面部特征，同时以不同的模式振动智能手机。 ‘

‘对于前置摄像头无法变焦的手机，我们使用后置摄像头作为替代。我们录制了150个长视频，每个视频20秒。默认情况下，我们假设检测周期为4秒。我们从一个长视频中随机选择10个4秒的剪辑。因此，我们总共获得了1500个真实剪辑，每个剪辑4秒长。’

尽管 DeepFaceLive （GitHub链接）是本研究的主要目标，因为它目前是最广泛使用的开源实时深度伪造系统，但研究人员还包括四种其他方法来训练他们的基本检测模型： Hififace ； FS-GANV2 ； RemakerAI ；以及 MobileFaceSwap —— 后者是一个特别合适的选择，考虑到目标环境。

使用1500个假视频进行训练，以及同等数量的真实和未修改的视频。

SFake被测试与几种不同的分类器，包括 SBI ； FaceAF ； CnnDetect ； LRNet ； DefakeHop 变体；以及免费的在线深度伪造检测服务 Deepaware 。对于每一种深度伪造方法，训练了1500个假视频和1500个真视频。

对于基本测试分类器，使用了一个简单的两层神经网络，具有 ReLU激活函数。随机选择了1000个真实视频和1000个假视频（尽管假视频仅限于DeepFaceLive示例）。

使用了接收者操作特征曲线下面积（ AUC/AUROC ）和准确率（ACC）作为指标。

用于训练和推理的NVIDIA RTX 3060，并在Ubuntu下运行测试。测试视频使用Xiaomi Redmi 10x、Xiaomi Redmi K50、OPPO Find x6、Huawei Nova9、Xiaomi 14 Ultra、Honor 20、Google Pixel 6a和Huawei P60录制。

为了符合现有的检测方法，测试是在PyTorch中实现的。主要测试结果如下表所示：