Anderson 视角

GOTCHA– 深度伪造视频认证系统

发布于 2022年10月17日

更新于 2026年5月23日

作者

Martin Anderson

纽约大学的最新研究表明，我们可能需要进行深度伪造的“醉酒测试”，以便在开始敏感的视频通话之前验证自己的身份，例如工作相关的视频会议或其他可能吸引骗子的敏感场景，他们可能使用实时深度伪造流媒体软件。

GOTCHA 中应用于视频呼叫场景的主动和被动挑战。用户必须遵守并通过这些挑战，同时使用额外的“被动”方法（例如，尝试超载潜在的深度伪造系统），这些方法超出了参与者的控制范围。来源：http://export.arxiv.org/pdf/2210.06186

所提出的系统称为 GOTCHA，是对过去 10-15 年中变得越来越流行的 CAPTCHA 系统的致敬，自动系统要求用户执行机器不擅长的任务，例如识别动物或解读混乱的文本（讽刺的是，这些挑战经常将用户变成免费的AMT 式的外包注释员）。

本质上，GOTCHA 扩展了 2022 年 8 月的 DF-Captcha 论文，该论文首次提出让通话另一端的人通过跳过几个视觉语义障碍来证明他们的真实性。

2022 年 8 月的论文首次提出了一系列交互式测试，包括遮挡脸部或压低皮肤——即使是训练有素的实时深度伪造系统也可能无法预测或以照片般的逼真度处理。来源：https://arxiv.org/pdf/2208.08524.pdf

值得注意的是，GOTCHA 添加了“被动”方法到一系列拟议的测试中，包括自动在用户脸上叠加非真实元素，以及“超载”源系统的帧。但是，只有用户响应任务可以在无需特殊权限访问用户本地系统的情况下进行评估——这可能以本地模块或流行系统（如 Skype 和 Zoom）插件的形式出现，或者以专门的专有软件的形式出现，专门用于过滤掉骗子。

来自论文的图示，展示了 GOTCHA 中呼叫者和系统之间的交互，虚线表示决策流程。

研究人员在一个包含 47 名参与者、每人进行 13 项 GOTCHA 挑战的新数据集上验证了该系统，数据集包含超过 250 万个视频帧。他们声称，该框架对欺诈用户的深度伪造内容质量产生了“一致且可测量”的降低，直到明显的伪造迹象清晰地出现在人类的视野中（尽管 GOTCHA 也包含一些更微妙的算法分析方法）。

新论文的标题为 Gotcha：实时深度伪造检测的挑战响应系统（系统的名称在正文中大写，但在出版标题中不大写，尽管它不是一个首字母缩写）。

一系列挑战

大致按照本古里安大学论文的建议，实际的用户面临的挑战被分为几种类型的任务。

对于遮挡，用户被要求用手或其他物体遮挡脸部，或以不太可能被深度伪造模型训练的角度呈现脸部（通常是由于训练数据中缺乏“奇怪”的姿势——参见上面的第一幅图中的图像范围）。

除了用户可能按照指示自己执行的操作外，GOTCHA 还可以在用户脸上叠加随机的面部剪裁、贴纸和增强现实滤镜，以“破坏”本地训练的深度伪造模型可能预期的面部流，从而导致其失败。如前所述，虽然这是一个“被动”的过程，但对于需要直接干预呼叫者流的软件来说，这是一个侵入性的过程。

接下来，用户可能被要求做出不寻常的面部表情，这些表情可能在任何训练数据集中都不存在或代表性不足，从而导致深度伪造输出的质量下降（上面的第一幅图，第二列，从左边数起）。

作为这些测试的一部分，用户可能被要求朗读文本或进行对话，这些对话旨在挑战本地实时深度伪造系统，该系统可能没有足够的音素或其他类型的嘴唇数据来重建准确的嘴唇运动以应对此类审查。

最后（这似乎会挑战呼叫者的演技），在这一类别中，用户可能被要求做出一个微表情——一个短暂的、不自主的面部表情，揭示了一个情绪。论文中说：“[它]通常持续0.5-4.0秒，很难伪造”。

虽然论文没有描述如何提取微表情，但逻辑表明，唯一的方法是通过测试过程中呈现给用户的某种内容来在用户中制造适当的情绪，可能是作为测试的一部分。

面部畸变、照明和意外客人

另外，按照 8 月份论文的建议，新工作提出要求用户进行不寻常的面部畸变和操作，例如将手指按入脸颊，与脸部和/或头发互动，执行其他动作，这些动作当前的实时深度伪造系统不太可能处理得好，因为这些是边缘动作——即使它们存在于训练数据集中，它们的重现也可能质量较低，与其他“异常”数据一致。

一个微笑，但这个“抑郁的脸”并没有被本地实时深度伪造系统很好地翻译。

另一个挑战在于改变用户所处的照明条件，因为可能深度伪造模型的训练已经针对标准的视频会议照明情况进行了优化，甚至可能是呼叫所处的确切照明条件。

因此，用户可能被要求使用手机上的手电筒照亮脸部，或者以其他方式改变照明（值得注意的是，这是另一个实时深度伪造检测论文的核心主张，该论文于今年夏天发表）。

实时深度伪造系统受到意外照明的挑战——甚至是流中有多个人，而不是预期的单个个体。

在系统能够插入本地用户流（怀疑其中存在深度伪造中间件）的情况下，添加意外的图案（上图中间列）会损害深度伪造算法维持模拟的能力。

另外，虽然要求呼叫者有额外的人来帮助验证他们的身份是不合理的，但系统可以插入额外的面部（上图最右侧），并检查是否有任何本地深度伪造系统会犯错误——甚至尝试深度伪造所有这些面部（自动编码器深度伪造系统没有“身份识别”能力，可以在这种情况下保持对单个个体的关注）。

隐写术和超载

GOTCHA 还包含了加州大学圣地亚哥分校今年 4 月首次提出的方法，该方法使用隐写术将消息加密到用户的本地视频流中。深度伪造例程将完全破坏此消息，从而导致身份验证失败。

来自加州大学圣地亚哥分校和圣地亚哥州立大学 2022 年 4 月份论文的图示，展示了一种通过检查加密到用户视频流中的隐写信号是否在本地循环中保持完整来确定真实身份的方法。来源：https://arxiv.org/pdf/2204.01960.pdf

此外，GOTCHA 能够超载本地系统（假设有访问和权限），通过复制流并向任何本地系统呈现“过多”的数据，旨在导致本地深度伪造系统复制失败。

系统包含进一步的测试（请参阅论文以获取详细信息），包括一个挑战，即在智能手机上的呼叫者将手机倒置，这将扭曲本地深度伪造系统：

同样，这种事情只会在有令人信服的使用场景中起作用，即用户被迫授予对流的本地访问权限，而不能仅通过被动评估用户视频来实现。

实用性

论文简要讨论了此类测试可能会在多大程度上打扰最终用户，或者以某种方式不便他们——例如，用户可能需要在手边备有多个物品，这些物品可能需要用于测试，例如墨镜。

它还承认可能很难让有权势的通讯者遵守测试例行程序。关于与 CEO 的视频通话，作者指出：

“在这里，易用性可能是关键，因此非正式或轻率的挑战（例如面部畸变或表情）可能不合适。使用外部物理物品的挑战可能不理想。上下文在这里被修改，GOTCHA 根据需要调整其挑战集。”

数据和测试

GOTCHA 被测试在四种本地实时深度伪造系统上，包括两个流行的自动编码器深度伪造创建工具 DeepFaceLab 的变体（“DFL”，尽管该论文出人意料地没有提到 DeepFaceLive，自 2021 年 8 月以来，它是 DeepFaceLab 的“实时”实现，似乎是潜在骗子的最可能的初始资源）。

四个系统是 DFL 在非名人参与测试中“轻度”训练的版本，以及一个配对的名人；DFL 训练更充分，达到 200 万+ 次迭代或步骤，在那里可以预期一个更高性能的模型；潜在图像动画器（LIA）；以及面部交换生成对抗网络（FSGAN）。

对于数据，研究人员捕获和策划了上述视频片段，展示了 47 名用户执行 13 项主动挑战，每个用户输出大约 5-6 分钟的 1080p 视频，帧率为 60fps。作者还表示，这些数据最终将公开发布。

异常检测可以由人类观察员或算法执行。对于后一种选项，系统在 FaceForensics 数据集的 600 个面部上进行了训练。回归损失函数是强大的学习感知图像补丁相似度（LPIPS），而二元交叉熵用于训练分类器。 EigenCam 用于可视化检测器的权重。

GOTCHA 测试的主要结果。

研究人员发现，对于四个系统的全部测试级联，获得的异常（即，揭示深度伪造系统存在的伪影）数量和严重程度最低的是更高训练的 DFL 分布。较少训练的版本在重现复杂的嘴唇运动方面尤其难以应对（这些运动在帧中占很小的比例，但人类对其关注度很高），而 FSGAN 占据了两个 DFL 版本之间的中间地带，LIA 被证明完全不适合此任务，研究人员认为 LIA 在实际部署中会失败。

首次发布于 2022 年 10 月 17 日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

GOTCHA– 深度伪造视频认证系统

一系列挑战

面部畸变、照明和意外客人

隐写术和超载

实用性

数据和测试

发现更多