关注我们.

人工智能

Deepfakes 可以有效欺骗许多主要的面部“活力”API

mm
来自 DeepFace Live - 阿诺德·施瓦辛格 224 3.03 万次迭代 | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY
来自“DeepFace Live - 阿诺德·施瓦辛格 224 3.03 万次迭代” RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

美国和中国之间的一项新研究合作调查了世界上一些最大的基于人脸的身份验证系统对深度伪造的敏感性,发现其中大多数都容易受到正在发展和新兴形式的深度伪造攻击。

该研究使用针对面部活体验证(FLV)系统部署的自定义框架进行了基于深度伪造的入侵,该系统通常由主要供应商提供,并作为服务出售给航空公司和保险公司等下游客户。

该论文概述了主要提供商的面部活度验证 (FLV) API 的功能。 资料来源:https://arxiv.org/pdf/2202.10673.pdf

该论文概述了主要提供商的面部活度验证 (FLV) API 的功能。 资料来源:https://arxiv.org/pdf/2202.10673.pdf

面部活力旨在抵制诸如以下技术的使用 对抗性图像攻击,使用 口罩 和预先录制的视频,即所谓的 “大师面孔”,以及其他形式 视觉ID克隆.

该研究得出的结论是,这些系统中部署的深度造假检测模块数量有限,其中许多为数百万客户提供服务,但远非绝对可靠,并且可能是在现已过时的深度造假技术上配置的,或者可能过于特定于架构。

作者指出:

“不同供应商的深度伪造方法也存在差异……由于无法获取目标 FLV 供应商的技术细节,我们推测这种差异源于不同供应商部署的防御措施。例如,某些供应商可能会部署针对特定深度伪造攻击的防御措施。”

并继续:

“[大多数] FLV API 不使用反深度伪造检测;即使对于那些具有此类防御措施的 API,其有效性也令人担忧(例如,它可能检测到高质量的合成视频,但无法检测到低质量的视频)。”

研究人员观察到,在这方面,“真实性”是相对的:

“即使合成视频对人类来说不真实,它仍然可以以非常高的成功率绕过当前的反深度伪造检测机制。”

上面是能够在作者的实验中进行验证的深度伪造图像样本。 下面是显然更真实的未通过身份验证的伪造图像。

上图是作者实验中能够通过身份验证的深度伪造图像样本。下图是看似更加逼真的伪造图像,但未能通过身份验证。

另一个发现是,通用面部验证系统的当前配置偏向白人男性。 随后,人们发现女性和非白人身份可以更有效地绕过验证系统,从而使这些类别的客户面临更大的基于深度伪造技术的违规风险。

报告发现,流行的面部活度验证 API 对白人男性的身份进行了最严格、最准确的评估。 在上表中,我们看到女性和非白人身份可以更容易地用来绕过系统。

报告发现,流行的面部活度验证 API 对白人男性的身份进行了最严格、最准确的评估。 在上表中,我们看到女性和非白人身份可以更容易地用来绕过系统。

该报观察到 “(面部活体验证)存在偏见,可能会给特定人群带来重大安全风险。”

作者还针对中国政府、中国一家主要航空公司、中国最大的人寿保险公司之一以及 R360,全球最大的独角兽投资集团之一,并报告成功绕过了这些组织对所研究 API 的下游使用。

在成功绕过中国航空公司身份验证的情况下,下游 API 要求用户“摇头”作为对潜在深度伪造材料的证明,但事实证明,这对研究人员设计的包含六种深度伪造架构的框架不起作用。

尽管航空公司对用户的摇头进行了评估,但 Deepfake 内容还是能够通过测试。

尽管航空公司对用户摇头的行为进行了评估,但深度伪造内容还是能够通过测试。

该论文指出,作者联系了相关供应商,据报道他们已经承认了这项工作。

作者提出了一系列改进 FLV 当前技术水平的建议,包括放弃单图像身份验证(“基于图像的 FLV”),即身份验证基于来自客户摄像头供稿的单帧;更灵活、更全面地更新跨图像和语音域的深度伪造检测系统;强制要求用户视频中基于语音的身份验证与唇部动作同步(目前一般不需要);并要求用户做出深度伪造系统目前难以复制的手势和动作(例如, 个人资料视图 以及脸部的部分模糊)。

这个 标题为 看见就是活着? Deepfake时代人脸活体验证安全性的再思考,来自联合主要作者李长江和王力,以及来自宾夕法尼亚州立大学、浙江大学和山东大学的其他五位作者。

核心目标

研究人员瞄准了“六家最具代表性”的面部活体验证 (FLV) 供应商,这些供应商在研究中已使用密码匿名化。

供应商的代表如下: 'BD' “TC” 是中国脸部相关API调用数量最多、AI云服务份额最大的企业集团供应商; 'HW' 是“中国最大的公共云市场供应商之一”; “CW” 在计算机视觉领域增长速度最快,并正在取得领先的市场地位”; '英石' 是最大的计算机视觉供应商之一; 和 'iFT' 跻身中国最大的人工智能软件供应商之列。

数据和架构

为该项目提供支持的基础数据包括来自中国倡议的 625,537 张图像的数据集 名人恶搞以及密歇根州立大学 2019 年 硅钨合金 数据集。

所有实验均在配备双 2.40GHz Intel Xeon E5-2640 v4 CPU 的服务器上进行,该 CPU 运行在 256 GB RAM 和 4TB HDD 上,以及四个精心设计的 1080Ti NVIDIA GPU,总共 44GB 的可用 VRAM。

六合一

该论文作者设计的框架被称为 现场虫虫,并包含六个最先进的 Deepfake 框架,针对 FLV 系统的四个主要防御。

LiveBugger 包含多种深度伪造方法,并以 FLV 系统中的四种主要攻击向量为中心。

LiveBugger 包含多种深度伪造方法,并以 FLV 系统中的四种主要攻击向量为中心。

使用的六个 Deepfake 框架是:牛津大学 2018 X2脸; 美国学术合作 IC脸; 2019 年以色列项目的两个版本 FSGAN; 意大利人 一阶方法模型 (FOMM),从 2020 年初开始;以及北京大学与微软研究院的合作 换脸器 (尽管由于 FaceShifter 不是开源的,作者必须根据已发布的架构细节对其进行重建)。

这些框架所采用的方法包括使用预渲染视频,其中欺骗视频的主题执行从 LiveBugger 早期评估模块中的 API 身份验证要求中提取的死记硬背动作,以及使用有效的“深度伪造木偶”,将个人的实时动作转换成已插入到合选网络摄像头流中的深度伪造流。

后者的一个例子是 深脸直播,这 去年夏天首次亮相 作为热门节目的附属节目 深度人脸实验室,以实现实时深度伪造流媒体,但这并未包含在作者的研究中。

攻击四个向量

典型 FLV 系统中的四种攻击媒介是: 基于图像的FLV,它使用用户提供的单张照片作为身份验证令牌,与系统记录的面部 ID 进行对比; 基于静音的 FLV,要求用户上传自己的视频片段; 基于动作的FLV,要求用户执行平台指示的操作; 和 基于语音的 FLV,将用户提示的语音与系统数据库中该用户语音模式的条目进行匹配。

该系统面临的第一个挑战是确定 API 披露其要求的程度,因为这样就可以在深度造假过程中预测并满足这些要求。 这是由 LiveBugger 中的智能引擎处理的,它从公开的 API 文档和其他来源收集有关需求的信息。

由于已发布的要求可能(出于各种原因)在 API 的实际例程中缺失,因此智能引擎集成了一个探测器,可以根据探索性 API 调用的结果收集隐含信息。在本研究项目中,这得益于官方为开发人员提供的离线“测试”API,以及志愿者们主动提供的真实账户进行测试。

智能引擎搜索有关 API 当前是否正在使用可能对攻击有用的特定方法的证据。 此类特征可包括 相干检测,它检查视频中的帧是否在时间上连续——可以通过发送加扰的视频帧并观察这是否会导致身份验证失败来建立这一要求。

该模块还搜索 唇语检测,其中 API 可能会检查视频中的声音是否 与用户的嘴唇动作同步 (这种情况很少见——请参阅下面的“结果”)。

结果演示

作者发现,所有六个评估的 API 在实验时都没有使用一致性检测,从而允许 LiveBugger 中的 Deepfaker 引擎根据志愿者提供的材料简单地将合成音频与 Deepfake 视频拼接在一起。

然而,一些下游应用程序(即 API 框架的客户)被发现在流程中添加了一致性检测,因此需要预先录制视频来规避这一点。

此外,只有少数 API 供应商使用唇语检测; 对于大多数人来说,视频和音频被作为单独的数量进行分析,并且没有尝试将嘴唇运动与所提供的音频相匹配的功能。

针对 FLV API 中的各种攻击向量,LiveBugger 中可用的各种伪造技术产生了不同的结果。 较高的数字表明攻击者已使用 Deepfake 技术成功渗透了身份验证。 并非所有 API 都包含 FLV 的所有可能防御; 例如,其中一些不提供任何针对深度伪造的防御,而另一些则在身份验证过程中不检查用户提交的视频中的嘴唇运动和音频是否匹配。

针对 FLV API 中的各种攻击向量,LiveBugger 中可用的各种伪造技术产生了不同的结果。 数字越高表示使用 Deepfake 技术渗透 FLV 的成功率越高。 并非所有 API 都包含 FLV 的所有可能防御; 例如,其中一些不提供任何针对深度伪造的防御,而另一些则在身份验证过程中不检查用户提交的视频中的嘴唇运动和音频是否匹配。

结语

这篇论文的结果和对 FLV API 未来的预测错综复杂,作者将它们串联成一个功能性的“漏洞架构”,以帮助 FLV 开发人员更好地理解一些未发现的问题。”

该论文的建议网络涉及基于人脸的视频识别例程对深度伪造攻击的现有和潜在敏感性。

本文提出了关于基于面部的视频识别程序目前以及潜在的深度伪造攻击敏感性的建议网络。

建议指出:

“FLV 的安全风险广泛存在于许多实际应用中,从而威胁着数百万最终用户的安全”

作者还观察到,基于动作的 FLV 的使用是“边缘的”,并且增加要求用户执行的动作数量“不会带来任何安全收益”。

此外,作者指出,将语音识别和时间人脸识别(在视频中)结合起来是一种徒劳的防御,除非 API 提供商开始要求嘴唇动作与音频同步。

这篇论文发表之际,美国联邦调查局 (FBI) 最近警告企业注意深度伪造欺诈的危险,而近一年前,他们曾预言该技术将被用于外国影响力行动, 普遍的恐惧 实时深度伪造技术将在仍然信任视频身份验证安全架构的公众中引发新的犯罪浪潮。

目前,深度伪造作为身份验证攻击面仍处于早期阶段; 2020 年,35 万美元 欺诈提取 阿联酋一家银行使用 Deepfake 音频技术,一名英国高管同样被骗支付 243,000 美元 被回收.

 

首次发布于 23 年 2022 月 XNUMX 日。

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [电子邮件保护]
推特:@manders_ai