Anderson 视角
基于原始人体生物特征的深度伪造检测

意大利和德国的研究人员提出了一种基于生物特征面部和声音行为的深度伪造视频检测方法,而不是依赖于面部合成系统创建的伪造或昂贵的水印解决方案等其他更笨重的方法。
该框架需要输入10个或更多不同、非伪造的视频作为输入。然而,它不需要针对每个案例的特定训练、重新训练或增强,因为其内置模型已经在广泛适用的方式中抽象出了真实和伪造视频之间的向量距离。

对比学习是POI-Forensics方法的基础。从源材料中提取的向量与潜在的伪造视频中的相同向量进行比较,提取面部和声音组件的特征和特点。 来源:https://arxiv.org/pdf/2204.03083.pdf
该方法称为POI-Forensics,依赖于真实个体的运动和音频线索。
虽然这样的系统可以允许完全自动化、预渲染的身份验证框架用于名人、政客、YouTube影响者和其他有大量视频素材的人,但它也可以被改编成一个普通人可以证明自己是深度伪造攻击受害者的平台。

POI-Forensics中真实和伪造视频的特征可视化,通过t-SNE框架实现。
作者声称POI-Forensics在深度伪造检测中取得了新的最先进状态。在该领域的各种常见数据集上,该框架报告了3%、10%和7%的AUC分数提高,分别对应高质量、低质量和“攻击”视频。研究人员承诺将代码发布在GitHub上。

POI-Forensics与其他SOTA框架(pDFDC、DeepFakeTIMIT、FakeAVCelebV2和KoDF)的性能比较。
作者表示:
‘训练仅在真实的面部视频上进行,因此检测器不依赖于任何特定的操作方法,并且具有最高的普遍性。另外,我们的方法可以检测单模态(仅音频或仅视频)和多模态(音频-视频)攻击,并且对低质量或损坏的视频具有鲁棒性,仅依赖于高级语义特征。’
新论文《音视频人脸深度伪造检测》,是那不勒斯大学和慕尼黑工业大学的联合研究成果,结合了部分作者之前的基于视觉的ID-Reveal项目的元素。
深度伪造军备竞赛
要击败这种检测系统,深度伪造和人脸合成系统需要模拟目标个体的视觉和音频生物特征——这项技术还需要很多年的发展,并且可能只会在昂贵的专有闭源系统中实现,这些系统将拥有目标个体(或其遗产)的合作和参与。

作者之前的方法ID-Reveal仅依赖视觉信息。 来源:https://arxiv.org/pdf/2012.02512.pdf
目前成功且流行的深度伪造方法,如FaceSwap和DeepFaceLab/Live,完全没有创建此类细粒度生物特征模拟的能力,依赖于有才华的模仿者,或者更常见的是依赖于合适的野外拍摄的“类似”人的素材。FaceSwap和DeepFaceLab的核心代码结构也没有模块化,且难以添加此类功能。
这些主流深度伪造包都是基于自动编码器的。其他人脸合成方法可以使用生成对抗网络(GAN)或神经辐射场(NeRF)方法来重现人脸身份;但这些研究线都需要几年的工作才能仅仅产生完全的光照现实的人脸视频。
除了音频(伪造的声音)外,生物特征模拟是人脸图像合成面临的挑战清单中的最后一项。即使完善了AI生成的声音模拟,也不能复制人类声音的怪癖和“线索”,或者真实主题使用语义构造的方式。因此,即使完善了AI生成的声音模拟,也不能解决生物特征真实性的潜在防火墙。
仅在Arxiv上,每周就会发布几种深度伪造检测策略和创新。最近的方法包括语音-面部同质性、局部二进制模式直方图(FF-LBPH)、人类对音频深度伪造的感知、分析面部边界、考虑视频降级和法医弹道学等等。

分段直方图分析是最近提出的一种提高深度伪造检测的技术。 来源:https://arxiv.org/pdf/2203.09928.pdf
方法、数据和架构
POI-Forensics采用多模态方法进行身份验证,利用基于视觉和音频线索的软生物特征。该框架具有单独的音频和视频网络,最终得出可以与潜在深度伪造视频中提取的相同特征进行比较的特征向量数据。

POI-Forensics的概念架构。
可以对目标片段进行单独(音频或视频)和融合分析,最后得到POI相似性指数。使用的对比损失函数基于2021年谷歌研究、波士顿大学、Snap Inc.和MIT之间的学术合作。
基础数据集按照每个身份进行划分。使用4608个身份进行训练,512个用于验证。为了获得非偏态结果,排除了用于测试候选项FakeAVCelebV2的500个身份。
两个网络在12个epoch中训练,批大小为2304批/epoch,每批包含8×8个视频段——8个段用于8个不同的身份。使用Adam优化器,学习率为10−4,权重衰减为0.01。
测试和结果
该项目测试的深度伪造数据集包括预览DeepFake Detection Challenge数据集,该数据集包含68个主题的面部交换,选择了44个具有9个以上相关视频的身份,总共920个真实视频和2925个伪造视频;DeepFake-TIMIT,一个基于GAN的数据集,包含32个主题的320个视频,总共290个真实视频和580个伪造视频,时长至少4秒;FakeAVCelebV2,包含500个来自Voxceleb2的真实视频,以及使用SV2TTS添加了假冒克隆音频的约20,000个伪造视频;以及KoDF,一个韩国深度伪造数据集,包含403个通过FaceSwap、DeepFaceLab和FSGAN伪造的身份,以及三个第一顺序运动模型(FOMM)。
后者还包含音频驱动的面部合成ATFHP,以及来自Wav2Lip的输出,作者使用了一个包含276个真实视频和544个伪造视频的派生数据集。
使用的指标包括接收者操作特征曲线下面积(AUC),以及一个近似10%的“假警报率”,这在包含和训练假数据的框架中将是一个问题,但由于POI-Forensics仅使用真实视频作为输入,因此这个问题得以避免。
方法被测试与Seferbekov深度伪造检测器进行比较,后者在Kaggle Deepfake Detection Challenge中获得第一名;FTCN(完全时间卷积网络),这是中国厦门大学和微软研究院亚洲之间的合作;LipForensics,这是2021年伦敦帝国学院和Facebook之间的合作;以及ID-Reveal,这是几位新论文研究人员之前的项目,省略了音频方面,使用3D可变形模型和对抗游戏场景来检测假输出。
结果(见上表)显示POI-Forensics在AUC方面比参考领跑者Seferbekov高2.5%,在准确率方面高1.5%。在其他数据集上的表现更具竞争力,尤其是在高质量视频中。
然而,新方法在低质量视频中表现出显著的领先优势,低质量视频是深度伪造最容易欺骗普通观众的场景,基于“现实世界”的背景。
作者断言:
‘的确,在这种具有挑战性的场景中,只有基于身份的方法仍然能够提供良好的性能,因为它们依赖于高级语义特征,这些特征对图像损伤具有很强的鲁棒性。’
考虑到PIO-Forensics仅使用真实视频作为源材料,这一成就可以说是放大了,并表明使用潜在深度伪造受害者的原生生物特征是一条值得进一步探索的道路,以逃避深度伪造软件和深度伪造检测解决方案之间的“特征冷战”。
在最后一个测试中,研究人员向输入添加了对抗性噪声,这是一种可以可靠地欺骗分类器的方法。久经考验的快速梯度符号方法在这方面仍然特别有效。
预测性地,攻击策略降低了所有方法和数据集的成功率,AUC下降了10%至38%之间。然而,只有POI-Forensics和作者之前的方法ID-Reveal能够在这种攻击场景下保持合理的性能,表明与软生物特征相关的高级特征具有非常强的抗深度伪造检测规避能力。
作者总结道:
‘总体而言,我们相信我们的方法是一个第一步;特别是,使用更高级的语义特征是一个有前途的未来研究方向。另外,多模态分析可以通过包含来自其他领域(如文本数据)的更多信息来进一步丰富。’
首次发表于2022年4月8日。












