人工智能
研究人员发现了 Deepfakes 的一种弹性特征,可以帮助长期检测

自 2018 年最早的 Deepfake 检测解决方案开始出现以来,计算机视觉和安全研究领域一直在寻求定义一个 基本特征 Deepfake 视频的信号可能会阻碍流行的面部合成技术的改进(例如基于自动编码器的 DeepFake 软件包,如 DeepFaceLab 和 FaceSwap,以及使用 生成对抗网络 重新创建、模拟或改变人脸)。
许多“告诉”,例如 缺乏眨眼,由于 Deepfakes 的改进而变得多余,而数字来源技术(例如 Adobe 主导的 内容真实性倡议) – 包括区块链方法和 数字水印 潜在的源照片——要么需要对互联网上现有的可用源图像进行彻底且昂贵的改变,要么需要国家和政府之间的显着合作努力来创建监督和认证系统。
因此,如果能够在具有改变、发明或身份交换的人脸特征的图像和视频内容中识别出真正基本且有弹性的特征,那将非常有用; 无需大规模验证即可直接从伪造视频中推断出的特征, 加密资产哈希、上下文检查、合理性评估、以伪影为中心的检测例程或其他繁重的深度伪造检测方法。
框架中的 Deepfakes
中国和澳大利亚之间的一项新研究合作认为,它已经找到了这个“圣杯”,其形式是 规律性破坏.
作者设计了一种方法,将真实视频的空间完整性和时间连续性与包含深度伪造内容的视频进行比较,并发现任何类型的深度伪造干扰都会破坏图像的规律性,无论这种干扰多么难以察觉。
部分原因是 Deepfake 过程将目标视频分解为帧,并将经过训练的 Deepfake 模型的效果应用到每个(替换的)帧中。 在这方面,流行的 Deepfake 分布与动画师的行为方式相同,更多地关注每一帧的真实性,而不是每一帧对视频整体空间完整性和时间连续性的贡献。

论文摘自:A) 不同数据类型之间的差异。 在这里我们看到 p-fake 的干扰改变了图像的时空质量,就像 Deepfake 一样,但没有取代身份。 B)三种类型数据的噪声分析,显示 p-fake 如何模仿 Deepfake 破坏。 C)三种类型数据的时间可视化,真实数据表现出更大的波动完整性。 D) T-SNE 真实、伪造和伪造视频的提取特征的可视化。 资料来源:https://arxiv.org/pdf/2207.10402.pdf
这不是视频编解码器在制作或处理原始录制时处理一系列帧的方式。 为了节省文件大小或使视频适合流式传输,视频编解码器会丢弃大量信息。 即使在最高质量设置下,编解码器也会分配 关键帧 (可由用户设置的变量)——视频中按预设间隔出现的完整的、几乎未压缩的图像。
关键帧之间的间隙帧在某种程度上被估计为帧的变体,并且将尽可能多地重复使用相邻关键帧的信息,而不是将其本身视为完整的帧。

左侧,完整的关键帧或“i 帧”存储在压缩视频中,但会牺牲一些文件大小; 右侧,间隙“增量帧”重用了数据更丰富的关键帧的任何适用部分。 来源:https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
这样, 阻止 (含 x 帧数(取决于关键帧设置)可以说是典型压缩视频中考虑的最小单位,而不是任何单独的帧。 甚至关键帧本身,称为 i 框架,构成该单元的一部分。
就传统卡通动画而言,编解码器正在执行一种 介于两者之间,其中关键帧充当间隙衍生帧的支柱,称为 三角洲框架.
相比之下,深度伪造叠加将大量的注意力和资源投入到每个单独的帧上,而没有考虑该帧更广泛的上下文,也没有考虑到压缩和基于块的编码对“真实”视频特征的影响。
尽管一些更好的 Deepfakers 在 After Effects 等软件包中使用了大量的后处理,并且 DeepFaceLab 发行版已经 一些原生能力 应用像运动模糊这样的“混合”程序,这种花招不会影响真实视频和深度伪造视频之间的空间和时间质量的不匹配。
这个 新文 标题为 通过创建时空规律性破坏来检测 Deepfake,来自清华大学、百度计算机视觉技术部(VIS)和墨尔本大学的研究人员
“假”假视频
该论文背后的研究人员已将研究的功能合并到一个名为 Pseudo-fake Generator 的即插即用模块中(P-假发电机),通过以与实际 Deepfake 过程相同的方式扰动真实视频,将真实视频转换为人造 Deepfake 视频,而无需实际执行任何 Deepfake 操作。
测试表明,该模块可以以几乎零资源成本添加到所有现有的深度伪造检测系统中,并且显着提高了它们的性能。
这一发现可能有助于解决深度造假检测研究中的其他障碍之一:缺乏真实且最新的数据集。 由于 Deepfake 生成是一个复杂且耗时的过程,因此社区在过去五年中开发了许多 Deepfake 数据集,其中许多数据集已经过时。
通过将规律性破坏隔离为视频更改的与深度伪造无关的信号 事后,新方法可以生成无限的样本和数据集视频,这些视频是深度伪造品的这一方面的关键。

STE 块概述,其中通道方式时间卷积被用作生成时空增强编码的刺激,从而产生与即使是非常令人信服的深度伪造也会产生的相同签名。 通过这种方法,可以生成“假”视频,这些视频具有与任何更改的深度伪造视频相同的签名特征,并且不依赖于特定的分布或不稳定的方面,例如特征行为或算法伪影。
检测
研究人员对深度伪造检测研究中使用的六个著名数据集进行了实验: 人脸取证++ (FF++); 狂野深假; Deepfake 检测挑战预览 (DFDCP); 名人-DF; 深度伪造检测 (DFD); 和 换脸器 (FSh)。
对于 FF++,研究人员在原始数据集上训练了模型,并分别测试了四个子集。 在训练中没有使用任何深度伪造材料的情况下,新方法能够超越最先进的结果。
与 FF++ C23 压缩数据集相比,该方法也占据了领先地位,该数据集提供了一些示例,这些示例展示了在现实世界的 Deepfake 观看环境中可信的压缩伪影。
作者评论:
FF++ 中的性能验证了我们主要想法的可行性,而通用性仍然是现有 Deepfake 检测方法的主要问题,因为在对由看不见的技术生成的 Deepfake 进行测试时,性能无法得到保证。
“进一步考虑检测器和伪造器之间军备竞赛的现实,普遍性是衡量现实世界中检测方法有效性的重要标准。”
尽管研究人员围绕“鲁棒性”和不同的视频输入类型(即真实、虚假、p-fake 等)进行了许多子测试(详细信息请参阅论文),但最有趣的结果来自测试用于跨数据集性能。
为此,作者在上述“现实世界”c23 版本的 FF++ 上训练了他们的模型,并针对四个数据集进行了测试,作者表示,在所有数据集上都获得了卓越的性能。
该文件指出:
“在最具挑战性的 Deepwild 上,我们的方法在 AUC% 方面超过了 SOTA 方法约 10 个百分点。 我们认为这是由于 Deepwild 中的 Deepfakes 具有巨大的多样性,这使得其他方法无法从所见的 Deepfakes 中很好地概括。
用于测试的指标包括准确度得分 (ACC)、接收者操作特征曲线下面积 (AUC) 和等错误率 (EER)。
反击?
尽管媒体描述了 Deepfake 开发者和 Deepfake 检测研究人员之间的紧张关系 从技术战争的角度来看,可以说前者只是想做出更有说服力的输出,而增加的 Deepfake 检测难度是这些努力的间接副产品。
开发人员是否会尝试解决这个新发现的缺陷,或许取决于他们是否认为肉眼可以将深度造假视频中的规律性破坏视为不真实的象征,因此该指标值得从纯粹定性的角度来解决。
尽管自第一批 Deepfakes 上线以来已经过去了五年,但 Deepfakes 仍然是一项相对新兴的技术,可以说,社区更关注细节和分辨率,而不是正确的上下文或匹配压缩视频的签名,而这两者都需要一定的“输出的退化——这正是整个 Deepfake 社区目前正在努力应对的问题。
如果普遍的共识是规律性破坏是一个不影响质量的新生特征,那么可能就不会做出任何努力来弥补它——即使它 能够 被某些后处理或架构内程序“取消”,这一点还不清楚。
首次发布于 22 年 2022 月 XNUMX 日。