人工智能

研究人员发现了 Deepfakes 的一种弹性特征，可以帮助长期检测

更新 on 2022 年 12 月 9 日

马丁安德森

自 2018 年最早的 Deepfake 检测解决方案开始出现以来，计算机视觉和安全研究领域一直在寻求定义一个 基本特征 Deepfake 视频的信号可能会阻碍流行的面部合成技术的改进（例如基于自动编码器的 DeepFake 软件包，如 DeepFaceLab 和 FaceSwap，以及使用生成对抗网络重新创建、模拟或改变人脸）。

许多“告诉”，例如缺乏眨眼，由于 Deepfakes 的改进而变得多余，而数字来源技术（例如 Adobe 主导的内容真实性倡议) – 包括区块链方法和数字水印潜在的源照片——要么需要对互联网上现有的可用源图像进行彻底且昂贵的改变，要么需要国家和政府之间的显着合作努力来创建监督和认证系统。

因此，如果能够在具有改变、发明或身份交换的人脸特征的图像和视频内容中识别出真正基本且有弹性的特征，那将非常有用；无需大规模验证即可直接从伪造视频中推断出的特征，加密资产哈希、上下文检查、合理性评估、以伪影为中心的检测例程或其他繁重的深度伪造检测方法。

框架中的 Deepfakes

中国和澳大利亚之间的一项新研究合作认为，它已经找到了这个“圣杯”，其形式是 规律性破坏.

作者设计了一种方法，将真实视频的空间完整性和时间连续性与包含深度伪造内容的视频进行比较，并发现任何类型的深度伪造干扰都会破坏图像的规律性，无论这种干扰多么难以察觉。

部分原因是 Deepfake 过程将目标视频分解为帧，并将经过训练的 Deepfake 模型的效果应用到每个（替换的）帧中。在这方面，流行的 Deepfake 分布与动画师的行为方式相同，更多地关注每一帧的真实性，而不是每一帧对视频整体空间完整性和时间连续性的贡献。

论文摘自：A) 不同数据类型之间的差异。在这里我们看到 p-fake 的干扰改变了图像的时空质量，就像 Deepfake 一样，但没有取代身份。 B）三种类型数据的噪声分析，显示 p-fake 如何模仿 Deepfake 破坏。 C）三种类型数据的时间可视化，真实数据表现出更大的波动完整性。 D） T-SNE 真实、伪造和伪造视频的提取特征的可视化。资料来源：https://arxiv.org/pdf/2207.10402.pdf

这不是视频编解码器在制作或处理原始录制时处理一系列帧的方式。为了节省文件大小或使视频适合流式传输，视频编解码器会丢弃大量信息。即使在最高质量设置下，编解码器也会分配 关键帧 （可由用户设置的变量）——视频中按预设间隔出现的完整的、几乎未压缩的图像。

关键帧之间的间隙帧在某种程度上被估计为帧的变体，并且将尽可能多地重复使用相邻关键帧的信息，而不是将其本身视为完整的帧。

左侧，完整的关键帧或“i 帧”存储在压缩视频中，但会牺牲一些文件大小；右侧，间隙“增量帧”重用了数据更丰富的关键帧的任何适用部分。 来源：https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

这样，阻止（含 x 帧数（取决于关键帧设置）可以说是典型压缩视频中考虑的最小单位，而不是任何单独的帧。甚至关键帧本身，称为 i 框架，构成该单元的一部分。

就传统卡通动画而言，编解码器正在执行一种介于两者之间，其中关键帧充当间隙衍生帧的支柱，称为 三角洲框架.