人工智能
使用基于人工智能的标签识别 Deepfake 数据源

中国、新加坡和美国的研究人员合作开发出一种弹性系统,可以对人脸照片进行“标记”,其强度如此之高,以至于在拍摄过程中,识别标记不会被破坏。 deepfake 训练过程,为知识产权索赔铺平了道路,这可能会削弱合成图像生成系统“匿名化”非法抓取的源数据的能力。
该系统名为 假标记者,使用编码器/解码器过程将视觉上难以辨别的 ID 信息以足够低的级别嵌入到图像中,使得注入的信息将被解释为基本的面部特征数据,从而通过 抽象化 例如,以与眼睛或嘴巴数据相同的方式完整地处理数据。

FakeTagger 架构概览。源数据用于生成“冗余”的面部特征,忽略背景元素,这些背景元素将在典型的 Deepfake 工作流程中被屏蔽。该信息可在流程的另一端恢复,并通过相应的识别算法进行识别。 来源:http://xujuefei.com/felix_ammmm21_faketagger.pdf
该研究来自武汉网络空间安全学院、教育部空天信息安全与可信计算重点实验室、美国阿里巴巴集团、波士顿东北大学和新加坡南洋理工大学。
FakeTagger 的实验结果表明,四种常见类型的 Deepfake 方法的重新识别率高达近 95%: 身份交换(即 深度人脸实验室, 换脸); 面部重现; 属性编辑; 和全合成。
Deepfake检测的缺点
尽管过去三年带来了 作物 深度伪造识别方法的新方法,所有这些方法都关键在于深度伪造工作流程的可弥补缺陷,例如 目光闪烁 在训练不足的模型中,以及 缺乏眨眼 在早期的深度伪造中,面部设置不够多样化。随着新密钥的确定,免费和开源软件存储库已经消除了它们,无论是故意的,还是作为 Deepfake 技术改进的副产品。
这篇新论文指出,Facebook 最新深度伪造检测竞赛 (DFDC) 中提出的最有效的事后检测方法,在识别自然生成的深度伪造方面,准确率仅为 70%。研究人员将这种代表性的失败归因于对新旧深度伪造的泛化能力较差。 创新 GAN 和编码器/解码器 Deepfake 系统,以及 Deepfake 替代品质量经常下降的问题。
在后一种情况下,这可能是由于 Deepfaker 的低质量工作造成的,或者是在将视频上传到寻求限制带宽成本的共享平台时出现压缩伪影,并以比提交的比特率低得多的比特率重新编码视频时造成的。 。 具有讽刺意味的是,这不仅使图像质量下降 不会 干扰深度伪造的表面真实性,但实际上可以增强幻觉,因为深度伪造视频被纳入被认为是真实的常见、低质量的视觉习语中。
生存标记作为模型反演的辅助手段
从机器学习输出中识别源数据是一个相对较新且不断发展的领域,它使基于知识产权的诉讼新时代成为可能,因为政府目前 宽容 随着该行业商业化,屏幕抓取法规(旨在不扼杀国家在全球人工智能“军备竞赛”中研究的优势)演变为更严格的立法。
模型反演 处理从多个领域的合成系统生成的输出中源数据的映射和识别,包括自然语言生成(NLG)和图像合成。 模型反演对于重新识别模糊、像素化或通过生成对抗网络或编码器/解码器转换系统(例如 DeepFaceLab)的抽象过程的人脸特别有效。
向新的或现有的面部图像添加有针对性的标记是模型反演技术的潜在新助手, 水印 一个新兴领域。
事后标记
FakeTagger 旨在作为一种后处理方法。 例如,当用户将照片上传到社交网络时(通常涉及某种优化过程,很少直接且纯粹地传输原始图像),算法会处理图像以将所谓不可磨灭的特征应用于面部。
或者,该算法可以应用于历史图像集合,就像过去二十年中多次发生的那样,因为大型库存照片和商业图像集合网站一直在寻求 方法 识别未经许可重复使用的内容。

FakeTagger 试图嵌入来自各种 Deepfake 过程的可恢复 ID 特征。
开发和测试
研究人员使用上述四种方法对 FakeTagger 进行了一系列深度伪造软件应用程序的测试,其中包括最广泛使用的存储库 DeepFaceLab;斯坦福大学的 面对面,可以跨图像和身份传输面部表情; 和 STGAN,可以编辑面部属性。
测试完成 CelebA-总部,一个流行的抓取公共存储库,包含 30,000 张名人的面部图像,分辨率高达 1024 x 1024 像素。
作为基线,研究人员最初测试了传统的图像水印技术,看看强加的标签是否能够在深度伪造工作流程的训练过程中幸存下来,但这些方法在所有四种方法中都失败了。
FakeTagger 的嵌入数据在编码器阶段被注入到人脸集图像中,使用基于 优网 用于生物医学图像分割的卷积网络,于 2015 年发布。随后,框架的解码器部分经过训练以查找嵌入信息。
该过程在 GAN 模拟器中进行了试验,该模拟器利用了前面提到的 FOSS 应用程序/算法,在黑匣子设置中对每个系统的工作流程没有离散或特殊的访问权限。 随机信号被附加到名人图像上,并记录为每张图像的相关数据。
在黑盒测试中,FakeTagger 的准确率超过了四种应用程序的 88.95%。在并行白盒测试中,准确率提升至接近 100%。然而,由于这表明未来深度伪造软件的迭代可能会直接集成 FakeTagger,因此这种情况在短期内不太可能发生。
计算成本
研究人员指出,FakeTagger 最具挑战性的场景是完整的图像合成,例如基于 CLIP 的抽象生成,因为在这种情况下,输入训练数据受到最深层次的抽象的影响。 然而,这并不适用于过去几年占据头条新闻的深度造假工作流程,因为这些工作流程依赖于身份定义面部特征的忠实再现。
该论文还指出,可以想象,对抗性攻击者可能会尝试添加扰动,例如人工噪声和颗粒,以挫败这种标记系统,尽管这可能会对深度伪造输出的真实性产生不利影响。
此外,他们指出,FakeTagger 需要向图像添加冗余数据,以确保其嵌入的标签的生存,而这可能会产生显着的大规模计算成本。
作者最后指出,FakeTagger 可能具有在其他领域进行来源追踪的潜力,例如 对抗性降雨攻击 以及其他类型的基于图像的攻击,例如 对抗性暴露, 阴霾, 模糊, 渐晕 与 颜色抖动.










