人工智能

Deepfake 探测器追求新领域：潜在扩散模型和 GAN

更新 on 2022 年 12 月 9 日

检讨最近，自 2017 年底以来，深度伪造检测研究社区几乎完全专注于自动编码器基于的框架在当时首次亮相，引起了公众的敬畏（以及沮丧），已经开始对不那么停滞的架构产生取证兴趣，包括潜在扩散模型如达尔-E 2 和稳定扩散，以及生成对抗网络（GAN）的输出。例如，六月，加州大学伯克利分校发表了结果其研究开发了用于当时占主导地位的 DALL-E 2 输出的探测器。

推动这种日益增长的兴趣的似乎是 2022 年潜在扩散模型的能力和可用性的突然进化跳跃，闭源和访问受限释放春季推出 DALL-E 2，夏末推出轰动一时的开源 stable.ai 的稳定扩散。

GAN 也已被长期研究的在这方面，尽管程度不那么强烈，因为非常困难使用它们对人们进行令人信服且精心制作的视频娱乐；至少，与迄今为止备受推崇的自动编码器包相比，例如换脸和深度人脸实验室 – 以及后者的直播表弟，深脸直播.

移动图片

无论哪种情况，刺激因素似乎都是后续发展冲刺的前景。电影合成。 2022 月伊始，也就是 XNUMX 年的主要会议季，其特点是突然涌现出大量意想不到的解决方案，解决了各种长期存在的视频合成问题：Facebook 刚刚推出发布样品谷歌研究中心很快就宣布了其新的图像到视频 T2V 架构，能够输出高分辨率镜头（尽管仅通过 7 层升级器网络）。

如果你相信这种事情是三连的，请考虑一下 stable.ai 神秘的承诺，即“视频即将到来”到 Stable Diffusion，显然是在今年晚些时候，而 Stable Diffusion 联合开发商 Runway 已经做出了类似的承诺，尽管尚不清楚它们是否指的是同一个系统。这不和谐消息 Stability 首席执行官 Emad Mostaque 也承诺 “音频、视频[和] 3D”.

突然推出的几项新产品会带来什么音频生成框架（一些基于潜在扩散），以及一个可以生成的新扩散模型真实的角色动作，GAN 和扩散器等“静态”框架最终将取代它们的支持地位 附属物 外部动画框架开始获得真正的关注。

简而言之，基于自动编码器的视频深度伪造的世界似乎很可能陷入困境，它只能有效地替代脸部的中央部分到明年这个时候，新一代基于扩散的深度伪造技术可能会黯然失色，这些技术是流行的开源方法，有可能不仅可以真实地伪造整个身体，还可以伪造整个场景。

出于这个原因，也许反深度伪造研究社区开始认真对待图像合成，并意识到它可能比仅仅生成图像有更多目的伪造的 LinkedIn 个人资料照片; 如果它们所有棘手的潜在空间都能以时间运动的形式完成的话作为一个非常出色的纹理渲染器，这实际上可能已经足够了。

“银翼杀手”

最新的两篇论文分别涉及潜在扩散和基于 GAN 的深度伪造检测，分别是： DE-FAKE：文本到图像扩散模型生成的假图像的检测和归因，CISPA 亥姆霍兹信息安全中心和 Salesforce 之间的合作；和 《银翼杀手》：针对合成（AI 生成）StyleGAN 面孔的快速对策，来自麻省理工学院林肯实验室的 Adam Dorian Wong。

在解释其新方法之前，后一篇论文花了一些时间来研究之前确定图像是否由 GAN 生成的方法（该论文专门讨论了 NVIDIA 的 StyleGAN 系列）。

“Brady Bunch”方法——也许是一种无意义的参考对于那些在 1970 世纪 1990 年代没有看电视或错过 XNUMX 年代电影改编的人 – 根据 GAN 面部特定部分肯定占据的固定位置来识别 GAN 伪造的内容，因为这些内容具有死记硬背和模板化的性质“生产过程”。

SANS 研究所在 2022 年的一次网络广播中提出了“Brady Bunch”方法：基于 GAN 的面部生成器将对某些面部特征进行不太可能的均匀放置，在某些情况下掩盖照片的来源。资料来源：https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

另一个有用的已知迹象是 StyleGAN 经常无法在必要时渲染多个面孔（下面第一张图），并且缺乏配件协调方面的天赋（下面中间图），并且倾向于使用发际线作为即兴创作的开始帽子（下面第三张图片）。

研究人员关注的第三种方法是 照片叠加 （其中的一个例子可以在我们八月的文章关于精神健康疾病的人工智能辅助诊断），它使用组合“图像混合”软件（例如CombineZ系列）将多个图像连接成单个图像，通常揭示结构中潜在的共性——这是合成的潜在迹象。

新论文中提出的架构的标题是（可能违背所有 SEO 建议） “银翼杀手”，参考 Voight-Kampff检验这决定了科幻系列中的对手是否是“假的”。

该管道由两个阶段组成，第一个阶段是 PapersPlease 分析器，它可以评估从已知的 GAN-face 网站（例如 thispersondoesnotexist.com 或 generated.photos）抓取的数据。

尽管可以在 GitHub 上检查代码的简化版本（见下文），但除了 OpenCV 和 DLIB 用于勾画和检测收集到的材料中的面部。

第二个模块是 我们之间 探测器。该系统旨在搜索照片中协调的眼睛位置，这是 StyleGAN 面部输出的一个持久特征，以上面详述的“Brady Bunch”场景为代表。 Ours 由标准的 68 个地标探测器提供支持。

通过智能行为理解组 (IBUG) 进行面部点注释，其面部标志绘图代码用于《银翼杀手》软件包中。

Ours 依赖于基于来自 PapersPlease 的已知“Brady 群”坐标的预先训练的地标，并且旨在用于基于 StyleGAN 的人脸图像的实时、面向网络的样本。

作者认为，《银翼杀手》是一种即插即用的解决方案，适用于那些缺乏资源来开发内部解决方案来进行此处处理的深度造假检测的公司或组织，并且是一种“为开发时间争取时间的权宜之计”。更持久的对策”。

事实上，在如此不稳定且快速增长的安全领域，定制的产品并不多 or 现成的云供应商解决方案，资源不足的公司目前可以放心地求助于这些解决方案。

尽管《银翼杀手》在对抗中表现不佳 戴眼镜的 对于 StyleGAN 伪造者来说，这是类似系统中相对常见的问题，这些系统期望能够将眼睛轮廓评估为核心参考点，在这种情况下会变得模糊。

《银翼杀手》的缩减版已经发布在 GitHub 上开源。存在功能更丰富的专有版本，它可以处理多张照片，而不是开源存储库的每次操作处理单张照片。他表示，如果时间允许，作者打算最终将 GitHub 版本升级到相同标准。他还承认 StyleGAN 很可能会超越其已知或当前的弱点，并且该软件同样需要同步开发。

防伪

DE-FAKE 架构不仅旨在实现对文本到图像扩散模型生成的图像的“通用检测”，而且提供一种识别文本到图像的方法。这潜在扩散（LD）模型产生图像。

DE-FAKE 中的通用检测框架解决本地图像、混合框架（绿色）和开放世界图像（蓝色）的问题。 资料来源：http://export.arxiv.org/pdf/2210.06998

老实说，目前这是一项相当容易的任务，因为所有流行的 LD 模型（封闭的或开源的）都具有显着的显着特征。

此外，大多数人都有一些共同的弱点，例如有砍头的倾向，因为任意方式非方形网络抓取图像被摄取到为 DALL-E 2、Stable Diffusion 和 MidJourney 等系统提供动力的海量数据集中：

与所有计算机视觉模型一样，潜在扩散模型需要正方形格式的输入；但是为 LAION5B 数据集提供支持的聚合网络抓取并没有提供“豪华的额外功能”，例如识别和关注面部（或其他任何东西）的能力，并且相当残酷地截断图像而不是填充它们（这将保留整个源）图像，但分辨率较低）。一旦接受训练，这些“作物”就会标准化，并且经常出现在潜在扩散系统（例如稳定扩散）的输出中。来源：https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac 和稳定扩散。

DE-FAKE 的目的是与算法无关，这是自动编码器反深度造假研究人员长期以来所追求的目标，而且目前对于 LD 系统来说，这是一个可以实现的目标。

该架构使用 OpenAI 的对比语言-图像预训练（CLIP）多模态库——稳定扩散的一个基本要素，并迅速成为新一波图像/视频合成系统的核心——作为从“伪造”LD图像中提取嵌入并根据观察到的模式和类别训练分类器的一种方法。

在更“黑匣子”的场景中，保存有关生成过程信息的 PNG 块早已通过上传过程和其他原因被剥离，研究人员使用 Salesforce BLIP框架（也是一个组件最后一个稳定扩散的分布）来“盲目地”轮询图像以获取创建它们的提示的可能语义结构。