存根 TikTok 开发者为增强现实应用程序擦除面孔 - Unite.AI
关注我们.

增强现实技术

TikTok 开发者为增强现实应用程序擦除面孔

mm

发布时间

 on

TikTok 背后的中国跨国互联网公司字节跳动开发了一种删除视频中面孔的新方法,以便在增强现实应用中对人们施加身份扭曲和其他奇怪的效果。 该公司声称该技术已经集成到商业移动产品中,但没有说明是哪些产品。

一旦视频中的脸部被“归零”,就有足够的“脸部画布”来产生令人难以置信的扭曲,并可能叠加其他身份。 字节跳动研究人员在一篇新论文中提供的示例说明了这种可能性,包括以各种滑稽(当然还有一些怪诞)配置恢复“删除”的功能:

字节跳动论文中包含了面部重新配置的一些可能性。 资料来源:https://arxiv.org/pdf/2109.10760.pdf

字节跳动论文中包含了面部重新配置的一些可能性。 资料来源:https://arxiv.org/pdf/2109.10760.pdf

临近XNUMX月底, 被曝光 TikTok,第一个非 Facebook 应用 安装量达到 XNUMX 亿,推出了TikTok Effect Studio(目前 内测中),一个供增强现实(AR)开发者为 TikTok 内容流创建 AR 效果的平台。

实际上,该公司正在赶上类似的开发者社区 Facebook 的 AR 工作室捕捉增强现实,与苹果的尊崇 AR研发社区 也将立即受到刺激 新硬件 在接下来的一年。

空白表达式

名为 FaceEraser:去除面部部位以实现增强现实,注意到现有的绘画/填充算法,例如 NVIDIA 的 SPADE,更倾向于完成截断或半模糊的图像,而不是执行这种不寻常的“消隐”过程,因此现有的数据集材料可以预见是稀缺的。

由于没有可用的地面真实数据集来描述那些脸部应该有一块坚实的肉的人,研究人员创建了一种新颖的网络架构,称为 像素克隆,可以叠加到现有的神经修复模型中,并解决与旧方法(例如,论文证明)所表现出的纹理和颜色不一致相关的问题 结构流边缘连接.

新管道中像素克隆的一般工作流程。

新管道中像素克隆的一般工作流程。

为了在“空白”面孔上训练模型,研究人员排除了戴眼镜或头发遮挡前额的图像,因为发际线和眉毛之间的区域通常是可以提供“粘贴”的最大单组像素面部中央特征的材料。

准备训练图像。 根据人脸对齐识别的关键点,裁剪出额头区域,垂直翻转并缝合。

准备训练图像。 根据人脸对齐识别的关键点,裁剪出额头区域,垂直翻转并缝合。

获得 256×256 像素的图像,该图像的尺寸足够小,可以批量输入神经网络的潜在空间,而该批处理足够大以实现 概括。 稍后的算法升级将恢复在 AR 空间中工作所需的分辨率。

建筑

该网络由三个内部网络组成,包括边缘补全、像素克隆和细化网络。 边缘补全网络使用与 EdgeConnect(见上文)以及两个最流行的 Deepfake 应用程序中使用的相同类型的编码器-解码器架构。 编码器对图像内容进行下采样两次,解码器恢复原始图像尺寸。

Pixel-Clone 使用改进的编码器-解码器方法,而细化层使用 U-Net 架构,这是一种最初开发的技术 用于生物医学成像,它经常出现在图像合成研究项目中。

在训练工作流程中,有必要评估转换的准确性,并根据需要迭代地重复尝试,直到 收敛。 为此,两个判别器基于 补丁GAN 使用,每个评估 70×70 像素块的局部真实感,折扣整个图像的真实感值。

训练和数据

边缘补全网络最初是独立训练的,而其他两个网络则根据边缘补全训练产生的权重一起训练,这些权重在此过程中是固定和冻结的。

尽管论文没有明确指出其最终特征扭曲的例子是模型的中心目标,但它实现了各种喜剧效果来测试系统的弹性,包括眉毛去除、放大的嘴、缩小的子脸和“卡通化”效果(如上图所示)。

该论文声称,“被擦除的面孔可以实现各种需要放置任何用户自定义元素的增强现实应用程序”,这表明使用第三方、用户贡献的元素来自定义面孔的可能性。

该模型使用 NVIDIA 创建的掩模进行训练 FFHQ 数据集,其中包含足够多的年龄、种族、灯光以及面部姿势和风格,以实现有用的概括。 该数据集包含 35,000 张图像和 10,000 个训练掩模来描绘变换区域,并留出 4000 张图像和 1000 个掩模用于验证目的。

训练数据样本。

训练数据样本。

经过训练的模型可以对 2017 年的数据进行推理 CelebA-总部名人之声、来自 FFHQ 的看不见的面孔,以及呈现给它的任何其他不受约束的、看不见的面孔。 256×256 图像通过 Adam 优化器在网络上以 8 个批次进行训练,在 PyTorch 中实现,并在 Tesla V100 GPU 上运行“2000,000 epochs”。

在真实人脸上获得的推理结果。

在真实人脸上获得的推理结果。

正如基于面部的图像合成研究中常见的情况一样,系统必须应对由头发、外围设备、眼镜和面部毛发等障碍物或遮挡引起的偶尔故障。

报告的结论是:

“我们的方法已经商业化,并且在不受限制的用户输入的产品中效果很好。”