增强现实

抖音开发者抹去面部特征以应用于增强现实应用

mm

字节跳动,这家中国跨国互联网公司是抖音的开发者,已经开发了一种新的方法来抹去视频中的面部特征,以便在增强现实应用中对人脸进行变形和其他奇怪的效果。该公司声称,这种技术已经被集成到商业移动产品中,尽管它没有说明哪些产品。

一旦视频中的面部特征被“抹去”,就有足够的“面部画布”来产生令人眼花缭乱的变形,以及可能的其他身份的叠加。ByteDance研究人员提供的新论文中的示例说明了这些可能性,包括以各种喜剧(和一些令人厌恶的)配置恢复“抹去”的特征:

ByteDance论文中的一些面部重构可能性。来源:https://arxiv.org/pdf/2109.10760.pdf

ByteDance论文中的一些面部重构可能性。来源:https://arxiv.org/pdf/2109.10760.pdf

八月底,抖音推出了TikTok Effect Studio(目前处于封闭测试阶段),这是一个平台,允许增强现实开发者为抖音内容流创建增强现实效果。该公司正在赶上Facebook的AR Studio和Snap AR,以及苹果的增强现实研究社区,该社区即将因新硬件的推出而受到激发。

空白表达

论文指出,现有的填充/重构算法(如NVIDIA的SPADE)更适合完成截断或半遮挡的图像,而不是执行此“抹去”过程。因此,现有的数据集材料非常稀少。

由于没有可用的真实数据集用于具有实心肉块的面部,研究人员创建了一个名为pixel-clone的新网络架构,该架构可以叠加到现有的神经网络填充模型中,并解决了旧方法(如StructureFlow和EdgeConnect)中出现的纹理和颜色不一致的问题。

新管道中的pixel-clone的总体工作流程。

新管道中的pixel-clone的总体工作流程。

为了训练“空白”面部的模型,研究人员排除了带有眼镜或头发遮挡前额的图像,因为前额和眉毛之间的区域通常是可以提供“粘贴”材料的最大像素组。

准备训练图像。根据面部对齐识别的关键点,前额区域被裁剪、垂直翻转和拼接。

准备训练图像。根据面部对齐识别的关键点,前额区域被裁剪、垂直翻转和拼接。

一个256×256像素的图像被获取,这个大小足够小,可以在批量中输入神经网络以实现泛化。稍后的算法上采样将恢复增强现实空间中所需的分辨率。

架构

该网络由三个内部网络组成,包括边缘完成、像素克隆和精化网络。边缘完成网络使用与EdgeConnect(见上文)和两个最流行的深度伪造应用中使用的相同的编码器-解码器架构。编码器对图像内容进行两次下采样,解码器恢复原始图像尺寸。

像素克隆使用修改后的编码器-解码器方法,而精化层使用U-Net架构,这是一种最初为生物医学成像开发的技术,常用于图像合成研究项目。

在训练工作流程中,需要评估变换的准确性,并在必要时重复尝试,直到收敛。为此,使用了两个基于PatchGAN的判别器,每个判别器评估70×70像素块的局部真实性,折扣整个图像的真实性值。

训练和数据

边缘完成网络首先独立训练,而其他两个网络则一起训练,基于边缘完成训练的权重,这些权重在此过程中被固定和冻结。

尽管论文没有明确说明其最终特征变形的示例是模型的主要目标,但它实现了各种喜剧效果来测试系统的鲁棒性,包括眉毛移除、嘴巴增大、子面部缩小和“卡通化”效果(如上图所示)。

论文声称,“抹去的面部使各种增强现实应用成为可能,这些应用需要放置任何用户自定义元素”,这表明可以使用第三方用户贡献的元素自定义面部。

该模型在NVIDIA创建的FFHQ数据集上进行训练,该数据集包含足够多的年龄、种族、照明和面部姿势和风格的变化,以实现有用的泛化。数据集包含35,000张图像和10,000个训练掩码,以确定变换区域,并为验证目的保留4,000张图像和1,000个掩码。

训练数据样本。

训练数据样本。

训练好的模型可以对2017年的CelebA-HQ和VoxCeleb、FFHQ中未见过的面部以及任何其他未知面部进行推理。图像以8批的形式输入网络,使用Adam优化器,使用PyTorch实现,并在Tesla V100 GPU上运行“2000,000个epoch”。

在真实面部上获得的推理结果。

在真实面部上获得的推理结果。

与面部图像合成研究中常见的情况一样,该系统必须应对由头发、外设、眼镜和面部毛发等遮挡或遮蔽引起的偶尔故障。

报告得出结论:

“我们的方法已经被商业化,并且在具有无约束用户输入的产品中表现良好。”

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai