增强现实
TikTok 开发者正在抹去面部以用于增强现实应用

字节跳动(ByteDance),这家中国跨国互联网公司是TikTok的背后推手,已经开发出一种新的方法来抹去视频中的面部,以便在增强现实应用中对人施加身份失真和其他奇怪的效果。该公司声称,这项技术已经被整合到商业移动产品中,尽管它没有说明哪些产品。
一旦视频中的面部被“抹去”,就有足够的“面部画布”来产生令人惊叹的失真,以及可能的覆盖其他身份。字节跳动研究人员在一篇新论文中提供的示例说明了这些可能性,包括以各种滑稽(和一些怪诞)的配置恢复“抹去”的特征:
八月底,人们发现TikTok,第一个非Facebook应用程序,已经推出了 TikTok Effect Studio(目前处于封闭测试),这是一个平台,用于为TikTok内容流创建增强现实(AR)效果。
实际上,该公司正在赶上类似的开发者社区,例如Facebook的AR Studio和Snap AR,以及苹果的AR R&D社区,后者也将在未来一年内因新硬件而受到激发。
空白表情
这篇题为《FaceEraser:删除面部部件用于增强现实》的论文指出,现有的填充/插补算法(如NVIDIA的SPADE)更适合完成截断或半遮挡的图像,而不是执行此“抹去”过程,因此现有的数据集材料也相对稀缺。
由于没有可用的真实数据集用于具有实心肉块的面部,研究人员创建了一个名为pixel-clone的新网络架构,可以叠加到现有的神经网络填充模型中,并解决了旧方法(如StructureFlow和EdgeConnect)的纹理和颜色不一致问题。

新管道中的pixel-clone的总体工作流程。
为了训练一个模型来识别“空白”面部,研究人员排除了带有眼镜的图像,或头发遮挡额头的图像,因为头发线和眉毛之间的区域通常是可以提供“复制”材料的最大像素组。

准备训练图像。根据面部对齐识别的关键点,额头区域被裁剪、垂直翻转并拼接。
获得一个256×256像素的图像,大小足够小,可以将其批量输入神经网络以实现泛化。稍后的算法上采样将恢复在AR空间中工作所需的分辨率。
架构
该网络由三个内部网络组成,包括边缘完成、像素克隆和一个细化网络。边缘完成网络使用与EdgeConnect(见上文)和两个最流行的深度伪造应用程序中使用的相同的编码器-解码器架构。编码器将图像内容下采样两次,解码器恢复原始图像尺寸。
像素克隆使用修改的编码器-解码器方法,而细化层使用U-Net架构,这是一种最初为生物医学成像开发的技术,经常出现在图像合成研究项目中。
在训练工作流程中,需要评估转换的准确性,并在必要时重复尝试,直到收敛。为此,使用了两个基于PatchGAN的判别器,每个判别器评估70×70像素补丁的局部真实性,忽略整个图像的真实性值。
训练和数据
边缘完成网络最初独立训练,而其他两个网络一起训练,基于边缘完成训练的权重,这些权重在此过程中被固定和冻结。
尽管该论文没有明确说明其最终特征失真的示例是模型的主要目标,但它实现了各种喜剧效果来测试系统的鲁棒性,包括眉毛删除、嘴巴增大、缩小的子面部和“卡通化”效果(如上图所示)。
该论文断言“抹去的面部使各种增强现实应用程序能够放置任何用户自定义元素”,这表明可以使用第三方用户贡献的元素自定义面部。
该模型在NVIDIA创建的FFHQ数据集上进行训练,该数据集包含足够多的年龄、种族、照明和面部姿势和风格的变化,以实现有用的泛化。该数据集包含35,000张图像和10,000个训练掩码,以确定转换区域,并保留4,000张图像和1,000个掩码用于验证目的。

训练数据样本。
训练好的模型可以对2017年的CelebA-HQ和VoxCeleb、FFHQ中未见过的面部以及任何其他未约束的面部进行推理。256×256像素的图像在Adam优化器的批量中训练,批量大小为8,使用PyTorch实现,并在Tesla V100 GPU上运行“2000,000个epoch”。

在真实面部上获得的推理结果。
与面部图像合成研究中常见一样,该系统必须应对由遮挡或遮蔽引起的偶尔故障,例如头发、外围设备、眼镜和面部毛发。
报告结论:
“我们的方法已经被商业化,并且在产品中对不受约束的用户输入效果良好。”

