TikTok 开发者正在抹去面部以用于增强现实应用

Published September 27, 2021

Updated April 28, 2026

Martin Anderson

字节跳动（ByteDance），这家中国跨国互联网公司是TikTok的背后推手，已经开发出一种新的方法来抹去视频中的面部，以便在增强现实应用中对人施加身份失真和其他奇怪的效果。该公司声称，这项技术已经被整合到商业移动产品中，尽管它没有说明哪些产品。

一旦视频中的面部被“抹去”，就有足够的“面部画布”来产生令人惊叹的失真，以及可能的覆盖其他身份。字节跳动研究人员在一篇新论文中提供的示例说明了这些可能性，包括以各种滑稽（和一些怪诞）的配置恢复“抹去”的特征：

字节跳动论文中包含的面部重新配置的可能性。 Source: https://arxiv.org/pdf/2109.10760.pdf

八月底，人们发现TikTok，第一个非Facebook应用程序，已经推出了 TikTok Effect Studio（目前处于封闭测试），这是一个平台，用于为TikTok内容流创建增强现实（AR）效果。

实际上，该公司正在赶上类似的开发者社区，例如Facebook的AR Studio和Snap AR，以及苹果的AR R&D社区，后者也将在未来一年内因新硬件而受到激发。

这篇题为《FaceEraser：删除面部部件用于增强现实》的论文指出，现有的填充/插补算法（如NVIDIA的SPADE）更适合完成截断或半遮挡的图像，而不是执行此“抹去”过程，因此现有的数据集材料也相对稀缺。

由于没有可用的真实数据集用于具有实心肉块的面部，研究人员创建了一个名为pixel-clone的新网络架构，可以叠加到现有的神经网络填充模型中，并解决了旧方法（如StructureFlow和EdgeConnect）的纹理和颜色不一致问题。

新管道中的pixel-clone的总体工作流程。

为了训练一个模型来识别“空白”面部，研究人员排除了带有眼镜的图像，或头发遮挡额头的图像，因为头发线和眉毛之间的区域通常是可以提供“复制”材料的最大像素组。

准备训练图像。根据面部对齐识别的关键点，额头区域被裁剪、垂直翻转并拼接。

获得一个256×256像素的图像，大小足够小，可以将其批量输入神经网络以实现泛化。稍后的算法上采样将恢复在AR空间中工作所需的分辨率。

该网络由三个内部网络组成，包括边缘完成、像素克隆和一个细化网络。边缘完成网络使用与EdgeConnect（见上文）和两个最流行的深度伪造应用程序中使用的相同的编码器-解码器架构。编码器将图像内容下采样两次，解码器恢复原始图像尺寸。

像素克隆使用修改的编码器-解码器方法，而细化层使用U-Net架构，这是一种最初为生物医学成像开发的技术，经常出现在图像合成研究项目中。

在训练工作流程中，需要评估转换的准确性，并在必要时重复尝试，直到收敛。为此，使用了两个基于PatchGAN的判别器，每个判别器评估70×70像素补丁的局部真实性，忽略整个图像的真实性值。

边缘完成网络最初独立训练，而其他两个网络一起训练，基于边缘完成训练的权重，这些权重在此过程中被固定和冻结。

尽管该论文没有明确说明其最终特征失真的示例是模型的主要目标，但它实现了各种喜剧效果来测试系统的鲁棒性，包括眉毛删除、嘴巴增大、缩小的子面部和“卡通化”效果（如上图所示）。

该论文断言“抹去的面部使各种增强现实应用程序能够放置任何用户自定义元素”，这表明可以使用第三方用户贡献的元素自定义面部。

该模型在NVIDIA创建的FFHQ数据集上进行训练，该数据集包含足够多的年龄、种族、照明和面部姿势和风格的变化，以实现有用的泛化。该数据集包含35,000张图像和10,000个训练掩码，以确定转换区域，并保留4,000张图像和1,000个掩码用于验证目的。

训练数据样本。

训练好的模型可以对2017年的CelebA-HQ和VoxCeleb、FFHQ中未见过的面部以及任何其他未约束的面部进行推理。256×256像素的图像在Adam优化器的批量中训练，批量大小为8，使用PyTorch实现，并在Tesla V100 GPU上运行“2000,000个epoch”。

在真实面部上获得的推理结果。

与面部图像合成研究中常见一样，该系统必须应对由遮挡或遮蔽引起的偶尔故障，例如头发、外围设备、眼镜和面部毛发。

报告结论：

“我们的方法已经被商业化，并且在产品中对不受约束的用户输入效果良好。”

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI