抖音开发者抹去面部特征以应用于增强现实应用

Published September 27, 2021

Updated May 24, 2026

Martin Anderson

字节跳动，这家中国跨国互联网公司是抖音的开发者，已经开发了一种新的方法来抹去视频中的面部特征，以便在增强现实应用中对人脸进行变形和其他奇怪的效果。该公司声称，这种技术已经被集成到商业移动产品中，尽管它没有说明哪些产品。

一旦视频中的面部特征被“抹去”，就有足够的“面部画布”来产生令人眼花缭乱的变形，以及可能的其他身份的叠加。ByteDance研究人员提供的新论文中的示例说明了这些可能性，包括以各种喜剧（和一些令人厌恶的）配置恢复“抹去”的特征：

ByteDance论文中的一些面部重构可能性。来源：https://arxiv.org/pdf/2109.10760.pdf

八月底，抖音推出了TikTok Effect Studio（目前处于封闭测试阶段），这是一个平台，允许增强现实开发者为抖音内容流创建增强现实效果。该公司正在赶上Facebook的AR Studio和Snap AR，以及苹果的增强现实研究社区，该社区即将因新硬件的推出而受到激发。

论文指出，现有的填充/重构算法（如NVIDIA的SPADE）更适合完成截断或半遮挡的图像，而不是执行此“抹去”过程。因此，现有的数据集材料非常稀少。

由于没有可用的真实数据集用于具有实心肉块的面部，研究人员创建了一个名为pixel-clone的新网络架构，该架构可以叠加到现有的神经网络填充模型中，并解决了旧方法（如StructureFlow和EdgeConnect）中出现的纹理和颜色不一致的问题。

新管道中的pixel-clone的总体工作流程。

为了训练“空白”面部的模型，研究人员排除了带有眼镜或头发遮挡前额的图像，因为前额和眉毛之间的区域通常是可以提供“粘贴”材料的最大像素组。

准备训练图像。根据面部对齐识别的关键点，前额区域被裁剪、垂直翻转和拼接。

一个256×256像素的图像被获取，这个大小足够小，可以在批量中输入神经网络以实现泛化。稍后的算法上采样将恢复增强现实空间中所需的分辨率。

该网络由三个内部网络组成，包括边缘完成、像素克隆和精化网络。边缘完成网络使用与EdgeConnect（见上文）和两个最流行的深度伪造应用中使用的相同的编码器-解码器架构。编码器对图像内容进行两次下采样，解码器恢复原始图像尺寸。

像素克隆使用修改后的编码器-解码器方法，而精化层使用U-Net架构，这是一种最初为生物医学成像开发的技术，常用于图像合成研究项目。

在训练工作流程中，需要评估变换的准确性，并在必要时重复尝试，直到收敛。为此，使用了两个基于PatchGAN的判别器，每个判别器评估70×70像素块的局部真实性，折扣整个图像的真实性值。

边缘完成网络首先独立训练，而其他两个网络则一起训练，基于边缘完成训练的权重，这些权重在此过程中被固定和冻结。

尽管论文没有明确说明其最终特征变形的示例是模型的主要目标，但它实现了各种喜剧效果来测试系统的鲁棒性，包括眉毛移除、嘴巴增大、子面部缩小和“卡通化”效果（如上图所示）。

论文声称，“抹去的面部使各种增强现实应用成为可能，这些应用需要放置任何用户自定义元素”，这表明可以使用第三方用户贡献的元素自定义面部。

该模型在NVIDIA创建的FFHQ数据集上进行训练，该数据集包含足够多的年龄、种族、照明和面部姿势和风格的变化，以实现有用的泛化。数据集包含35,000张图像和10,000个训练掩码，以确定变换区域，并为验证目的保留4,000张图像和1,000个掩码。

训练数据样本。

训练好的模型可以对2017年的CelebA-HQ和VoxCeleb、FFHQ中未见过的面部以及任何其他未知面部进行推理。图像以8批的形式输入网络，使用Adam优化器，使用PyTorch实现，并在Tesla V100 GPU上运行“2000,000个epoch”。

在真实面部上获得的推理结果。

与面部图像合成研究中常见的情况一样，该系统必须应对由头发、外设、眼镜和面部毛发等遮挡或遮蔽引起的偶尔故障。

报告得出结论：

“我们的方法已经被商业化，并且在具有无约束用户输入的产品中表现良好。”

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI