Anderson 视角

预估直播中的面部吸引力预测

发布于 2025年1月8日

更新于 2026年4月26日

作者

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

到目前为止，面部吸引力预测（FAP）主要是在心理研究、美容和化妆品行业以及整容手术的背景下进行的研究。这是一个具有挑战性的研究领域，因为美的标准往往是国家而非全球的。

这意味着没有单一的有效基于AI的数据集是可行的，因为从所有文化中采样面部/评分所获得的平均值将非常偏见（其中人口更多的国家将获得额外的关注），否则适用于《无文化》（其中多个种族/评分的平均值等于没有实际种族）。

相反，挑战是开发《概念方法》和工作流程，将国家或文化特定的数据处理到其中，以便能够开发每个地区有效的FAP模型。

FAP在美容和心理研究中的用例相当边缘，否则是行业特定的；因此，到目前为止策划的数据集大多只包含有限的数据，或者根本没有发布。

在线吸引力预测器的易得性，主要针对西方观众，不一定代表FAP的当前状态，这似乎目前被东亚研究（主要是中国）和相应的东亚数据集所主导。

《来自2020年论文’使用深度神经网络、迁移学习和多通道特征融合的亚洲女性面部美丽预测’的数据集示例。来源：https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30》

美容估计的更广泛的商业用途包括在线约会应用，以及设计用于“修饰”真实头像图像的人的生成AI系统（因为这些应用需要一个量化的美的标准作为有效性的指标）。

绘制面部

有吸引力的个体继续成为广告和影响力建设中的宝贵资产，使这些领域的财务激励成为推进最先进的FAP数据集和框架的明显机会。

例如，使用真实世界数据训练的AI模型来评估和评级面部美丽，可以潜在地识别具有高广告影响力的事件或个体。这一功能在直播视频背景下尤其相关，在那里，指标如“关注者”和“点赞”仅作为个体（甚至面部类型）的吸引力能力的《隐含》指标。

这是一个肤浅的指标，当然，声音、演讲和观点也在吸引观众中发挥着重要作用。因此，FAP数据集的策划需要人工监督，以及区分面部和“伪造”的吸引力的能力（如果没有这种能力，像Alex Jones这样的领域外影响者可能会影响专门用于估计面部美丽的集合的平均FAP曲线）。

LiveBeauty

为了解决FAP数据集的短缺，中国的研究人员提供了第一个大规模的FAP数据集，包含10万张面部图像，以及20万个人类注释，估计面部美丽。

《来自新LiveBeauty数据集的样本。来源：https://arxiv.org/pdf/2501.02509》

名为《LiveBeauty》的数据集，具有1万个不同的身份，都从（未指定）2024年3月的直播平台上捕获。

作者还提出了一种新的多模态FAP方法，称为FPEM。FPEM通过个人化吸引力先验模块（PAPM）、多模态吸引力编码器模块（MAEM）和跨模态融合模块（CMFM）集成整体面部先验知识和多模态美学语义特征。

该论文声称，FPEM在新的LiveBeauty数据集和其他FAP数据集上实现了最先进的性能。作者指出，该研究具有潜在的应用，例如增强视频质量、内容推荐和直播中的面部修饰。

作者还承诺“很快”发布数据集——尽管必须承认，源域中的任何许可限制似乎可能传递给大多数可能使用该工作的项目。

新论文题为《直播中的面部吸引力预测：一个新的基准和多模态方法》，来自阿里巴巴集团和上海交通大学的十位研究人员。

方法和数据

从每个10小时的直播中，研究人员收集了每小时一张图像，前三小时。选择了页面浏览量最高的直播。

收集的数据然后经过几个预处理阶段。第一个阶段是《面部区域尺寸测量》，使用2018年的CPU-based FaceBoxes 检测模型生成面部线条周围的边界框。该管道确保边界框的较短边大于90像素，避免小或不清晰的面部区域。

第二步是《模糊检测》，应用于面部区域，使用拉普拉斯算子的方差，在面部裁剪的高度（Y）通道中。该方差必须大于10，这有助于过滤掉模糊的图像。

第三步是《面部姿势估计》，使用2021年的3DDFA-V2 姿势估计模型：

《来自3DDFA-V2估计模型的示例。来源：https://arxiv.org/pdf/2009.09960》

这里，工作流程确保裁剪面部的俯仰角不大于20度，偏航角不大于15度，这排除了具有极端姿势的面部。

第四步是《面部比例评估》，也使用3DDFA-V2模型的分割功能，确保裁剪面部区域比例大于图像的60%，排除了面部在整体图像中不突出的图像。

最后，第五步是《重复字符删除》，使用（未注明）最先进的面部识别模型，对于同一身份在三张图像中出现多次的情况。

人工评估和注释

招募了20名注释员，包括6名男性和14名女性，反映了使用的直播平台的 демограф特征*。面部在iPhone 14 Pro Max的6.7英寸屏幕上显示，在一致的实验室条件下。

评估分为200个会话，每个会话使用50张图像。受试者被要求根据1-5的评分评估样本的面部吸引力，并在每个会话之间强制执行5分钟的休息时间，并且所有受试者参与所有会话。

因此，全部10,000张图像都经过了20个人类受试者的评估，得到了20万个注释。

分析和预处理

首先，使用异常值比率和斯皮尔曼等级相关系数（SROCC）进行了受试者后筛选。那些评分具有SROCC小于0.75或异常值比率大于2%的受试者被认为是不可靠的，并被删除，最终得到了20个受试者。

然后，通过对每个面部图像从有效受试者获得的评分进行平均，计算出平均意见评分（MOS）。MOS作为每个图像的吸引力真实标签，并且通过平均所有个别有效受试者的评分来计算。

最后，所有样本以及女性和男性样本的MOS分布的分析表明，它们表现出高斯样的形状，这与现实世界中的面部吸引力分布一致：

《LiveBeauty MOS分布的示例。》

大多数人往往具有平均的面部吸引力，极少数人具有非常低或非常高的吸引力。

进一步，偏度和峰度值的分析表明，分布具有薄尾和集中在平均评分周围的特征，并且《高吸引力在女性样本中更为普遍》在收集的直播视频中。

架构

使用了两阶段训练策略，用于面部先验增强多模态模型（FPEM）和LiveBeauty中的混合融合阶段，分为四个模块：个人化吸引力先验模块（PAPM）、多模态吸引力编码器模块（MAEM）、跨模态融合模块（CMFM）和决策融合模块（DFM）。

《LiveBeauty训练管道的概念架构。》

PAPM模块以图像作为输入，并使用Swin Transformer提取多尺度视觉特征，并使用预训练的FaceNet模型提取面部感知特征。这些特征然后使用跨注意力块组合，创建一个个性化的“吸引力”特征。

在预备训练阶段，MAEM使用图像和吸引力的文本描述，利用CLIP提取多模态美学语义特征。

模板化的文本描述的形式为《一个人具有{a}吸引力的照片》（其中{a}可以是《坏》、《差》、《一般》、《好》或《完美》）。该过程估计文本和视觉嵌入之间的余弦相似度，以获得吸引力水平的概率。

在混合融合阶段，CMFM使用PAPM生成的个性化吸引力特征来改进文本嵌入，从而生成个性化的文本嵌入。然后，它使用相似性回归策略来进行预测。

最后，DFM将PAPM、MAEM和CMFM的个别预测组合起来，生成一个单一的最终吸引力评分，目标是实现一个坚实的共识。

损失函数

对于损失指标，PAPM使用L1损失，即预测的吸引力评分与实际（真实）吸引力评分之间的绝对差值的衡量标准。

MAEM模块使用一个更复杂的损失函数，结合了评分损失（LS）和合并排名损失（LR）。排名损失（LR）包括保真损失（LR1）和双向排名损失（LR2）。

LR1比较图像对的相对吸引力，而LR2确保预测的吸引力水平概率分布具有单个峰值，并在两个方向上递减。这种综合方法旨在优化吸引力的准确评分和正确排名。

CMFM和DFM使用简单的L1损失进行训练。

测试

在测试中，研究人员将LiveBeauty与九种先前的方法进行了比较：ComboNet；2D-FAP；REX-INCEP；CNN-ER（在REX-INCEP中介绍）；MEBeauty；AVA-MLSP；TANet；Dele-Trans；和EAT。

符合图像美学评估（IAA）协议的基线方法也进行了测试。这些方法是ViT-B；ResNeXt-50；和Inception-V3。

除了LiveBeauty外，测试的其他数据集是SCUT-FBP5000和MEBeauty。以下是这些数据集的MOS分布比较：

《基准数据集的MOS分布。》

分别，这些客座数据集被分为60%-40%和80%-20%用于训练和测试，以保持与其原始协议的一致性。LiveBeauty被分为90%-10%。

对于MAEM中的模型初始化，VT-B/16和GPT-2分别用作图像和文本编码器，初始化设置来自CLIP。对于PAPM，Swin-T用作可训练的图像编码器，按照SwinFace。

使用了AdamW优化器，并设置了学习率调度器，采用线性预热和余弦退火方案。学习率在训练阶段有所不同，但每个阶段都有一个批大小为32，训练50个epoch。

《测试结果》

测试结果如下所示。关于这些结果，该论文指出：

‘我们提出的方法实现了第一名，并且在LiveBeauty、MEBeauty和SCUT-FBP5500上的SROCC值上超过第二名约0.012、0.081和0.021，表明了我们提出的方法的优越性。 ‘

‘IAA方法比FAP方法要差，这表明通用的美学评估方法忽略了面部吸引力中的面部特征，导致在FAP任务上的性能较差。 ‘

‘所有方法在MEBeauty上的性能都明显下降。这是因为训练样本有限，MEBeauty中的面部具有多种族的特点，表明面部吸引力具有很大的多样性。 ‘

‘所有这些因素使得MEBeauty中的面部吸引力预测更加具有挑战性。 ‘

伦理考虑

吸引力研究是一个潜在的有争议的追求，因为在建立所谓的经验美的标准时，这样的系统往往会强化围绕年龄、种族和许多其他与人类相关的计算机视觉研究领域的偏见。

可以认为，FAP系统本质上是《偏见》和延续偏见和美的部分、有偏见的观点的系统。这些判断可能源于人类主导的注释——通常在太小的规模上进行，无法有效地进行领域泛化——或者来自分析在线环境（如流媒体平台）中的注意力模式，这些环境可以说远非是功绩制的。

* 该论文将源域/域以单数和复数形式引用。

首次发布于2025年1月8日星期三