人工智能
评估直播中的面部吸引力预测

到目前为止,面部吸引力预测 (FAP) 主要在心理学研究、美容和化妆品行业以及整容手术的背景下进行研究。这是一个具有挑战性的研究领域,因为美丽的标准往往是 国家性而非全球性.
这意味着没有一个有效的基于人工智能的数据集是可行的,因为从所有文化中抽样面孔/评级获得的平均平均值会非常有偏差(人口更多的国家会获得更多的吸引力),否则适用于 毫无文化 (其中多场比赛/评分的平均值不等同于没有实际比赛)。
相反,挑战在于发展 概念方法论 以及可以处理特定国家或文化数据的工作流程,以便开发有效的每个区域的 FAP 模型。
FAP 在美容和心理研究中的用例非常边缘,否则就是行业特定的;因此迄今为止整理的大多数数据集仅包含有限的数据,或者根本没有发布。
在线吸引力预测器的易用性主要针对西方受众,并不一定代表 FAP 的最新水平,目前 FAP 似乎由东亚研究(主要是中国)和相应的东亚数据集主导。

数据集示例来自 2020 年的论文《通过迁移学习和多通道特征融合使用深度神经网络进行亚洲女性面部美貌预测》。 Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
美容评估的更广泛商业用途包括 网上约会应用以及旨在 “修饰”人物的真实头像 (因为此类应用需要量化的美感标准作为有效性的衡量标准)。
绘制面
有吸引力的个人在广告和影响力建设方面仍然是宝贵的资产,使得这些领域的财务激励成为推进最先进的 FAP 数据集和框架的明显机会。
例如,使用真实数据训练的 AI 模型可以评估和评价面部美感,从而识别出具有高广告影响力的事件或个人。这种能力在直播视频流环境中尤其重要,因为目前“粉丝”和“点赞”等指标仅作为 含蓄 个人(甚至是面部类型)吸引观众的能力的指标。
当然,这只是一个表面指标,声音、表情和观点在吸引观众方面也发挥着重要作用。因此,FAP 数据集的管理需要人工监督,以及区分面部吸引力和“似是而非”吸引力的能力(如果没有这些能力,像 Alex Jones 这样的领域外影响者最终可能会影响专门用于评估面部美感的数据集的平均 FAP 曲线)。
生活美容
为了解决FAP数据集的短缺问题,中国研究人员正在提供第一个大规模FAP数据集,其中包含100,000张人脸图像,以及200,000个用于评估面部美感的人工注释。

来自新 LiveBeauty 数据集的样本。 来源:https://arxiv.org/pdf/2501.02509
有权 生活美容该数据集包含 10,000 个不同的身份,全部于 2024 年 XNUMX 月从(未指定的)直播平台捕获。
作者还提出了一种新的多模态 FAP 方法 FPEM。FPEM 集成了整体面部先验知识和多模态美学语义 功能 通过个性化吸引力优先模块(PAPM)、多模式吸引力编码器模块(MAEM)和跨模式融合模块(CMFM)。
论文认为,FPEM 在新的 LiveBeauty 数据集和其他 FAP 数据集上实现了最佳性能。作者指出,这项研究在提高视频质量、内容推荐和直播中的面部修饰方面具有潜在的应用价值。
作者还承诺“很快”提供数据集 - 尽管必须承认,源领域固有的任何许可限制似乎可能会传递给可能使用该作品的大多数适用项目。
- 新文 标题为 直播中的面部吸引力预测:新的基准和多模态方法,来自阿里巴巴集团和上海交通大学的十位研究人员。
方法与数据
研究人员在直播平台的每 10 小时直播中,前三个小时每小时挑选一张图片,并选出页面浏览量最高的直播。
收集的数据随后经过几个预处理阶段。其中第一个是 脸部区域尺寸测量,采用基于 2018 CPU 的 脸部彩盒 检测模型生成围绕面部轮廓的边界框。该流程确保边界框的短边超过 90 像素,从而避免出现小的或不清晰的面部区域。
第二步是 模糊检测,它通过使用 拉普拉斯算子 在面部裁剪的高度(Y)通道中。此方差必须大于 10,这有助于滤除模糊的图像。
第三步是 面部姿势估计,使用 2021 3DDFA-V2 姿态估计模型:

来自 3DDFA-V2 估计模型的示例。 来源:https://arxiv.org/pdf/2009.09960
这里的工作流程确保裁剪后的脸部的俯仰角不大于 20 度,偏航角不大于 15 度,从而排除具有极端姿势的脸部。
第四步是 面部比例评估,同样利用了3DDFA-V2模型的分割能力,保证裁剪后的人脸区域占比大于图片的60%,排除人脸不突出的图像,即在整体图片中占比较小的。
最后,第五步是 删除重复字符它使用(未归因的)最先进的人脸识别模型,用于处理在 10 小时视频中收集的三张图像中的多张图像中出现同一身份的情况。
人工评估和注释
我们招募了 14 名注释者,其中包括 6.7 名男性和 14 名女性,反映了所用实时平台的人口统计数据*。在一致的实验室条件下,面部显示在 iPhone XNUMX Pro Max 的 XNUMX 英寸屏幕上。
评估分为 200 个环节,每个环节使用 50 张图片。受试者被要求以 1-5 分的分数对样本的面部吸引力进行评分,每个环节之间有五分钟的休息时间,所有受试者都参加所有环节。
因此,对 10,000 名人类受试者的全部 200,000 幅图像进行了评估,得出了 XNUMX 条注释。
分析和预处理
首先,使用异常值比率和 斯皮尔曼等级相关系数 (SROCC)。评分的受试者的 SROCC 小于 0.75 或 局外人 比例大于2%的被认为不可靠并被删除,最终获得20名受试者。
然后,通过对有效受试者获得的分数进行平均,计算出每张人脸图像的平均意见分数 (MOS)。MOS 用作 基本事实 为每个图像添加吸引力标签,并通过对每个有效主题的所有单独分数进行平均来计算分数。
最后,对所有样本以及女性和男性样本的 MOS 分布的分析表明,它们表现出 高斯形状,这与现实世界的面部吸引力分布一致:

LiveBeauty MOS 发行版示例。
大多数人的面部吸引力都处于平均水平,而吸引力极低或极高的个体则较少。
此外,分析 偏度和峰度 值表明,分布的特点是尾部细长,集中在平均分数附近,并且 高吸引力在女性样本中更为普遍 在收集的直播视频中。
卓越
LiveBeauty 中的面部优先增强多模态模型 (FPEM) 和混合融合阶段采用了两阶段训练策略,分为四个模块:个性化吸引力优先模块 (PAPM)、多模态吸引力编码器模块 (MAEM)、跨模态融合模块 (CMFM) 和决策融合模块 (DFM)。

LiveBeauty 训练流程的概念架构。
PAPM 模块以图像作为输入,并使用 旋转变压器并使用预训练的 面对网 模型。然后使用 交叉注意力 块来创建个性化的“吸引力”特征。
此外,在初步训练阶段,MAEM 使用吸引力的图像和文字描述,利用 CLIP 提取多模态美学语义特征。
模板化的文本描述形式为 “一张具有{a}魅力的人的照片” (哪里 {一种} 可 坏, 贫困, 公平, 非常好 or )。该过程估计 余弦相似度 在文本和视觉嵌入之间得出吸引力水平概率。
在混合融合阶段,CMFM 使用 PAPM 生成的个性化吸引力特征细化文本嵌入,从而生成个性化文本嵌入。然后它使用 相似性回归 策略来做出预测。
最后,DFM 将 PAPM、MAEM 和 CMFM 的各个预测结合起来,得出一个最终的吸引力得分,目标是达成稳固的共识
损失函数
对于 损失指标,PAPM 使用 L1损失,衡量预测吸引力得分与实际(基本事实)吸引力得分之间的绝对差异。
MAEM 模块使用更复杂的损失函数,该函数结合了评分损失 (LS) 和合并排名损失 (LR)。排名损失 (LR) 包括保真度损失 (LR1) 和 双向排名损失 (LR2)。
LR1 比较图像对的相对吸引力,而 LR2 确保吸引力水平的预测概率分布具有单峰且在两个方向上均下降。这种组合方法旨在优化基于吸引力的图像的准确评分和正确排序。
CMFM 和 DFM 使用简单的 L1 损失进行训练。
检测
在测试中,研究人员将 LiveBeauty 与之前九种方法进行了对比: 组合网; 二维FAP; REX-INCEP;CNN-ER(收录于REX-INCEP); 美颜; AV-MLSP; 交通信息网; 德莱-Trans;和 饮食.
符合 形象美学评估 (IAA)协议也进行了测试。这些 维生素B; ResNeXt-50;和 Inception-V3.
除了 LiveBeauty 之外,其他测试的数据集包括 华南理工大学-FBP5000 和 MEBeauty。下面比较这些数据集的 MOS 分布:

基准数据集的 MOS 分布。
这些访客数据集分别是 分裂 60%-40% 和 80%-20% 分别用于训练和测试,以保持与原始协议的一致性。LiveBeauty 的分成比例为 90%-10%。
对于 MAEM 中的模型初始化,分别使用 VT-B/16 和 GPT-2 作为图像和文本编码器,通过 CLIP 中的设置进行初始化。对于 PAPM,使用 Swin-T 作为可训练图像编码器,符合 斯温菲斯.
- 亚当 使用了优化器,并且 学习率 调度 设置 线性热身 下一个 余弦退火 方案。学习率在训练阶段有所不同,但每个阶段都有一个 批量大小 32,为 50 时代.

测试结果
上面显示了对三个 FAP 数据集进行测试的结果。关于这些结果,论文指出:
“我们提出的方法在 LiveBeauty、MEBeauty 和 SCUT-FBP0.012 上的 SROCC 值分别取得第一名和超过第二名约 0.081、0.021、5500,证明了我们提出的方法的优越性。
“IAA 方法不如 FAP 方法,这表明通用美学评估方法忽视了面部吸引力主观性所涉及的面部特征,导致 FAP 任务表现不佳。
“所有方法在 MEBeauty 上的表现都大幅下降。这是因为训练样本有限,而且 MEBeauty 中的面孔种族多样,这表明面部吸引力存在很大差异。”
“所有这些因素使得 MEBeauty 中面部吸引力的预测变得更具挑战性。”
关于上海赛睿克及 SCIREQ
对吸引力的研究可能引起分歧,因为在建立所谓的美丽经验标准时,这种系统往往会强化与年龄、种族以及与人类相关的计算机视觉研究的许多其他领域的偏见。
有人可能会认为,FAP 系统本质上 有倾向的 强化和延续对吸引力的部分和偏见观点。这些判断可能来自人类主导的注释——通常在过于有限的范围内进行,无法进行有效的领域泛化——或者来自分析流媒体平台等在线环境中的注意力模式,可以说,这些环境远非精英统治。
* 本文以单数和复数形式提及未命名的源域。
首次发布于 8 年 2025 月 XNUMX 日星期三