Anderson 视角

AI 的美丽追求

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

一种新的 AI 驱动的美丽评估系统可以评估面部的吸引力,同时比典型的深度学习模型训练速度更快,可能使大规模自动美丽评分更加实用。

 

面部美丽预测 (FBP) 是一个大业务,并且是研究文献中的一个相当强大的线索。尽管它违反了人工智能和机器学习实践中的几乎每一项原则,并且在很多方面支持算法对女性的客体化和还原主义,但它仍然吸引了多个十亿美元级别的行业的兴趣,其中大多数都是针对女性的,例如化妆品、化妆手术、直播 和时尚等。

女性从 1 到 5 的评分,从论文 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion' 中。来源 - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

女性从 1 到 5 的评分,从论文 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’ 中。 来源

除了这些明显的女性中心的商业领域外,广告和其他行业,包括娱乐和出版业,也对了解什么是吸引人的有着显著的利益,这必须以每种文化为基础来进行。

事实上,美丽的集体认知在各个地区有所不同,这意味着不能获得全球适用的数据集,并且新的研究必须要么保持本地化,要么集中于可以应用于多样化文化数据的高级方法。

2015 年 SCUT-FBP 项目的面部美丽评估系统界面。来源 - https://arxiv.org/pdf/1511.02459

2015 年 SCUT-FBP 项目的面部美丽评估系统界面。 来源

经常,地理位置不是唯一的限制,因为吸引力数据集可能难以在性别或特定应用方面提供均等的效果,并且可能被策划以特定的目的,这可能会限制集合在其他领域的使用。

例如,在 2025 年,我 报道 了一个相对大规模(100,000+ 身份)的数据集,以评估直播中的吸引力,其紧密的标准可能需要在更广泛的项目中进行显著的适应,尽管该项目背后投入了巨大的努力。

面部呈现

如上所述,亚洲研究机构通常不受与西方对应机构相同的文化限制,后者将很难发表一篇科学论文,评级五位西方女性从最不吸引人到最吸引人,如上所述 研究 中所示。

可以认为,在亚洲起源的这种系统被证明在公共领域有效且无需担心当地的批评时,西方利益可以使用或将此类研究适应为私有的、不公开的实现。在这种情况下,评级女性的任务被转移到一个可以在不受批评的情况下进行的地点。

无论这种情况是否普遍,还是不太公开的西方等效系统往往在远离开放源代码协作和公众监督的情况下开发,但可以合理地假设目标是全球性的兴趣,因为有大量的专业领域可以或可能从准确的吸引力评估中受益。

适者生存

似乎像 Tik Tok、Instagram 和 YouTube 这样的庞大网络可爬取的语料库将是美丽的优秀仲裁者,通过关联关注者、点赞和流量来评估吸引力,因为这是一个常见且 合理的关联 (尽管有一些 例外)。

同样,现有的集合 – 例如 ImageNet 和 LAION – 特征演员和模特,他们已经“登上了巅峰” – 通常会以吸引人的个体为特色(尽管通常有太多的数据点和太少的人),允许更广泛的文化机制作为吸引力的代理。

然而,这并不能解释 人们对美丽的品味在时间上发生的变化(更不用说地理位置)。因此,需要高级别和数据无关的系统,而不是个别和特殊的集合或策划,这些集合或策划将无法反映不断变化的品味。

混合皮肤

最新的学术贡献来自中国,研究人员使用 迁移学习广泛学习系统 (BLS) 来解决长期存在的准确性和计算成本之间的权衡。

传统的神经网络往往需要大量训练才能获得良好的结果,而像 BLS 这样的轻量级系统可以快速训练,但难以捕捉足够的细节。新的工作通过使用预训练的视觉模型来提取面部特征,然后将这些特征传递给 BLS 系统,实现了这一权衡,允许特征被重用而不是从头开始学习,同时保持训练效率:

LSAFBD 数据集的示例图像,显示女性面部按人为分配的美丽评分从 1 到 5,评分由多个注释器得出,并用于训练和评估面部美丽预测模型,考虑到姿势、照明和外观的变化。来源 - https://arxiv.org/pdf/2603.16930

LSAFBD 数据集的示例图像,显示女性面部按人为分配的美丽评分从 1 到 5。评分由多个注释器得出,并用于训练和评估面部美丽预测模型,考虑到姿势、照明和外观的变化。 来源

第一种变体(E-BLS,见下文)直接将提取的特征输入到轻量级系统中,而第二种变体(ER-BLS,见下文)在 EfficientNet 特征提取器和 BLS 之间添加了一个简单的中间处理步骤,以改善这些提取的特征在用于预测之前的准备,帮助提高一致性而不减慢该过程。

测试表明,作者声称,他们的方法优于任何一种单独的方法和其他竞争方法。

新论文 的标题为 面部美丽预测,融合迁移学习和广泛学习系统,来自 Wuyi 大学的六位研究人员。

方法

上述 广泛学习系统 是一种轻量级的替代深度神经网络的方法,它跳过了堆叠多个 ,而是将学习扩展到一个更广泛的简单连接中,允许模型快速训练 – 但通常以牺牲更细的视觉细节为代价。

第一种变体 E-BLS 结合了 EfficientNet 基础的迁移学习和 BLS,提取面部的详细视觉特征,然后将这些特征传递给 BLS,需要一个最终的预测,避免了从头开始训练一个完整的 深度神经网络 的需要:

E-BLS 模型的架构图,显示来自目标数据集(如 SCUT-FBP5500 和 LSAFBD)的面部图像首先通过预训练的 EfficientNet 特征提取器,其参数从 ImageNet 转移并保持固定,然后将得到的特征图输入到 BLS 中,特征节点和增强节点通过可训练的权重组合以产生最终的面部美丽评分。

E-BLS 模型的架构图。

EfficientNet 在 ImageNet-1k 上预训练,并且基本保持不变,将每个输入图像转换为一个紧凑的 特征值 集,它以结构化的方式描述面部,而 BLS 接受这些值并通过一个简单、随机连接的节点网络处理它们,转换和组合信息,然后产生最终的吸引力评分。

因为 BLS 不依赖于深层结构,E-BLS 可以通过添加更多节点来更新,而不是重新训练整个系统。这使得训练速度更快,并且更容易在新数据引入时改进模型。

第二种变体 ER-BLS 在 E-BLS 的基础上,通过在 EfficientNet 特征提取器和 BLS 之间添加一个额外的处理步骤来改进这些提取的特征在用于预测之前的准备,帮助提高一致性而不减慢该过程:

ER-BLS 模型的架构,面部图像首先通过预训练的 EfficientNet 特征提取器处理,然后通过一个使用池化、归一化和径向基函数 (RBF) 变换的连接层进行精炼。输出然后传递给 BLS,以产生最终的面部美丽评分。

ER-BLS 模型的架构。

ER-BLS 不是直接将 EfficientNet 的原始特征输入到 BLS,而是首先通过一个精炼层来标准化和重塑数据,帮助减少噪音,并使特征在不同图像中更加一致。这一步旨在提高系统的泛化能力,特别是在面部姿势、照明或其他视觉条件变化时,否则可能会将不稳定性引入预测中。

精炼的特征然后被输入到与 E-BLS 中相同的 BLS 结构中,特征节点和增强节点转换和组合信息以产生最终的吸引力评分。

数据和测试

为了测试他们的方法,作者利用了 SCUT-FBP5500 数据集,这是一个来自华南大学的面部美丽预测集合,包含 5,500 张正面面部图像,分辨率为 350x350px,具有多样化的种族、性别和年龄:

SCUT-FBP5500 数据集的示例面部图像,从最不吸引人(1)到最吸引人(5)。

SCUT-FBP5500 数据集的示例面部图像,从最不吸引人(1)到最吸引人(5)。

每张图像都被 60 名志愿者评级,评分范围从 1 到 5,分别对应从 极不吸引人(1)到 极吸引人(5):

图像按美丽评级划分的比例。

图像按美丽评级划分的比例。

另一个使用的数据库是 大规模亚洲女性美丽数据集 (LSAFBD) 集合,这是一个由作者自己策划的数据集。

LSAFBD 数据集的示例面部图像,从最不吸引人(1)到最吸引人(5)。

LSAFBD 数据集的示例面部图像,从最不吸引人(1)到最吸引人(5)。

该集合包含 80,000 张未标记的图像,分辨率为 144x144px,具有姿势、背景和年龄的变化。这些图像被 75 名志愿者评级,评分范围从 0 到 4:

LSAFBD 数据集的划分。

LSAFBD 数据集的划分。

每个数据集都被分割成训练和测试集,比例为 8/20,并使用 交叉验证 来稳定结果。BLS 组件通过特征窗口的数量、每个窗口的节点数量和增强节点的数量进行配置,并使用 Hyperopt 来搜索有效的组合。

为了建立基线,一个标准的 BLS 模型在相同的设置下进行了训练,然后引入了一系列迁移学习模型,包括 ResNet50Inception-V3DenseNet121InceptionResNetV2EfficientNetB7MobileNetV2NASNetXception – 所有这些模型都使用 ImageNet-1k 的权重进行初始化,并且在训练时解冻了最终层。

训练使用了 0.001 的 学习率(当进度停滞时减少),和 16 的 批大小,在 50 个 epoch 中,应用了 正则化ReLU 激活函数。

性能通过 Pearson 相关性 和总训练时间来评估,结果在五次运行中平均。

作者报告了训练设置为 Intel-i7 3.6 GHz CPU 和 64GB RAM 的“桌面电脑”:

在 SCUT-FBP5500 上的性能比较,E-BLS 和 ER-BLS 达到了与深度 CNN 模型(包括 ResNet50、EfficientNetB7、InceptionV3 和 Xception)竞争性的准确率,同时需要的训练时间大大减少 - 突出了将迁移学习与广泛学习系统相结合的效率提高。

在 SCUT-FBP5500 上的性能比较,E-BLS 和 ER-BLS 达到了与深度 CNN 模型(包括 ResNet50、EfficientNetB7、InceptionV3 和 Xception)竞争性的准确率,同时需要的训练时间大大减少 – 突出了将迁移学习与广泛学习系统相结合的效率提高。

结果表明,E-BLS 将准确率从 65.85% 提高到 73.13%,而 ER-BLS 达到了 74.69%,超过了所有比较模型。训练时间仍然比深度 CNN 模型低得多,约为 1,300 秒,而深度 CNN 模型需要数千到超过 25,000 秒。

在 LSAFBD 上的测试结果显示,E-BLS 提高了准确率,而 ER-BLS 在所有比较方法中获得了最高的准确率:

在 LSAFBD 上的性能,ER-BLS 和 E-BLS 达到了比所有基线和迁移学习模型更高的准确率,同时只需要很小一部分的训练时间,表明在效率和预测质量之间存在一致的优势。

在 LSAFBD 上的性能,ER-BLS 和 E-BLS 达到了比所有基线和迁移学习模型更高的准确率,同时只需要很小一部分的训练时间,表明在效率和预测质量之间存在一致的优势。

两种变体都保持了比深度 CNN 模型更低的训练时间,表明在性能和计算成本之间存在更高效的平衡。

结论

这是一种“复古”出版物,如其使用的过时技术(如 CNN)和最低级别的训练设备所示。

然而,它处理了一个令人惊讶的、具有韧性的目标,这个目标深深地与人类的体验和主观解释相关,并且需要一个能够超越当前美学趋势并为该任务提供真正的韧性管道的模式。

 

首次发表于 2026 年 3 月 19 日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai