Anderson 视角

AI 的美丽追求

发布于 2026年3月19日

更新于 2026年5月16日

作者

Martin Anderson

AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

一种新的 AI 驱动的美丽评估系统可以评估面部的吸引力，同时比典型的深度学习模型训练速度更快，可能使大规模自动美丽评分更加实用。

面部美丽预测 (FBP) 是一个大业务，并且是研究文献中的一个相当强大的线索。尽管它违反了人工智能和机器学习实践中的几乎每一项原则，并且在很多方面支持算法对女性的客体化和还原主义，但它仍然吸引了多个十亿美元级别的行业的兴趣，其中大多数都是针对女性的，例如化妆品、化妆手术、直播和时尚等。

女性从 1 到 5 的评分，从论文 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’ 中。 来源

除了这些明显的女性中心的商业领域外，广告和其他行业，包括娱乐和出版业，也对了解什么是吸引人的有着显著的利益，这必须以每种文化为基础来进行。

事实上，美丽的集体认知在各个地区有所不同，这意味着不能获得全球适用的数据集，并且新的研究必须要么保持本地化，要么集中于可以应用于多样化文化数据的高级方法。

2015 年 SCUT-FBP 项目的面部美丽评估系统界面。 来源

经常，地理位置不是唯一的限制，因为吸引力数据集可能难以在性别或特定应用方面提供均等的效果，并且可能被策划以特定的目的，这可能会限制集合在其他领域的使用。

例如，在 2025 年，我报道了一个相对大规模（100,000+ 身份）的数据集，以评估直播中的吸引力，其紧密的标准可能需要在更广泛的项目中进行显著的适应，尽管该项目背后投入了巨大的努力。

面部呈现

如上所述，亚洲研究机构通常不受与西方对应机构相同的文化限制，后者将很难发表一篇科学论文，评级五位西方女性从最不吸引人到最吸引人，如上所述研究中所示。

可以认为，在亚洲起源的这种系统被证明在公共领域有效且无需担心当地的批评时，西方利益可以使用或将此类研究适应为私有的、不公开的实现。在这种情况下，评级女性的任务被转移到一个可以在不受批评的情况下进行的地点。

无论这种情况是否普遍，还是不太公开的西方等效系统往往在远离开放源代码协作和公众监督的情况下开发，但可以合理地假设目标是全球性的兴趣，因为有大量的专业领域可以或可能从准确的吸引力评估中受益。

适者生存

似乎像 Tik Tok、Instagram 和 YouTube 这样的庞大网络可爬取的语料库将是美丽的优秀仲裁者，通过关联关注者、点赞和流量来评估吸引力，因为这是一个常见且合理的关联（尽管有一些例外）。

同样，现有的集合 – 例如 ImageNet 和 LAION – 特征演员和模特，他们已经“登上了巅峰” – 通常会以吸引人的个体为特色（尽管通常有太多的数据点和太少的人），允许更广泛的文化机制作为吸引力的代理。

然而，这并不能解释人们对美丽的品味在时间上发生的变化（更不用说地理位置）。因此，需要高级别和数据无关的系统，而不是个别和特殊的集合或策划，这些集合或策划将无法反映不断变化的品味。

混合皮肤

最新的学术贡献来自中国，研究人员使用迁移学习和广泛学习系统 (BLS) 来解决长期存在的准确性和计算成本之间的权衡。

传统的神经网络往往需要大量训练才能获得良好的结果，而像 BLS 这样的轻量级系统可以快速训练，但难以捕捉足够的细节。新的工作通过使用预训练的视觉模型来提取面部特征，然后将这些特征传递给 BLS 系统，实现了这一权衡，允许特征被重用而不是从头开始学习，同时保持训练效率：

LSAFBD 数据集的示例图像，显示女性面部按人为分配的美丽评分从 1 到 5。评分由多个注释器得出，并用于训练和评估面部美丽预测模型，考虑到姿势、照明和外观的变化。来源

第一种变体（E-BLS，见下文）直接将提取的特征输入到轻量级系统中，而第二种变体（ER-BLS，见下文）在 EfficientNet 特征提取器和 BLS 之间添加了一个简单的中间处理步骤，以改善这些提取的特征在用于预测之前的准备，帮助提高一致性而不减慢该过程。

测试表明，作者声称，他们的方法优于任何一种单独的方法和其他竞争方法。

新论文的标题为 面部美丽预测，融合迁移学习和广泛学习系统，来自 Wuyi 大学的六位研究人员。

方法

上述 广泛学习系统 是一种轻量级的替代深度神经网络的方法，它跳过了堆叠多个层，而是将学习扩展到一个更广泛的简单连接中，允许模型快速训练 – 但通常以牺牲更细的视觉细节为代价。

第一种变体 E-BLS 结合了 EfficientNet 基础的迁移学习和 BLS，提取面部的详细视觉特征，然后将这些特征传递给 BLS，需要一个最终的预测，避免了从头开始训练一个完整的深度神经网络的需要：

E-BLS 模型的架构图。

EfficientNet 在 ImageNet-1k 上预训练，并且基本保持不变，将每个输入图像转换为一个紧凑的特征值集，它以结构化的方式描述面部，而 BLS 接受这些值并通过一个简单、随机连接的节点网络处理它们，转换和组合信息，然后产生最终的吸引力评分。

因为 BLS 不依赖于深层结构，E-BLS 可以通过添加更多节点来更新，而不是重新训练整个系统。这使得训练速度更快，并且更容易在新数据引入时改进模型。

第二种变体 ER-BLS 在 E-BLS 的基础上，通过在 EfficientNet 特征提取器和 BLS 之间添加一个额外的处理步骤来改进这些提取的特征在用于预测之前的准备，帮助提高一致性而不减慢该过程：

ER-BLS 模型的架构。

ER-BLS 不是直接将 EfficientNet 的原始特征输入到 BLS，而是首先通过一个精炼层来标准化和重塑数据，帮助减少噪音，并使特征在不同图像中更加一致。这一步旨在提高系统的泛化能力，特别是在面部姿势、照明或其他视觉条件变化时，否则可能会将不稳定性引入预测中。

精炼的特征然后被输入到与 E-BLS 中相同的 BLS 结构中，特征节点和增强节点转换和组合信息以产生最终的吸引力评分。

数据和测试

为了测试他们的方法，作者利用了 SCUT-FBP5500 数据集，这是一个来自华南大学的面部美丽预测集合，包含 5,500 张正面面部图像，分辨率为 350x350px，具有多样化的种族、性别和年龄：

SCUT-FBP5500 数据集的示例面部图像，从最不吸引人（1）到最吸引人（5）。

每张图像都被 60 名志愿者评级，评分范围从 1 到 5，分别对应从 极不吸引人（1）到 极吸引人（5）：

图像按美丽评级划分的比例。

另一个使用的数据库是大规模亚洲女性美丽数据集 (LSAFBD) 集合，这是一个由作者自己策划的数据集。

LSAFBD 数据集的示例面部图像，从最不吸引人（1）到最吸引人（5）。

该集合包含 80,000 张未标记的图像，分辨率为 144x144px，具有姿势、背景和年龄的变化。这些图像被 75 名志愿者评级，评分范围从 0 到 4：

LSAFBD 数据集的划分。

每个数据集都被分割成训练和测试集，比例为 8/20，并使用交叉验证来稳定结果。BLS 组件通过特征窗口的数量、每个窗口的节点数量和增强节点的数量进行配置，并使用 Hyperopt 来搜索有效的组合。

为了建立基线，一个标准的 BLS 模型在相同的设置下进行了训练，然后引入了一系列迁移学习模型，包括 ResNet50、Inception-V3、DenseNet121、InceptionResNetV2、EfficientNetB7、MobileNetV2、NASNet 和 Xception – 所有这些模型都使用 ImageNet-1k 的权重进行初始化，并且在训练时解冻了最终层。

训练使用了 0.001 的学习率（当进度停滞时减少），和 16 的批大小，在 50 个 epoch 中，应用了正则化和 ReLU 激活函数。

性能通过 Pearson 相关性和总训练时间来评估，结果在五次运行中平均。

作者报告了训练设置为 Intel-i7 3.6 GHz CPU 和 64GB RAM 的“桌面电脑”：