Anderson 视角

AI 可以根据人的年龄猜测照片的拍摄年份

Published November 10, 2025

Updated May 17, 2026

Martin Anderson

An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

新研究表明，AI 可以使用人们的面部来估计照片的拍摄年份，通过将年龄猜测与已知的出生年份相结合，来击败当前基于场景的方法。

猜测照片的拍摄日期曾经比较容易，因为发型和服装的风格曾经以惊人的速度演变。然而，出于各种原因，这种视觉风格的演变大约在 30 年前结束，这意味着仅凭发型或服装来猜测照片的拍摄年份已经不再那么容易。

一段时间以来，人们还可以根据图像和电影的色彩分辨率和胶片特征来确定拍摄日期。一个人不需要成为法医专家；如果你看过足够多的老电影，文化线索（如音乐、汽车、时尚、话题等）最终会与胶片风格相关联：

图像中展示了胶片的改进如何逐渐扩大了皮肤色调和照明风格的范围，从平面、正面的设置转变为更自然和多样的外观。[来源] https://archive.is/3ZSjN (我的文章)

图像中展示了胶片的改进如何逐渐扩大了皮肤色调和照明风格的范围，从平面、正面的设置转变为更自然和多样的外观。 来源 (我的文章)

此外，照片是否为黑白也是确定拍摄日期的参考点——一种在本世纪初数字摄影普及后变得过时的经济形式

有一些商业和实验系统，例如 MyHeritage 的 PhotoDater 订阅服务，尝试使用这些和其他各种标准来确定照片的拍摄日期。

MyHeritage PhotoDater 订阅服务的照片估计示例。 来源

如果没有其他线索，例如智能手机或其他特定时代的技术，过去 15-25 年内拍摄的照片的年龄最好的判断方法是，如果你熟悉照片中的人（例如名人或熟人），并且可以估计他们的年龄，这将得出一个大致的年份。

面部年龄作为参考

在计算机视觉领域以及其他多个领域（例如法医、档案处理、新闻、数据集架构等），确定照片的拍摄日期是一项备受重视的目标，因为许多数字和模拟集合缺乏适当的注释和元数据，或者具有不正确的元数据。

因此，如果 AI 系统可以像我们回顾历史集合时一样审查照片，并评论“哦，是的，那是当时……”，那将非常有用。问题是，什么可以作为线索，假设没有通常的线索？

来自捷克共和国的一篇新研究论文提供了一个初步的解决方案，通过利用基于 AI 的年龄识别系统和面部识别系统，后者与一个包含身份的公共数据库（在本例中是一个类似 IMDB 的捷克演员和电影制片人集合）相关联：

一张 1974 年电影《Joachim，Put It in the Machine》的截图，用于说明日期确定过程。模型检测照片中的已知个体，使用面部年龄估计器（右列）估计他们的年龄，并从每个人的出生年份中减去该值以生成可能的照片日期的概率分布。图表显示每个年龄估计的可能性，虚线标记每个人的真实年龄。来源

该系统通过检测照片中的已知个体，使用预训练模型估计他们的面部年龄，并从他们的已知出生年份中减去该估计值来生成照片的可能日期。当多个面部存在时，日期估计被聚合以产生最终的预测。

该方法在来自 Czecho-Slovak Movie Database（CSFD）的图像上进行了测试，结果表明，该方法比在同一数据集上训练的基于场景的模型具有更好的准确性。

该方案需要一个包含大量个体的中央数据库，在本例中是一个类似 IMDB 的捷克电影数据库；但任何具有确认的出生日期和中央日期确认事件的类似集合都可以产生类似的结果。

该论文指出：

‘我们独特地提供了多个个体在单个图像中的注释，实现了多面信息聚合的研究。我们提出了一个概率框架，正式地将现代面部识别和年龄估计模型的视觉证据与职业基础的时间先验相结合，以推断照片拍摄年份。 ‘

‘我们的实验表明，聚合多个面部的证据一致地提高了性能，该方法显著优于强大的基于场景的基准，特别是对于包含多个可识别个体的图像。’

该论文题为 通过面部年龄聚合进行照片日期确定，由两位来自捷克技术大学的研究人员撰写，承诺稍后发布代码和数据。

方法

为了估计照片的拍摄日期，作者的新系统检查每个检测到的面部，并尝试猜测它可能是谁，使用前面提到的包含已知个体的数据库。由于一个人只能出现在一张照片中，因此该系统检查所有可能的身份组合，并使用他们的已知出生年份来猜测每个人的年龄。

之后，它反向推导出最可能的年份，使这些年龄相符：

左：系统根据已知个体的职业生涯建立时间线。右：这与面部年龄估计相结合，生成最终的图像拍摄日期猜测。

为了处理可能的身份组合，系统假设面部是独立的，每个面部的外观仅取决于其身份和照片的日期。

为了估计照片的拍摄日期，系统首先使用 NIST 的 cvut-002 模型估计每个检测到的面部的年龄，该模型基于 ViT-B/16 架构，并在一个私有数据集上进行了训练（该数据集在 NIST 的面部分析技术评估（FATE）数据库中排名很高）：

一旦知道了出生年份，模型就将年龄估计转换为可能的照片年份，简单地将年龄添加到出生年份上，得出可能的拍摄年份的概率分布。为了评估检测到的面部与已知身份的匹配程度，系统比较他们在 ArcFace 空间中的嵌入：

ArcFace 是现在流行的 InsightFace 模型的核心贡献架构，于 2015 年推出，注定会成为面部评估和评估领域的一个具有影响力的项目。 来源

每个身份都由一个平均嵌入表示，该嵌入是从其参考肖像中构建的。然后使用 Von Mises Fisher 分布来衡量测试面部与身份之间的相似性，该分布模拟了身份的肖像在平均嵌入周围的聚类情况。一个共享的清晰度参数控制系统对这些聚类的信心，并使用对身份肖像的留一法进行估计。

模型定义了五种先验来估计识别出的个体可能出现在照片中的时间：均匀；十年；电影；图像；以及一个凸组合先验，它混合了最强和最弱的选项，以测试先验的强度（即先验在压力下的鲁棒性）。

为了处理无法自信地识别的面部，模型包括一个回退的“未知”身份，其分布不具备信息，面部的似然度在嵌入空间中是平坦的，时间先验也跨所有年份都是平坦的。这使得不确定的面部可以在不偏向最终日期估计的情况下被忽略：

在开集条件下运行的完整模型的性能，图中同时包含已知和未知面部。平均绝对误差（MAE）随着未知身份的数量增加而增加，但随着已知身份的数量增加而持续改善。每个正方形的大小表示样本数量，揭示了低误差配置也主导了数据集分布。

未知面部对性能的影响。每个正方形显示了不同已知和未知身份数量的平均日期误差，正方形的大小反映了该组合在数据集中的常见程度。误差随着未知身份的增加而增加，但随着已知身份的增加而稳定降低。

数据和测试

作者使用前面提到的 CSFD 数据集来创建一个新的集合，称为 CSFD-1.6M。该数据集是从包含多个人的场景中构建的，每个面部都标有身份和年份。这种结构是必要的，以便教会模型如何在上下文中理解面部之间的关系；单面部数据集（如 IMDB-WIKI）不支持这一点，因为它们只标记每个图像中的一个人物。

电影发行年份从 Czecho-Slovak Movie Database 中获取，用于估计每张照片的拍摄日期，每个图像中的每个人都与一个包含其出生年份和肖像的公共个人资料相匹配。

之后，对于图像中的每个面部，使用 ArcFace 创建面部嵌入，并计算每个身份的平均嵌入。

之后，匈牙利算法被用于通过比较嵌入相似性将面部分配给身份，并在检测到的面部数量与已知个体数量不匹配时进行调整。

CSFD-1.6M 数据集的统计数据，详细说明了抓取的图像、检测到的面部、身份匹配、最终注释样本和可用的身份池。

如果相似性太低或估计的年龄与已知年龄差异太大，则拒绝匹配，允许对老年受试者进行更大的宽容度，面部不会根据质量或大小进行过滤。

作者指出，他们的数据集比最接近的可比数据集 IMDB-WIKI 更好：

‘我们的数据集不仅更大，而且在我们的模型所需的多人场景中也更为关键。虽然没有网页抓取的数据集是完全没有标签噪声的，但我们的注释管道利用了数据库提供的图像和身份配置文件之间的显式链接，旨在实现更高质量的身份分配。’

他们的评估比较了他们的日期系统的几个版本，以了解其收益来自哪里。一个模型假设对图像中的人员有完美的了解，提供了一个性能的上限，通过消除身份识别中的任何不确定性，然后使用完整的模型来估计身份和日期，权衡不同的可能的身份分配，然后得出最终的年份估计。

一个更简单的变体选择了最可能的身份配置，而不考虑其他替代方案，这在实践中被证明几乎同样有效。

相比之下，最基本的基准将每个面部独立分配，并将得到的基于年龄的年份估计值相结合，而不考虑这些身份是否在集合中具有意义。

为了测试该方法从面部中受益多少，训练了一个单独的模型来直接从整个场景中估计日期。该基于场景的模型代表了当前在图像日期估计中使用的最强的替代方法，因为它可以在整个图像中学习特定时代的视觉模式，而不是依赖于身份或年龄。

指标和数据

平均绝对误差（MAE）是实验的中心指标，用于衡量预测年份与已知真实值之间的差异。

数据被分成五个部分，确保所有来自同一部电影的图像都保持在同一个分区中。其中三个部分用于训练，一个用于验证，一个用于测试。这种五折轮换被应用以防止过拟合。

由于面部模型没有在此数据集上进行训练，因此不需要分割，而是直接在整个 CSFD-1.6M 集上进行评估。

该场景模型在Adam优化器下训练了 200 个epoch，图像被调整到 384×384 的裁剪大小。

结果

论文的结果部分被划分为多个性能指标，没有单一的突出结果。然而，我们将呈现最相关的结果。

最重要的结果不是一个单独的数字，而是一个模式：面部聚合模型（特别是完整和顶级-1变体）一致地优于强大的场景基准，当两个或多个已知身份存在时，即使场景模型直接在数据集上进行训练，也支持使用身份链接的面部日期作为更强大的信号的中心断言。

为了评估时间先验的影响，作者比较了他们的完整模型的几个配置。使用十年先验获得了最强的性能，它显著优于天真模型（不使用时间先验）和均匀先验（假设对年份没有偏好）：

性能随着面部数量的增加而明显下降，但使用了现实的时间先验（如十年先验）的模型受到的影响较小。Naive和Scene基准保持平坦或随着更大的群体而恶化，而使用信息先验的完整模型保持低误差。基于测试集统计的先验定义了可实现的性能的下限。

为了展示 CSFD-1.6M 数据集的价值，超出了照片日期确定的范畴，该数据集还被用作更广泛的面部年龄估计任务的预训练资源。按照标准的评估协议，ResNet101模型在 CSFD-1.6M 上进行了预训练，并与在 IMDB-WIKI 和 ImageNet 上预训练的模型进行了比较。这些模型然后在五个流行的基准测试中进行了微调和评估：AgeDB；AFAD，MORPH；UTKFace；以及CLAP2016：