安德森的角度

人工智能可以根据人物年龄猜测照片拍摄年份

发布时间 2025 年 11 月 10 日

马丁安德森

一张来自论文《通过面部年龄聚合进行照片年代测定》的图片，叠加在一张桌面图片上，桌面上放着一张1974年的日历。来源：eBay和论文+Firefly V3。

最新研究表明，人工智能可以利用人脸来估计照片的拍摄年份，将年龄猜测与已知的出生年份相结合，从而超越目前基于场景的方法。

过去猜测照片的拍摄日期比现在容易得多，因为当时的发型和服装时尚潮流会不断演变。以极快的速度由于种种争议，这种视觉风格的剧烈变化大约三十年前结束这意味着，现在要通过观察发型或服装来猜测年份已经不再那么容易了。

在一段时间内，人们还可以根据色彩分辨率来判断图像和电影的拍摄日期。谷物特性胶片。你不必是法医专家；如果你看了足够多的老电影，观众最终会将文化线索（例如音乐、汽车、时尚、话题等）与……联系起来。胶片风格:

图示说明了随着胶片技术的进步，肤色和光线风格的呈现范围如何逐渐扩大，从扁平的正面拍摄逐渐演变为更加自然多样的视觉效果。[来源] https://archive.is/3ZSjN（我的文章）

图示说明了随着胶片技术的进步，肤色和光照风格的范围如何随着时间的推移而逐渐扩大，从扁平的正面设置转变为更自然、更多样化的外观。 来源（我的文章）

判断照片年代的另一个“依据”是照片是否为黑白照片——但随着本世纪初数码摄影的普及，这种方法已不再适用。

一些商业和实验性系统，例如 MyHeritage 订阅捆绑系统照片约会者尝试使用这些以及其他各种标准来判断照片的拍摄日期。

这是 MyHeritage PhotoDater 付费订阅服务提供的照片估价示例。来源：[https://www.youtube.com/watch?v=2oVyLI6tBcY]

这是 MyHeritage PhotoDater 付费订阅服务提供的照片年代估算示例。 来源

如果没有其他明显的迹象，例如智能手机或其他特定时代的技术，判断一张拍摄于过去15-25年内的照片的年代，最好的方法是如果你认识照片中的人物（例如名人，或者熟人），并能估算出他们的年龄。年龄由此可得出大致的等效年份。

面部年龄作为参考

在计算机视觉领域以及其他各种领域（例如法医、档案处理、新闻、数据集架构等），确定照片的年代是一个重要的目标，因为许多最有趣的数字和模拟收藏缺乏适当的注释和元数据，甚至由于先前（错误的）猜测而具有不正确的元数据。

因此，如果人工智能系统能够像我们回顾历史收藏一样审阅照片并进行评论，那将非常有用。 “哦，对，就是那时候……”问题是，在缺乏通常必要的线索的情况下，什么会是吸引人的亮点？

捷克共和国的一篇新研究论文利用人工智能技术，为这种方法提供了初步的立足点。 年龄识别 系统与面部与公共身份数据库相连的识别系统（在本例中，是一个类似 IMDB 的数据库，收录了捷克演员和电影制作人的信息）：

这张剧照出自电影《约阿希姆，把它放进机器里》（1974），用于说明年代测定过程。该模型首先识别照片中的已知人物，然后使用面部年龄估算器（右列）估算他们的年龄，最后从每个人的出生年份中减去该值，从而生成照片拍摄日期的概率分布。图表显示了每个年龄估算值的概率，虚线则标出了照片拍摄时人物的真实年龄。[来源] https://arxiv.org/pdf/2511.05464

这是电影《约阿希姆，把它放进机器里》（1974）中的一个剧照，用于说明年代测定过程。该模型会识别照片中的已知人物，使用面部年龄估算器（右列）估算他们的年龄，然后用每个人的出生年份减去该值，从而生成照片拍摄日期的概率分布。图表显示了每个年龄估算值的概率，虚线标记了照片拍摄时人物的真实年龄。来源

该系统的工作原理是：首先检测照片中的已知人物，然后使用预训练模型估算其面部年龄，再用其已知的出生年份减去估算值，从而得出照片的可能拍摄日期。如果照片中有多张人脸，则将估算结果汇总，得出最终的预测结果。

该方法已在从捷克斯洛伐克电影数据库中收集的图像上进行了测试（CSFD作者断言，由此产生的方法比在相同数据上训练的基于场景的模型（依赖于背景元素或视觉上下文而不是人脸的静态模型）具有更高的准确度。

该方法的架构需要一个包含大量个人信息的中央数据库，在本例中是类似 IMDB 的捷克电影数据库；但任何具有已确认出生日期和中央日期确认事件特征的类似集合都可能产生类似的结果。

该文件指出：

我们的数据集独具特色，它提供了单张图像中多个个体的标注，从而能够研究多张人脸信息的聚合。我们提出了一种概率框架，该框架正式结合了来自现代人脸识别和年龄估计模型的视觉证据以及基于职业生涯的时间先验信息，以推断照片的拍摄年份。

“我们的实验表明，聚合来自多张人脸的证据能够持续提高性能，并且该方法明显优于强大的基于场景的基线方法，尤其是在包含多个可识别个体的图像中。”

此新文标题为 通过面部年龄聚合进行照片约会该代码/数据来自布拉格捷克理工大学的两名研究人员，并承诺稍后发布。

付款方式

为了估算照片的拍摄时间，作者的新系统会分析检测到的每张人脸，并尝试利用前述的已知人物数据库来猜测照片中的人是谁。由于一个人在照片中只能出现一次，系统会检查所有可能的身份组合，并利用已知的出生年份来推测每个人的年龄。

之后，它会反向推算，找出最有可能使这些年龄吻合的年份：

左图：系统根据已知人物的职业生涯，构建一个时间线，显示他们最活跃的时期。右图：结合面部年龄估算，最终确定图像的拍摄时间。

为了管理众多可能的身份组合，该系统假设人脸是独立的，每个人脸的外观仅取决于其身份和照片的拍摄日期。

为了估算照片的拍摄时间，系统首先使用 NIST 数据库猜测每张检测到的人脸的年龄。 cvut-002 型号，它基于 ViT-B/16架构，并使用私有数据集进行训练（作者称，该数据集在 NIST 的人脸分析技术评估 (FATE) 中排名很高）。数据库).

一旦知道了某人的出生年份，该模型就会将年龄估计值转换为可能的年龄。照片只需将年龄加到出生年份，即可得到可能的捕获年份的概率分布。为了评估检测到的人脸与已知身份的匹配程度，系统会比较它们的匹配情况。嵌入 in ArcFace 空间:

ArcFace是目前广受欢迎的InsightFace模型的核心架构，于2015年发布，旨在成为面部评估领域的重要项目。[来源] https://arxiv.org/pdf/1801.07698

ArcFace 是目前流行的 InsightFace 模型的核心贡献架构，于 2015 年推出，注定成为面部评估和评价领域的重要项目。 来源

每个身份都由其参考肖像构建的平均嵌入表示。然后使用一种方法来衡量测试人脸与身份之间的相似度。冯·米塞斯-费舍尔分布该模型模拟了身份图像围绕该平均值聚集的紧密程度。一个共享的清晰度参数控制系统对这些聚集的置信度，并使用以下方法进行估计：留一法策略关于身份肖像。

该模型定义了五种类型先验估计照片中可能出现熟人的时机：制服; 十; 电影; 图片; 和a 凸组合先验 它将最强和最弱的选择混合在一起，以测试对先前强度的敏感性（即，先验在压力下的恢复能力）。

为了处理无法准确识别的人脸，该模型包含一个备用的“未知”身份，其分布信息量极少，人脸似然度在嵌入空间中是平坦的，时间先验分布在所有年份中也是平坦的。这样就可以忽略不确定的人脸，而不会影响最终的日期估计：

在开放集条件下（即同一图像中同时出现已知和未知面孔），完整模型的性能表现如下：平均绝对误差 (MAE) 随着未知身份数量的增加而增大，但随着更多已知身份可用于锚定时间线而持续改善。每个方格的大小表示样本数量，表明低误差配置在数据集分布中也占据主导地位。

当图像中部分人脸无法识别时，性能会受到怎样的影响？每个方格显示了不同数量已知和未知身份的人脸的平均年代测定误差，方格大小反映了该组合在数据集中的出现频率。误差随着未知身份数量的增加而增大，但随着已知身份数量的增加而稳步下降。

数据与测试

作者利用上述CSFD数据集为他们命名为“ CSFD-1.6M该数据集由包含多个人物的场景构建而成，每张人脸都标注了身份和年份。这种结构对于教会模型人脸在上下文中相互关联至关重要；而像IMDB-WIKI这样的单人脸数据集则无法做到这一点，因为它们每张图像只标注一个人。

根据捷克斯洛伐克电影数据库中的电影上映年份，估算出每张照片的拍摄时间，并将照片中的每个人都与包含其出生年份和肖像的公开个人资料进行匹配。

随后，将图像中的每张脸与一个已知的身份进行匹配，首先使用 ArcFace 创建人脸嵌入，然后计算每个身份的平均嵌入。

此后匈牙利算法通过比较嵌入相似性将人脸分配给身份，并在检测到的人脸数量增加时进行调整。 SCRFD-10GE 框架与已知个体数量不符。

来自 CSFD-1.6M 数据集的统计数据，详细说明了抓取的图像、检测到的人脸、身份匹配、最终标注的样本以及可用的身份库。

如果相似度太低或估计年龄与已知年龄相差太大，则拒绝匹配；对于年龄较大的受试者，允许的容忍度更大；并且不按质量或大小筛选人脸。

作者指出，他们精心整理的数据集优于最接近的可比数据集 IMDB-WIKI：

“我们的数据集不仅规模更大，而且至关重要的是，它包含了我们模型所需的多人场景。虽然任何从网络抓取的数据集都无法完全消除标签噪声，但我们的标注流程利用了数据库提供的图像与身份信息之间的明确关联，旨在实现更高质量的身份分配。”

他们的评估对比了几个版本的约会系统，以了解其优势所在。其中一个模型假设完全了解图像中人物的身份，通过消除身份识别中的任何不确定性来设定性能上限；而完整版的模型则同时估计身份和日期，权衡不同的身份分配，最终得出年份估计值。

一种更简单的变体选择最有可能的身份配置，而不忽略其他替代方案，这在实践中被证明几乎同样有效。

相比之下，最基本的基线方法是独立地为每张脸分配身份，并将由此产生的基于年龄的年份估计值结合起来，而不考虑这些身份组合起来是否合理。

为了测试该方法使用人脸信息究竟能带来多大的提升，我们训练了一个单独的模型来直接估计日期。 从整个场景来看这种基于场景的模型是目前图像日期估计中最强大的替代方法，因为它能够学习 特定时代 关注的是整个图像中的视觉模式，而不是依赖于身份或年龄。

指标和数据

平均绝对误差（MAE预测年份与已知真实年份之间的差异是实验的核心指标。

数据是分将图像分成五个部分，并注意确保同一部电影的所有图像都位于同一个分区内。其中三个部分用于训练，一个用于验证，一个用于测试。这种五重分割是为了防止…… 过度拟合.

由于基于人脸的模型没有在此数据集上进行训练，因此无需进行分割，而是直接在完整的 CSFD-1.6M 数据集上进行评估。

此现场模型训练了 200 次时代在下面 Adam 优化器将图像调整为 384×384 尺寸作物.

功能验证

本文的结果部分采用了较为特殊的划分方式，涵盖多个绩效指标，没有单一的突出或核心测试。不过，我们将在此列出一些最相关的结果。

最重要的结果并非单一的数字，而是一种模式：面部聚合模型（尤其是全以及顶1 变体）始终优于强变体现场当存在两个或多个已知身份时，即使现场该模型直接在数据集上进行训练，支持了核心论点，即与身份相关的面部约会比整体场景解释提供了更可靠的信号。

为了评估时间先验的影响，作者比较了他们的几种配置。全模型。使用以下模型获得了最佳性能：十此前，其表现显著优于两者。幼稚模型（不使用时间先验）和校服先前（假设对年份没有偏好）：

随着人脸数量的增加，所有方法的性能都急剧下降，但使用诸如十年先验等更贴近实际时间分布的模型受到的影响要小得多。朴素模型和场景模型在样本量较大时性能保持不变或下降，而由信息丰富的先验指导的完整模型则保持了较低的误差。基于测试集统计数据的预言机先验定义了可达到性能的下限。

为了展示 CSFD-1.6M 数据集在照片年代鉴定之外的价值，我们还将其作为面部年龄估计这一更广泛任务的预训练资源进行了测试。测试遵循标准的评估流程，残差网络101 模型在 CSFD-1.6M 数据集上进行预训练，并与在 IMDB-WIKI 和 ImageNet 数据集上预训练的模型进行比较。然后对这些模型进行微调，并在五个常用的基准数据集上进行评估：年龄数据库; AFAD, MORPH; UTKFace;和拍手2016: