Góc nhìn Anderson
Trí tuệ nhân tạo có thể đoán năm của một bức ảnh từ tuổi của mọi người

Nghiên cứu mới cho thấy trí tuệ nhân tạo có thể sử dụng khuôn mặt của mọi người để ước tính năm một bức ảnh được chụp, kết hợp ước tính tuổi với năm sinh đã biết để vượt qua các phương pháp dựa trên cảnh hiện tại.
Việc đoán ngày của một bức ảnh đã từng dễ dàng hơn so với bây giờ, vì phong cách tóc và thời trang đã từng thay đổi với tốc độ chóng mặt. Vì những lý do được tranh luận nhiều, sự thay đổi phong cách hình ảnh đã kết thúc khoảng ba mươi năm trước, có nghĩa là không còn dễ dàng nhìn vào một kiểu tóc hoặc món đồ thời trang và đoán năm từ loại gợi ý hình ảnh này.
Trong một thời gian, nó cũng có thể ngày các hình ảnh và phim dựa trên độ phân giải màu và đặc điểm hạt của phim. Một người không cần phải là một chuyên gia pháp y; nếu bạn xem đủ nhiều bộ phim cũ, các gợi ý văn hóa (như âm nhạc, xe hơi, thời trang, chủ đề, v.v.) sẽ cuối cùng trở nên liên kết, bởi người xem, với phong cách phim:
![Một hình minh họa về cách các cải tiến trong phim dần dần mở rộng phạm vi tông màu da và phong cách ánh sáng theo thời gian, chuyển từ các thiết lập phẳng, phía trước sang các hình ảnh tự nhiên và đa dạng hơn. [ Nguồn ] https://archive.is/3ZSjN (bài viết của tôi)](https://www.unite.ai/wp-content/uploads/2025/11/grain-styles.jpg)
Một hình minh họa về cách các cải tiến trong phim dần dần mở rộng phạm vi tông màu da và phong cách ánh sáng theo thời gian, chuyển từ các thiết lập phẳng, phía trước sang các hình ảnh tự nhiên và đa dạng hơn. Nguồn (bài viết của tôi)
Một ‘neo’ bổ sung để ngày một bức ảnh là liệu nó có ở dạng đen và trắng – một nền kinh tế đã trở nên lỗi thời sau khi phổ biến nhiếp ảnh kỹ thuật số vào đầu thế kỷ này
Một số hệ thống thương mại và thử nghiệm, như dịch vụ PhotoDater được đóng gói với đăng ký MyHeritage PhotoDater cố gắng ngày các bức ảnh bằng cách sử dụng các tiêu chí này và nhiều tiêu chí khác.
![Một ví dụ về ước tính tuổi của bức ảnh từ dịch vụ PhotoDater chỉ dành cho đăng ký của MyHeritage. Nguồn [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]](https://www.unite.ai/wp-content/uploads/2025/11/photodater.jpg)
Một ví dụ về ước tính tuổi của bức ảnh, từ dịch vụ PhotoDater chỉ dành cho đăng ký của MyHeritage. Nguồn
Vắng mặt các dấu hiệu tiết lộ khác, chẳng hạn như điện thoại thông minh hoặc công nghệ đặc trưng của thời đại, cách tốt nhất để xác định tuổi của một bức ảnh được chụp trong 15-25 năm qua là nếu bạn quen với người trong ảnh (tức là một nhân vật nổi tiếng, hoặc có thể là một người quen), và có thể ước tính tuổi của họ, điều này mang lại một ước tính năm tương đương.
Tuổi khuôn mặt làm tham chiếu
Trong lĩnh vực thị giác máy tính, và trong nhiều lĩnh vực khác (tức là pháp y, xử lý lưu trữ, báo chí, kiến trúc dữ liệu, v.v.) khả năng xác định tuổi của một bức ảnh là một mục tiêu quý giá, vì nhiều bộ sưu tập kỹ thuật số và tương tự thú vị nhất thiếu chú thích và siêu dữ liệu phù hợp, hoặc thậm chí có siêu dữ liệu không chính xác từ các ước tính sai trước đó.
Do đó, nó sẽ rất hữu ích nếu một hệ thống trí tuệ nhân tạo có thể xem xét các bức ảnh theo cách chúng ta làm khi nhìn lại các bộ sưu tập lịch sử của mình, và bình luận ‘Oh yes, đó là khi…’. Câu hỏi là, điều gì có thể là móc, vắng các gợi ý thông thường?
Một bài nghiên cứu mới từ Cộng hòa Séc đang cung cấp một bước chân đầu tiên vào cách tiếp cận này, bằng cách khai thác các hệ thống nhận dạng tuổi dựa trên trí tuệ nhân tạo, cùng với các hệ thống nhận dạng khuôn mặt liên kết với một cơ sở dữ liệu chung về danh tính (trong trường hợp này, một bộ sưu tập phong cách IMDB có tính năng các nghệ sĩ và nhà làm phim Séc):
![Một khung từ Joachim, Put It in the Machine (1974), được sử dụng để minh họa quá trình ngày. Mô hình phát hiện các cá nhân được biết trong ảnh, ước tính tuổi của họ bằng cách sử dụng một ước tính tuổi khuôn mặt (cột bên phải), và trừ giá trị đó khỏi năm sinh của mỗi người để tạo ra một phân bố xác suất trên các ngày chụp ảnh có thể. Các đồ thị cho thấy khả năng của mỗi ước tính tuổi, với các đường đứt nét đánh dấu tuổi thực của người đó vào thời điểm chụp ảnh. [ Nguồn ] https://arxiv.org/pdf/2511.05464](https://www.unite.ai/wp-content/uploads/2025/11/fig-1a-and-1b.jpg)
Một khung từ ‘Joachim, Put It in the Machine’ (1974), được sử dụng để minh họa quá trình ngày. Mô hình phát hiện các cá nhân được biết trong ảnh, ước tính tuổi của họ bằng cách sử dụng một ước tính tuổi khuôn mặt (cột bên phải), và trừ giá trị đó khỏi năm sinh của mỗi người để tạo ra một phân bố xác suất trên các ngày chụp ảnh có thể. Các đồ thị cho thấy khả năng của mỗi ước tính tuổi, với các đường đứt nét đánh dấu tuổi thực của người đó vào thời điểm chụp ảnh. Nguồn
Hệ thống này hoạt động bằng cách phát hiện các cá nhân được biết trong một bức ảnh, ước tính tuổi khuôn mặt của họ bằng cách sử dụng một mô hình được đào tạo trước, và trừ ước tính này khỏi năm sinh đã ghi của họ để tạo ra các ngày chụp ảnh có thể. Khi nhiều khuôn mặt hiện diện, các ước tính ngày được tổng hợp để tạo ra một dự đoán cuối cùng.
Phương pháp này được thử nghiệm trên các hình ảnh được thu thập từ Cơ sở dữ liệu Phim Séc-Slovak (CSFD), với cách tiếp cận kết quả, các tác giả khẳng định, cung cấp độ chính xác nhất quán cao hơn các mô hình dựa trên cảnh (mô hình tĩnh dựa trên các yếu tố nền hoặc ngữ cảnh hình ảnh chứ không phải khuôn mặt) được đào tạo trên cùng một dữ liệu.
Sơ đồ cho phương pháp này yêu cầu một cơ sở dữ liệu trung tâm chứa kiến thức về một nhóm cá nhân rộng lớn, trong trường hợp này là cơ sở dữ liệu phim Séc phong cách IMDB; nhưng bất kỳ bộ sưu tập tương tự nào có tính năng ngày sinh đã xác nhận và các sự kiện ngày xác nhận trung tâm có thể mang lại kết quả tương tự.
Bài báo tuyên bố:
‘Đặc biệt, tập dữ liệu của chúng tôi cung cấp chú thích cho nhiều cá nhân trong một hình ảnh, cho phép nghiên cứu về việc tổng hợp thông tin đa khuôn mặt. Chúng tôi đề xuất một khuôn khổ xác suất kết hợp chính thức bằng chứng trực quan từ các mô hình nhận dạng khuôn mặt hiện đại và mô hình ước tính tuổi, và các yếu tố thời gian dựa trên sự nghiệp để suy luận năm chụp ảnh.
‘Các thí nghiệm của chúng tôi chứng minh rằng việc tổng hợp bằng chứng từ nhiều khuôn mặt nhất quán cải thiện hiệu suất và cách tiếp cận này vượt trội so với các phương pháp dựa trên cảnh mạnh, đặc biệt là đối với hình ảnh chứa nhiều cá nhân có thể xác định được.’
Bài báo mới có tiêu đề Ngày ảnh bằng Tổng hợp Tuổi khuôn mặt, và đến từ hai nhà nghiên cứu tại Đại học Kỹ thuật Séc ở Prague, với lời hứa về một bản phát hành mã/code sau này.
Phương pháp
Để ước tính khi một bức ảnh được chụp, hệ thống mới của các tác giả xem xét mỗi khuôn mặt được phát hiện và cố gắng đoán ai có thể là, bằng cách sử dụng cơ sở dữ liệu đã đề cập của những người được biết.
Kể từ khi một người chỉ có thể xuất hiện một lần trong một bức ảnh, hệ thống kiểm tra tất cả các kết hợp có thể của các danh tính có thể và sử dụng năm sinh đã biết của họ để đoán tuổi của mỗi người.
Sau đó, nó làm việc ngược lại để ước tính năm có khả năng nhất sẽ làm cho những tuổi đó phù hợp:

Trái: hệ thống xây dựng một dòng thời gian cho thấy khi các cá nhân được nhận dạng hoạt động nhất, dựa trên sự nghiệp của họ. Phải: điều này được kết hợp với ước tính tuổi khuôn mặt để tạo ra một ước tính cuối cùng cho khi hình ảnh được chụp.
Để quản lý nhiều kết hợp danh tính có thể, hệ thống giả định rằng các khuôn mặt là độc lập, và rằng sự xuất hiện của mỗi khuôn mặt chỉ phụ thuộc vào danh tính và ngày của bức ảnh.
Để ước tính khi một bức ảnh được chụp, hệ thống đầu tiên đoán tuổi của mỗi khuôn mặt được phát hiện bằng cách sử dụng mô hình cvut-002 của NIST, dựa trên kiến trúc ViT-B/16, và được đào tạo trên một tập dữ liệu riêng (mà, theo các tác giả, xếp hạng cao trong cơ sở dữ liệu FATE của NIST).
Khi năm sinh của một người đã biết, mô hình chuyển đổi ước tính tuổi thành một năm chụp ảnh có khả năng bằng cách đơn giản thêm tuổi vào năm sinh, tạo ra một phân bố xác suất trên các năm chụp ảnh có thể. Để đánh giá mức độ một khuôn mặt được phát hiện phù hợp với một danh tính được biết, hệ thống so sánh đệm của chúng trong không gian ArcFace:
![ArcFace, kiến trúc đóng góp trung tâm cho mô hình InsightFace phổ biến hiện nay, được ra mắt vào năm 2015, với số phận trở thành một dự án có ảnh hưởng trong đánh giá và đánh giá khuôn mặt. [Nguồn ] https://arxiv.org/pdf/1801.07698](https://www.unite.ai/wp-content/uploads/2025/11/arcface.jpg)
ArcFace, kiến trúc đóng góp trung tâm cho mô hình InsightFace phổ biến hiện nay, được ra mắt vào năm 2015, với số phận trở thành một dự án có ảnh hưởng trong đánh giá và đánh giá khuôn mặt. Nguồn
Mỗi danh tính được đại diện bởi một đệm trung bình được xây dựng từ các bức chân dung tham chiếu của nó. Sự tương tự giữa một khuôn mặt thử nghiệm và một danh tính sau đó được đo bằng cách sử dụng một phân bố Von Mises Fisher, mô hình cách các bức chân dung của danh tính đó nhóm lại xung quanh đệm trung bình đó. Một tham số sắc nét được chia sẻ kiểm soát mức độ tự tin mà hệ thống có trong các nhóm này, và được ước tính bằng cách sử dụng một chiến lược loại bỏ một trên các bức chân dung của danh tính.
Mô hình định nghĩa năm loại trước để ước tính khi một người được nhận dạng có thể xuất hiện trong một bức ảnh: đồng nhất; thập kỷ; phim; hình ảnh; và một kết hợp trước kết hợp các lựa chọn mạnh nhất và yếu nhất, để kiểm tra độ nhạy với sức mạnh của trước (tức là khả năng chống chịu của các trước dưới căng thẳng).
Để xử lý các khuôn mặt không thể được xác định một cách chắc chắn, mô hình bao gồm một chức năng ‘không xác định’ với phân bố không thông tin, có khả năng khuôn mặt bằng phẳng trong không gian đệm, và một trước thời gian bằng phẳng trên tất cả các năm. Điều này cho phép các khuôn mặt không chắc chắn bị bỏ qua mà không làm sai lệch ước tính ngày cuối cùng:

Cách hiệu suất bị ảnh hưởng khi một số khuôn mặt trong một hình ảnh không thể được xác định. Mỗi ô vuông cho thấy lỗi ngày trung bình cho các số lượng khác nhau của danh tính được biết và không xác định, với kích thước ô vuông phản ánh mức độ phổ biến của sự kết hợp đó trong tập dữ liệu. Lỗi tăng với nhiều không xác định, nhưng giảm dần khi nhiều danh tính được biết đến được thêm vào.
Dữ liệu và Kiểm tra
Các tác giả đã sử dụng tập dữ liệu CSFD đã đề cập để cung cấp dữ liệu cho một bộ sưu tập mới mà họ gọi là CSFD-1.6M. Tập dữ liệu này được xây dựng từ các cảnh có nhiều người, với mỗi khuôn mặt được gắn nhãn bằng danh tính và năm. Cấu trúc này là cần thiết để dạy mô hình cách khuôn mặt liên quan đến nhau trong ngữ cảnh; các tập dữ liệu đơn khuôn mặt như IMDB-WIKI không hỗ trợ điều này, vì chúng chỉ gắn nhãn một người mỗi hình ảnh.
Năm phát hành phim từ Cơ sở dữ liệu Phim Séc-Slovak được sử dụng để ước tính khi mỗi bức ảnh được chụp, với mỗi người trong hình ảnh được khớp với một hồ sơ công khai có năm sinh của họ, và một bức chân dung.
Sau đó, mỗi khuôn mặt trong hình ảnh được khớp với một trong những danh tính được biết, ban đầu bằng cách sử dụng ArcFace để tạo các đệm khuôn mặt, và tính toán một đệm trung bình cho mỗi danh tính.
Sau đó, thuật toán Hungary được sử dụng để gán khuôn mặt cho danh tính bằng cách so sánh sự tương tự của đệm, với các điều chỉnh được thực hiện khi số lượng khuôn mặt được phát hiện qua khung SCRFD-10GE không khớp với số lượng cá nhân được biết.

Thống kê từ tập dữ liệu CSFD-1.6M, chi tiết hình ảnh được thu thập, khuôn mặt được phát hiện, khớp danh tính, mẫu chú thích cuối cùng và hồ sơ danh tính có sẵn.
Khớp được từ chối nếu sự tương tự quá thấp hoặc nếu tuổi ước tính khác quá nhiều so với tuổi đã biết, với sự khoan dung lớn hơn được phép cho các đối tượng già hơn, và khuôn mặt không được lọc theo chất lượng hoặc kích thước.
Các tác giả lưu ý sự vượt trội của tập dữ liệu được thu thập của họ so với tập dữ liệu tương tự gần nhất, IMDB-WIKI:
‘Tập dữ liệu của chúng tôi không chỉ lớn hơn đáng kể mà, quan trọng là, bao gồm các cảnh nhiều người cần thiết cho mô hình của chúng tôi. Mặc dù không có tập dữ liệu được thu thập từ web nào là miễn phí khỏi tiếng ồn nhãn, quy trình chú thích của chúng tôi tận dụng các liên kết rõ ràng giữa hình ảnh và hồ sơ danh tính được cung cấp bởi cơ sở dữ liệu, nhằm mục đích phân bổ danh tính chất lượng cao hơn.’
Họ đánh giá nhiều phiên bản của hệ thống ngày, để hiểu nơi những lợi ích của nó đến từ đâu. Một mô hình giả định kiến thức hoàn hảo về ai trong hình ảnh, cung cấp một giới hạn trên hiệu suất bằng cách loại bỏ bất kỳ sự không chắc chắn nào trong việc nhận dạng danh tính, với phiên bản đầy đủ của mô hình sau đó ước tính danh tính và ngày cùng nhau, cân nhắc các phân bổ danh tính có thể khác nhau trước khi đến một ước tính năm cuối cùng.
Một biến thể đơn giản hơn chọn cấu hình danh tính có khả năng nhất mà không cần biên độ trên các lựa chọn thay thế, điều này đã chứng minh gần như hiệu quả trong thực tế.
Ngược lại, baseline cơ bản nhất gán mỗi khuôn mặt độc lập và kết hợp các ước tính năm dựa trên tuổi kết quả, mà không xem xét liệu các danh tính tập thể có ý nghĩa hay không.
Để kiểm tra mức độ phương pháp này được hưởng lợi từ việc sử dụng khuôn mặt, một mô hình riêng biệt được đào tạo để ước tính ngày trực tiếp từ toàn cảnh. Mô hình dựa trên cảnh này tạo thành cách tiếp cận thay thế mạnh nhất hiện được sử dụng trong ước tính ngày hình ảnh, vì nó có thể học phong cách hình ảnh đặc trưng của thời đại trên toàn hình ảnh, thay vì dựa vào danh tính hoặc tuổi.
Độ đo và Dữ liệu
Lỗi Trung bình Tuyệt đối (MAE) giữa năm dự đoán và sự thật cơ bản đã biết là độ đo trung tâm cho các thí nghiệm.
Dữ liệu được chia thành năm phần, với sự chăm sóc được thực hiện để đảm bảo rằng tất cả hình ảnh từ cùng một bộ phim được giữ trong một phân vùng. Ba trong số các phần này được sử dụng để đào tạo, một cho xác thực và một cho kiểm tra. Sự quay này được áp dụng năm lần để ngăn chặn quá拟 hợp.
Vì các mô hình dựa trên khuôn mặt không được đào tạo trên tập dữ liệu này, không cần chia, và thay vào đó, chúng được đánh giá trực tiếp trên toàn bộ tập CSFD-1.6M.
Mô hình Cảnh được đào tạo trong 200 kỳ dưới tối ưu hóa Adam, với hình ảnh được thay đổi kích thước thành một crops 384×384.
Kết quả
Phần kết quả của bài báo được chia bất thường trên một số chỉ số hiệu suất, với không có một thử nghiệm trung tâm nào. Tuy nhiên, chúng tôi sẽ trình bày một số kết quả quan trọng nhất ở đây.
Kết quả quan trọng nhất không phải là một con số duy nhất, mà là một mẫu: các mô hình tổng hợp khuôn mặt (đặc biệt là các biến thể Toàn bộ và Top-1) nhất quán vượt trội so với baseline Cảnh mạnh mẽ mỗi khi hai hoặc nhiều danh tính được biết đến có mặt – ngay cả khi mô hình Cảnh được đào tạo trực tiếp trên tập dữ liệu, hỗ trợ tuyên bố trung tâm rằng ngày khuôn mặt liên kết với danh tính cung cấp một tín hiệu mạnh mẽ hơn so với cách giải thích toàn cảnh.
Để đánh giá ảnh hưởng của các yếu tố thời gian, các tác giả so sánh nhiều cấu hình của mô hình Toàn bộ của họ. Hiệu suất mạnh nhất được đạt được bằng cách sử dụng Trước thập kỷ, điều này vượt trội so với cả mô hình Naive (không sử dụng yếu tố thời gian) và Trước đồng nhất (giả định không có sự ưu tiên trên các năm):

Hiệu suất giảm mạnh đối với tất cả các phương pháp khi số lượng khuôn mặt tăng, nhưng các mô hình sử dụng các yếu tố thời gian thực tế như Trước thập kỷ bị ảnh hưởng ít hơn nhiều. Các baseline Naive và Cảnh vẫn phẳng hoặc suy giảm với các nhóm lớn hơn, trong khi mô hình Toàn bộ được hướng dẫn bởi các yếu tố thời gian thông tin duy trì lỗi thấp. Các yếu tố thời gian dựa trên oracle, phụ thuộc vào thống kê tập thử nghiệm, xác định giới hạn dưới về hiệu suất có thể đạt được.
Để chứng minh giá trị của CSFD‑1.6M ngoài ngày ảnh, tập dữ liệu cũng được thử nghiệm như một nguồn tiền đào tạo cho nhiệm vụ rộng hơn của ước tính tuổi khuôn mặt. Theo một giao thức đánh giá tiêu chuẩn, mô hình ResNet101 được đào tạo trước trên CSFD‑1.6M, và so sánh với các mô hình được đào tạo trước trên IMDB‑WIKI và ImageNet. Những mô hình này sau đó được tinh chỉnh và đánh giá trên năm tiêu chuẩn phổ biến: AgeDB; AFAD, MORPH; UTKFace; và CLAP2016:

Lỗi trung bình tuyệt đối (cộng với độ lệch chuẩn) trên năm tiêu chuẩn ước tính tuổi, so sánh các mô hình được đào tạo trước trên ImageNet, IMDB-WIKI và CSFD-1.6M. Giá trị thấp hơn cho thấy hiệu suất tốt hơn. CSFD-1.6M mang lại kết quả mạnh nhất trên tất cả các tiêu chuẩn.
Trên tất cả năm tập dữ liệu, đào tạo trước trên CSFD‑1.6M dẫn đến các tỷ lệ lỗi thấp nhất, vượt trội so với hai nguồn đào tạo trước khác với một khoảng cách rõ ràng – một khoảng cách hiệu suất đã chứng minh mạnh nhất trên AFAD và CLAP2016, nhưng vẫn nhất quán trên toàn bộ.
Kết luận
Mặc dù bài báo mới nhanh chóng trở nên dày đặc và không thể tiếp cận được đối với người đọc thông thường, chủ đề được giải quyết là một trong những chủ đề thú vị và liên quan nhất trong văn học thị giác máy tính – không chỉ vì nó giao thoa khá khéo léo với nhân chủng học và nghiên cứu văn hóa, nơi các hằng số khó được xác định.
* Giống như sự tiến hóa âm nhạc cũng chậm lại tốc độ thay đổi.
Được xuất bản lần đầu vào thứ Hai, ngày 10 tháng 11 năm 2025












