Sudut Anderson

AI Dapat Menebak Tahun Foto Berdasarkan Usia Orang

Published November 10, 2025

Updated April 25, 2026

Martin Anderson

An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Penelitian baru menunjukkan bahwa AI dapat menggunakan wajah orang untuk memperkirakan tahun foto diambil, dengan menggabungkan tebakan usia dengan tahun kelahiran yang diketahui untuk mengalahkan metode berbasis adegan saat ini.

Menebak tanggal foto dulunya lebih mudah daripada sekarang, karena mode rambut dan pakaian berkembang dengan kecepatan tinggi. Untuk alasan yang banyak diperdebatkan, perubahan gaya visual ini berhenti sekitar tiga puluh tahun yang lalu, yang berarti bahwa tidak lagi mudah untuk melihat gaya rambut atau item pakaian dan menebak tahun dari petunjuk visual semacam itu.

Selama beberapa waktu, memungkinkan juga untuk menentukan tanggal gambar dan film berdasarkan resolusi warna dan karakteristik butiran film. Seseorang tidak perlu menjadi spesialis forensik; jika Anda menonton film lama, petunjuk budaya (seperti musik, mobil, mode, topik, dll.) akhirnya akan terkait, oleh pemirsa, dengan gaya film:

Ilustrasi cara perbaikan film stock secara bertahap memperluas rentang warna kulit dan gaya pencahayaan dari waktu ke waktu, bergerak dari setup datar dan frontal ke tampilan yang lebih naturalistik dan bervariasi. Sumber (artikel saya sendiri)

Sebuah ‘jangkar’ tambahan untuk menentukan tanggal foto adalah apakah itu berwarna hitam-putih – sebuah ekonomi yang menjadi tidak berguna setelah popularitas fotografi digital awal abad ini

Beberapa sistem komersial dan eksperimental, seperti MyHeritage PhotoDater berusaha menentukan tanggal foto menggunakan kriteria ini dan lain-lain.

Contoh perkiraan usia foto dari layanan PhotoDater MyHeritage. Sumber

Tanpa tanda-tanda lain, seperti smartphone atau teknologi khas era, cara terbaik untuk mengetahui usia foto yang diambil dalam 15-25 tahun terakhir adalah jika Anda familiar dengan orang tersebut (yaitu, selebriti, atau mungkin kenalan), dan dapat memperkirakan usia mereka, yang menghasilkan perkiraan tahun yang kasar.

Usia Wajah sebagai Referensi

Dalam bidang penglihatan komputer, dan dalam berbagai bidang lain (yaitu, forensik, pengolahan arsip, jurnalistik, arsitektur dataset, dll.) kemampuan untuk menentukan usia foto adalah tujuan yang diinginkan, karena banyak koleksi digital dan analog yang paling menarik kekurangan anotasi dan metadata yang tepat, atau bahkan memiliki metadata yang salah dari tebakan sebelumnya.

Oleh karena itu, akan sangat berguna jika sistem AI dapat meninjau foto dengan cara yang sama seperti kita ketika melihat kembali koleksi historis kita, dan mengatakan ‘Oh ya, itu ketika…’. Pertanyaannya adalah, apa yang bisa menjadi kait, tanpa petunjuk biasa?

Sebuah penelitian baru dari Republik Ceko menawarkan awal dari pendekatan ini, dengan mengeksploitasi sistem pengenalan usia berbasis AI, bersama dengan sistem pengenalan wajah yang terkait dengan database identitas umum (dalam hal ini, koleksi gaya IMDB yang menampilkan penampil dan pembuat film Ceko):

Cuplikan dari ‘Joachim, Put It in the Machine’ (1974), digunakan untuk mengilustrasikan proses penanggalan. Model mendeteksi individu yang dikenal dalam foto, memperkirakan usia mereka menggunakan estimator usia wajah (kolom kanan), dan mengurangi nilai itu dari tahun kelahiran masing-masing orang untuk menghasilkan distribusi probabilitas atas tanggal foto yang mungkin. Grafik menunjukkan kemungkinan setiap perkiraan usia, dengan garis putus-putus menandai usia sebenarnya dari orang tersebut pada saat foto diambil. Sumber

Sistem ini bekerja dengan mendeteksi individu yang dikenal dalam foto, memperkirakan usia wajah mereka menggunakan model pra-dilatih, dan mengurangi perkiraan itu dari tahun kelahiran mereka yang terdokumentasi untuk menghasilkan tanggal yang mungkin untuk foto. Ketika beberapa wajah hadir, perkiraan tanggal diagregat untuk menghasilkan prediksi akhir.

Metode ini diuji pada gambar yang dikurasi dari Basis Data Film Ceko-Slovak (CSFD), dengan pendekatan yang dihasilkan, menurut penulis, menawarkan akurasi yang konsisten lebih baik daripada model berbasis adegan (model statis yang bergantung pada elemen latar belakang atau konteks visual daripada wajah) yang dilatih pada data yang sama.

Skema untuk metode ini memerlukan database pusat yang berisi pengetahuan tentang sekelompok orang, dalam hal ini database film Ceko gaya IMDB; tetapi koleksi serupa yang menampilkan tanggal kelahiran yang dikonfirmasi dan acara tanggal yang dikonfirmasi bisa menghasilkan hasil serupa.

Makalah tersebut menyatakan:

‘Secara unik, dataset kami menyediakan anotasi untuk beberapa individu dalam satu gambar, memungkinkan studi tentang agregasi informasi multi-wajah. Kami mengusulkan kerangka kerja probabilistik yang menggabungkan bukti visual dari model pengenalan wajah modern dan estimasi usia, dan prioritas temporal berbasis karir untuk menginferensi tahun penangkapan foto.

‘Eksperimen kami menunjukkan bahwa mengagregat bukti dari beberapa wajah secara konsisten meningkatkan kinerja dan pendekatan ini secara signifikan mengungguli baseline berbasis adegan yang kuat, terutama untuk gambar yang berisi beberapa individu yang dapat diidentifikasi.’

Makalah baru ini berjudul Penanggalan Foto dengan Agregasi Usia Wajah, dan berasal dari dua peneliti di Czech Technical University di Praha, dengan janji rilis kode/data kemudian.

Metode

Untuk memperkirakan kapan sebuah foto diambil, sistem baru penulis melihat setiap wajah yang terdeteksi dan mencoba menebak siapa itu, menggunakan database yang disebutkan sebelumnya dari orang-orang yang dikenal. Karena seseorang hanya dapat muncul sekali dalam sebuah foto, sistem memeriksa semua kombinasi kemungkinan identitas dan menggunakan tahun kelahiran mereka yang diketahui untuk menebak berapa umur orang tersebut terlihat.

Setelah itu, sistem bekerja mundur untuk memperkirakan tahun yang paling mungkin yang akan membuat usia tersebut sesuai:

Kiri: sistem membangun timeline yang menunjukkan kapan individu yang dikenali paling aktif, berdasarkan karir mereka. Kanan: ini digabungkan dengan perkiraan usia wajah untuk menghasilkan tebakan akhir untuk kapan gambar diambil.

Untuk mengelola banyak kombinasi identitas yang mungkin, sistem menganggap bahwa wajah independen, dan bahwa penampilan setiap wajah hanya bergantung pada identitas dan tanggal foto.

Untuk memperkirakan kapan sebuah foto diambil, sistem pertama-tama menebak usia setiap wajah yang terdeteksi menggunakan model cvut-002, yang berbasis pada arsitektur ViT-B/16, dan dilatih pada dataset pribadi (yang, menurut penulis, menduduki peringkat tinggi dalam database Face Analysis Technology Evaluation (FATE) NIST).

Setelah tahun kelahiran seseorang diketahui, model mengubah perkiraan usia menjadi tahun foto yang mungkin dengan menambahkan usia ke tahun kelahiran, menghasilkan distribusi probabilitas atas tahun penangkapan yang mungkin. Untuk menilai seberapa baik wajah yang terdeteksi cocok dengan identitas yang dikenal, sistem membandingkan embeddings mereka dalam ArcFace space:

ArcFace, arsitektur kontribusi sentral untuk model InsightFace yang populer, diluncurkan pada 2015, ditakdirkan untuk menjadi proyek yang berpengaruh dalam penilaian dan evaluasi wajah. Sumber

Setiap identitas direpresentasikan oleh embedding rata-rata yang dibangun dari potret referensi mereka. Kesamaan antara wajah uji dan identitas kemudian diukur menggunakan Von Mises Fisher Distribution, yang memodelkan seberapa ketat potret referensi dari identitas tersebut mengelompokkan di sekitar embedding rata-rata tersebut. Sebuah parameter tajam bersama mengontrol seberapa yakin sistem dalam klaster tersebut, dan diestimasi menggunakan strategi leave-one-out pada potret identitas.

Model mendefinisikan lima jenis prior untuk memperkirakan kapan seseorang yang dikenali mungkin muncul dalam foto: seragam; dekade; film; gambar; dan gabungan prior konveks yang menggabungkan opsi terkuat dan terlemah, untuk menguji sensitivitas terhadap kekuatan prior (yaitu, ketahanan prior terhadap stres).

Untuk menangani wajah yang tidak dapat diidentifikasi dengan percaya diri, model termasuk identitas ‘tidak diketahui’ dengan distribusi tidak informatif, yang menampilkan kemungkinan wajah yang datar dalam ruang embedding, dan prioritas temporal yang datar di semua tahun. Ini memungkinkan wajah yang tidak pasti untuk diabaikan tanpa mempengaruhi perkiraan tanggal akhir:

Kinerja model penuh dalam kondisi terbuka, di mana wajah yang dikenal dan tidak diketahui muncul dalam gambar yang sama. Mean Absolute Error (MAE) meningkat dengan jumlah identitas yang tidak diketahui, tetapi secara konsisten meningkat ketika lebih banyak identitas yang dikenal tersedia untuk mengaitkan timeline. Ukuran setiap kotak menunjukkan jumlah sampel, menunjukkan bahwa konfigurasi dengan kesalahan rendah juga mendominasi distribusi dataset.

Bagaimana kinerja dipengaruhi ketika beberapa wajah dalam gambar tidak dapat diidentifikasi. Setiap kotak menunjukkan kesalahan rata-rata penanggalan untuk jumlah identitas yang dikenal dan tidak diketahui yang berbeda, dengan ukuran kotak mencerminkan seberapa umum kombinasi tersebut dalam dataset. Kesalahan meningkat dengan lebih banyak identitas yang tidak diketahui, tetapi menurun secara konsisten ketika lebih banyak identitas yang dikenal ditambahkan.

Data dan Tes

Penulis menggunakan dataset CSFD yang disebutkan sebelumnya untuk memasok data untuk koleksi baru yang mereka juduli CSFD-1.6M. Dataset ini dibangun dari adegan yang menampilkan beberapa orang, dengan setiap wajah dilabeli oleh identitas dan tahun. Struktur ini diperlukan untuk mengajarkan model bagaimana wajah terkait satu sama lain dalam konteks; dataset single-face seperti IMDB-WIKI tidak mendukung ini, karena mereka hanya melabeli satu orang per gambar.

Tahun rilis film dari Basis Data Film Ceko-Slovak digunakan untuk memperkirakan kapan foto diambil, dengan setiap orang dalam gambar dicocokkan dengan profil publik yang menampilkan tahun kelahiran mereka, dan potret.

Kemudian, setiap wajah dalam gambar dicocokkan dengan salah satu identitas yang dikenal, awalnya menggunakan ArcFace untuk membuat embeddings wajah, dan menghitung embedding rata-rata untuk setiap identitas.

Setelah itu, algoritma Hungaria digunakan untuk mengassign wajah ke identitas dengan membandingkan kesamaan embedding, dengan penyesuaian dilakukan ketika jumlah wajah yang terdeteksi melalui kerangka SCRFD-10GE tidak sesuai dengan jumlah individu yang dikenal.

Statistik dari dataset CSFD-1.6M, merinci gambar yang dikurasi, wajah yang terdeteksi, kecocokan identitas, sampel yang diannotasi akhir, dan kumpulan identitas yang tersedia.

Kecocokan ditolak jika kesamaan terlalu rendah atau jika usia yang diperkirakan berbeda terlalu besar dari usia yang diketahui, dengan toleransi yang lebih besar diizinkan untuk subjek yang lebih tua, dan wajah tidak disaring berdasarkan kualitas atau ukuran.

Penulis mencatat superioritas dataset yang dikurasi mereka dibandingkan dengan dataset terdekat yang setara, IMDB-WIKI:

‘Dataset kami tidak hanya secara substansial lebih besar tetapi, secara kritis, terdiri dari adegan multi-orang yang diperlukan oleh model kami. Sementara tidak ada dataset yang dikurasi dari web yang bebas dari kebisingan label, pipa anotasi kami memanfaatkan tautan eksplisit antara gambar dan profil identitas yang disediakan oleh database, dengan tujuan untuk mendapatkan penugasan identitas yang lebih berkualitas.’

Mereka mengevaluasi beberapa versi sistem penanggalan, untuk memahami dari mana keuntungan mereka berasal. Salah satu model menganggap pengetahuan yang sempurna tentang siapa yang ada dalam gambar, memberikan batas atas kinerja dengan menghilangkan ketidakpastian dalam pengenalan identitas, dengan versi penuh model kemudian memperkirakan identitas dan tanggal secara bersamaan, menimbang berbagai kemungkinan konfigurasi identitas sebelum tiba pada perkiraan tahun akhir.

Sebuah varian yang lebih sederhana memilih konfigurasi identitas yang paling mungkin tanpa memarginalkan alternatif, yang terbukti hampir sama efektif dalam prakteknya.

Sebaliknya, baseline yang paling dasar menugaskan setiap wajah secara independen dan menggabungkan perkiraan tahun yang dihasilkan berdasarkan usia, tanpa mempertimbangkan apakah identitas secara kolektif masuk akal.

Untuk menguji seberapa banyak metode ini mendapat manfaat dari menggunakan wajah, model terpisah dilatih untuk memperkirakan tanggal langsung dari seluruh adegan. Model berbasis adegan ini merupakan pendekatan alternatif terkuat yang saat ini digunakan dalam estimasi tanggal gambar, karena dapat mempelajari pola visual khas era di seluruh gambar, bukan bergantung pada identitas atau usia.

Metrik dan Data

Mean Absolute Error (MAE) antara tahun yang diprediksi dan kebenaran yang diketahui adalah metrik sentral untuk eksperimen.

Data dibagi menjadi lima bagian, dengan perhatian untuk memastikan bahwa semua gambar dari film yang sama tetap dalam satu partisi. Tiga bagian ini digunakan untuk pelatihan, satu untuk validasi, dan satu untuk pengujian. Rotasi lima kali ini diterapkan untuk mencegah overfitting.

Karena model berbasis wajah tidak dilatih pada dataset ini, tidak ada pembagian yang diperlukan, dan sebagai gantinya, mereka dievaluasi langsung pada dataset CSFD-1.6M penuh.

Model Adegan dilatih selama 200 epoch di bawah Adam optimizer, dengan gambar diresize ke ukuran 384×384 crop.

Hasil

Bagian hasil makalah ini dibagi secara tidak biasa di beberapa indikator kinerja, tanpa ada satu tes sentral yang menonjol. Namun, kami akan menyajikan beberapa hasil yang paling relevan di sini.

Hasil yang paling penting bukanlah satu angka, tetapi pola: model agregasi wajah (terutama varian Penuh dan Top-1) secara konsisten mengungguli baseline Adegan yang kuat kapan pun dua atau lebih identitas yang dikenal hadir – bahkan jika model Adegan dilatih langsung pada dataset, mendukung klaim sentral bahwa penanggalan wajah yang terkait dengan identitas menyediakan sinyal yang lebih kuat daripada interpretasi adegan holistik.

Untuk mengevaluasi efek prioritas temporal, penulis membandingkan beberapa konfigurasi model Penuh mereka. Kinerja terkuat diperoleh menggunakan Prior Dekade, yang secara signifikan mengungguli model Naif (yang tidak menggunakan prioritas temporal) dan Prior Seragam (yang menganggap tidak ada preferensi atas tahun):

Kinerja menurun tajam untuk semua metode ketika jumlah wajah meningkat, tetapi model yang menggunakan prioritas temporal yang realistis seperti Prior Dekade dipengaruhi jauh lebih sedikit. Baseline Naif dan Adegan tetap datar atau memburuk dengan grup yang lebih besar, sementara model Penuh yang dipandu oleh prioritas informatif mempertahankan kesalahan rendah. Prioritas orakel, yang bergantung pada statistik set uji, mendefinisikan batas bawah pada kinerja yang dapat dicapai.

Untuk menunjukkan nilai dataset CSFD-1.6M di luar penanggalan foto, dataset ini juga diuji sebagai sumber pra-pelatihan untuk tugas yang lebih luas dari estimasi usia wajah. Mengikuti protokol evaluasi standar, ResNet101 model dilatih sebelumnya pada CSFD-1.6M, dan dibandingkan dengan model yang dilatih sebelumnya pada IMDB-WIKI dan ImageNet. Model-model ini kemudian difine-tuning dan dievaluasi di lima benchmark populer: AgeDB; AFAD, MORPH; UTKFace; dan CLAP2016:

Mean absolute error (plus minus standar deviasi) pada lima benchmark estimasi usia, membandingkan model yang dilatih sebelumnya pada ImageNet, IMDB-WIKI, dan CSFD-1.6M. Nilai yang lebih rendah menunjukkan kinerja yang lebih baik. CSFD-1.6M menghasilkan hasil terkuat di semua benchmark.

Di semua lima dataset, pra-pelatihan pada CSFD-1.6M menghasilkan tingkat kesalahan terendah, mengungguli sumber pra-pelatihan lainnya dengan margin yang jelas – celah kinerja yang terbukti terkuat pada AFAD dan CLAP2016, tetapi tetap konsisten di semua benchmark.

Kami merujuk pembaca ke bagian sisa dari bagian hasil yang agak terfragmentasi dalam makalah sumber, yang juga membahas secara luas studi ablasion.

Kesimpulan

Meskipun makalah baru ini dengan cepat menjadi padat dan tidak dapat diakses oleh pembaca biasa, topik yang dibahas adalah salah satu yang paling menarik dan relevan dalam literatur penglihatan komputer – tidak hanya karena ini melintasi bidang antropologi dan studi budaya, di mana konstanta sulit untuk dipahami.

* Hal yang sama berlaku untuk evolusi musik yang juga melambatkan laju perubahan.

Dipublikasikan pertama kali pada hari Senin, 10 November 2025