Connect with us

Inteligența artificială poate ghici anul unei fotografii din vârsta oamenilor

Unghiul lui Anderson

Inteligența artificială poate ghici anul unei fotografii din vârsta oamenilor

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Noi cercetări arată că inteligența artificială poate utiliza fețele oamenilor pentru a estima anul în care a fost făcută o fotografie, combinând ipotezele de vârstă cu anii de naștere cunoscuți pentru a depăși metodele actuale bazate pe scene.

 

Ghicirea datei unei fotografii era mai ușoară în trecut, deoarece moda și coafurile evoluau la o viteză fără precedent. Din cauze dezbătute, acest ritm al stilului vizual s-a încheiat cu aproximativ treizeci de ani în urmă, făcând dificilă ghicirea anului unei fotografii doar prin intermediul unor indicii vizuale.

Pentru o perioadă, a fost posibil să se dateze imagini și filme pe baza rezoluției culorilor și caracteristicilor granulației filmului. Nu era nevoie să fii un specialist în criminalistică; dacă ai urmărit suficiente filme vechi, indiciile culturale (cum ar fi muzica, mașinile, moda, subiectele etc.) ar fi fost asociate, de către spectator, cu stilurile filmului:

O ilustrare a modului în care îmbunătățirile filmului au extins gradual gama de nuanțe de piele și stiluri de iluminare de-a lungul timpului, trecând de la setări frontale plate la aspecte mai naturaliste și variate. [ Sursă ] https://archive.is/3ZSjN (articolul meu)

O ilustrare a modului în care îmbunătățirile filmului au extins gradual gama de nuanțe de piele și stiluri de iluminare de-a lungul timpului, trecând de la setări frontale plate la aspecte mai naturaliste și variate. Sursă (articolul meu)

Un alt “ancoră” pentru datarea unei fotografii a fost dacă era în alb-negru – o economie care a devenit redundantă după popularizarea fotografiei digitale la începutul acestui secol

O serie de sisteme comerciale și experimentale, cum ar fi PhotoDater, oferit de MyHeritage, încearcă să dateze fotografii utilizând aceste și alte criterii diverse.

O fotografie de exemplu din serviciul PhotoDater de la MyHeritage. Sursă [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]

O fotografie de exemplu din serviciul PhotoDater de la MyHeritage. Sursă

Lipsa altor indicii evidente, cum ar fi smartphone-uri sau tehnologie specifică unei epoci, cel mai bun mod de a determina vârsta unei fotografii făcute în ultimii 15-25 de ani este dacă sunteți familiarizați cu persoana (de exemplu, o celebritate sau poate un cunoscut) și puteți estima vârsta acesteia, ceea ce oferă o estimare aproximativă a anului.

Vârsta facială ca referință

În domeniul viziunii computaționale și în diverse alte domenii (de exemplu, criminalistică, prelucrare arhivistică, jurnalism, arhitectură de set de date etc.), capacitatea de a determina vârsta unei fotografii este un obiectiv prețuit, deoarece multe dintre cele mai interesante colecții digitale și analogice lipsesc de anotări și metadate adecvate sau au metadate incorecte din cauza unor ipoteze anterioare greșite.

Prin urmare, ar fi util dacă un sistem de inteligență artificial ar putea examina fotografii în același mod în care o facem atunci când privim înapoi peste colecțiile noastre istorice și spunem ‘Oh, da, a fost atunci…’. Întrebarea este, ce ar putea fi “ancoră” în absența obișnuitei ipoteze?

O nouă lucrare de cercetare din Republica Cehă oferă o poziție inițială în această abordare, prin exploatarea sistemelor de recunoaștere a vârstei bazate pe inteligență artificială, în concert cu sisteme de recunoaștere facială legate de o bază de date comună de identități (în acest caz, o colecție de tip IMDB, cu artiști și regizori cehi):

O fotografie din filmul 'Joachim, pune în mașină' (1974), utilizată pentru a ilustra procesul de datare. Modelul detectează indivizi cunoscuți în imagine, estimează vârsta lor utilizând un estimator de vârstă facială (coloana din dreapta), și scade această valoare din anul de naștere al fiecăruia pentru a genera o distribuție de probabilitate asupra anilor posibili de fotografiere. Graficele arată probabilitatea fiecărei estimații de vârstă, cu linii punctate care marchează vârsta reală a persoanei la momentul fotografierii.

O fotografie din filmul ‘Joachim, pune în mașină’ (1974), utilizată pentru a ilustra procesul de datare. Modelul detectează indivizi cunoscuți în imagine, estimează vârsta lor utilizând un estimator de vârstă facială (coloana din dreapta), și scade această valoare din anul de naștere al fiecăruia pentru a genera o distribuție de probabilitate asupra anilor posibili de fotografiere. Graficele arată probabilitatea fiecărei estimații de vârstă, cu linii punctate care marchează vârsta reală a persoanei la momentul fotografierii. Sursă

Sistemul funcționează prin detectarea indivizilor cunoscuți într-o fotografie, estimarea vârstei lor faciale utilizând un model preantrenat, și scăderea acestei estimații din anul de naștere documentat pentru a genera o distribuție de probabilitate asupra anilor posibili de fotografiere. Atunci când sunt prezente mai multe fețe, estimațiile de dată sunt agregate pentru a produce o predicție finală.

Metoda a fost testată pe imagini extrase din baza de date a filmelor cehoslovace (CSFD), iar abordarea rezultată, susțin autorii, oferă o acuratețe consistent mai bună decât modelele bazate pe scene (modele statice care se bazează pe elemente de fundal sau context vizual, și nu pe fețe) antrenate pe aceleași date.

Schemă pentru această metodă necesită o bază de date centrală care conține cunoștințe despre un grup larg de indivizi, în acest caz baza de date de film cehă de tip IMDB; dar orice colecție similară care prezintă date de naștere confirmate și evenimente centrale cu date confirmate ar putea oferi un rezultat similar.

Articolul afirmă:

‘În mod unic, setul nostru de date oferă anotări pentru mai mulți indivizi într-o singură imagine, permițând studiul agregării informațiilor de la mai multe fețe. Propunem un cadru probabilistic care combină în mod formal dovezi vizuale de la modele moderne de recunoaștere facială și estimare a vârstei, și priori temporali bazate pe carieră pentru a infera anul de captură a fotografiei.

‘Experimentele noastre demonstrează că agregarea informațiilor de la mai multe fețe îmbunătățește în mod constant performanța, iar abordarea noastră depășește în mod semnificativ liniile de bază puternice bazate pe scene, în special pentru imagini care conțin mai multe indivizi identificabili.’

Noua lucrare de cercetare, intitulată Daterea fotografiei prin agregarea vârstei faciale, vine de la doi cercetători de la Universitatea Tehnică din Praga, cu promisiunea unei lansări ulterioare a codului și datelor.

Metodă

Pentru a estima când a fost făcută o fotografie, noul sistem al autorilor examinează fiecare față detectată și încearcă să ghicească cine ar putea fi, utilizând baza de date menționată anterior de indivizi cunoscuți. Deoarece o persoană poate apărea doar o dată într-o fotografie, sistemul verifică toate combinațiile posibile de identități și utilizează anii de naștere cunoscuți pentru a ghici cât de bătrân arăta fiecare persoană.

După aceea, sistemul lucrează înapoi pentru a estima anul cel mai probabil care ar face ca aceste vârste să corespundă:

Stânga: sistemul construiește o cronologie care arată când indivizii recunoscuți au fost cei mai activi, pe baza carierelor lor cunoscute. Dreapta: această cronologie este combinată cu estimațiile de vârstă facială pentru a produce o ghicire finală pentru momentul în care a fost făcută imaginea.

Stânga: sistemul construiește o cronologie care arată când indivizii recunoscuți au fost cei mai activi, pe baza carierelor lor cunoscute. Dreapta: această cronologie este combinată cu estimațiile de vârstă facială pentru a produce o ghicire finală pentru momentul în care a fost făcută imaginea.

Pentru a gestiona multele posibile combinații de identități, sistemul presupune că fețele sunt independente și că aspectul fiecăreia depinde doar de identitatea și data fotografiei.

Pentru a estima când a fost făcută o fotografie, sistemul ghicește mai întâi vârsta fiecărei fețe detectate utilizând modelul cvut-002 de la NIST, care se bazează pe o arhitectură ViT-B/16, și a fost antrenat pe un set de date privat (pe care autorii îl descriu ca fiind clasat înalt în baza de date FATE a NIST).

Odată ce anul de naștere al persoanei este cunoscut, modelul convertește estimația de vârstă într-un an de fotografiere probabil, pur și simplu adăugând vârsta la anul de naștere, ceea ce oferă o distribuție de probabilitate asupra anilor posibili de captură. Pentru a evalua cât de bine o față detectată se potrivește cu o identitate cunoscută, sistemul compară încastrările lor în spațiul ArcFace:

ArcFace, arhitectura centrală care a contribuit la modelul InsightFace popular astăzi, a fost lansată în 2015, destinată să devină un proiect influent în evaluarea și analiza facială. [ Sursă ] https://arxiv.org/pdf/1801.07698

ArcFace, arhitectura centrală care a contribuit la modelul InsightFace popular astăzi, a fost lansată în 2015, destinată să devină un proiect influent în evaluarea și analiza facială. Sursă

Fiecare identitate este reprezentată de o încastrare medie construită din portretele sale de referință. Similaritatea dintre o față de test și o identitate este apoi măsurată utilizând o distribuție Von Mises Fisher, care modelează cât de strâns portretele identității sunt grupate în jurul acestei încastrări medii. Un parametru de ascuțime comun controlează cât de încrezător este sistemul în aceste grupări, și este estimat utilizând o strategie de eliminare a unei instanțe pe portretele identității.

Modelul definește cinci tipuri de priori pentru a estima când ar putea apărea o persoană recunoscută într-o fotografie: uniform; deceniu; film; imagine; și un prior convex combinat care combină opțiunile cele mai puternice și mai slabe, pentru a testa sensibilitatea la puterea priorului (adică, reziliența priorilor la stres).

Pentru a gestiona fețele care nu pot fi identificate cu încredere, modelul include o identitate “necunoscută” de rezervă, cu distribuții neinformative, care are o probabilitate facială plată în spațiul de încastrare și un prior temporal plat pe toți anii. Acest lucru permite fețelor incerte să fie ignorate fără a introduce bias în estimația finală a datei:

Performanța modelului complet în condiții deschise, unde atât fețele cunoscute, cât și cele necunoscute apar în aceeași imagine. Eroarea medie absolută (MAE) crește cu numărul de identități necunoscute, dar se îmbunătățește constant pe măsură ce mai multe identități cunoscute sunt disponibile pentru a ancora cronologia. Fiecare pătrat indică numărul de exemple, arătând că configurațiile cu erori scăzute domină distribuția setului de date.

Cum este afectată performanța atunci când unele fețe dintr-o imagine nu pot fi identificate. Fiecare pătrat arată eroarea medie de datare pentru diferite numere de identități cunoscute și necunoscute, cu dimensiunea pătratului reflectând cât de comună este acea combinație în setul de date. Eroarea crește cu mai multe fețe necunoscute, dar scade constant pe măsură ce mai multe identități cunoscute sunt adăugate.

Date și teste

Autorii au utilizat setul de date menționat anterior, CSFD, pentru a crea o nouă colecție pe care au numit-o CSFD-1.6M. Setul de date a fost construit din scene cu mai multe persoane, cu fiecare față etichetată cu identitatea și anul. Această structură a fost necesară pentru a învăța modelul cum fețele se relaționează între ele în context; seturile de date cu o singură față, cum ar fi IMDB-WIKI, nu susțin acest lucru, deoarece etichetează doar o persoană per imagine.

Anii de lansare a filmelor din baza de date cehoslovacă a filmelor au fost utilizați pentru a estima când a fost făcută o fotografie, cu fiecare persoană din imagine asociată cu un profil public care conține anul de naștere și un portret.

Ulterior, fiecare față din imagine a fost asociată cu una dintre identitățile cunoscute, inițial utilizând ArcFace pentru a crea încastrări faciale și calculând o încastrare medie pentru fiecare identitate.

După aceea, algoritmul ungar a fost utilizat pentru a asigna fețe identităților prin compararea similarității încastrărilor, cu ajustări făcute atunci când numărul de fețe detectate prin cadru SCRFD-10GE nu se potrivea cu numărul de indivizi cunoscuți.

Statistici din setul de date CSFD-1.6M, detaliate imagini extrase, fețe detectate, asocieri de identitate, mostre finale anotate și grupul disponibil de identități.

Statistici din setul de date CSFD-1.6M, detaliate imagini extrase, fețe detectate, asocieri de identitate, mostre finale anotate și grupul disponibil de identități.

Asocierile au fost respinse dacă similaritatea a fost prea scăzută sau dacă estimația de vârstă diferă prea mult de vârsta cunoscută, cu o toleranță mai mare permisă pentru subiecții mai în vârstă, și fețele nu au fost filtrate după calitate sau dimensiune.

Autorii subliniază superioritatea setului lor de date față de cel mai apropiat set de date comparabil, IMDB-WIKI:

‘Setul nostru de date nu este doar substanțial mai mare, dar, în mod critic, constă în scene cu mai multe persoane, așa cum este necesar pentru modelul nostru. Deși niciun set de date extras de pe web nu este lipsit de zgomot în etichetare, pipeline-ul nostru de anotare utilizează legăturile explicite dintre imagini și profiluri de identitate oferite de baza de date, vizând asignări de identitate de înaltă calitate.’

Evaluarea lor a comparat mai multe versiuni ale sistemului de datare, pentru a înțelege de unde provin beneficiile sale. Un model a presupus cunoașterea perfectă a cui este în imagine, oferind o limită superioară a performanței prin eliminarea oricărei incertitudini în recunoașterea identității, iar versiunea completă a modelului a estimat identitățile și datele în mod conjunct, cântărind diferitele posibilități de asignare a identității înainte de a ajunge la o estimare finală a anului.

O variantă mai simplă a selectat cea mai probabilă configurație de identitate fără a marginaliza alternativele, ceea ce s-a dovedit a fi aproape la fel de eficient în practică.

În contrast, linia de bază cea mai simplă a asignat fiecare față în mod independent și a combinat estimațiile de an bazate pe vârstă, fără a considera dacă identitățile colective aveau sens.

Pentru a testa cât de mult beneficiază metoda de utilizarea fețelor, un model separat a fost antrenat pentru a estima direct data din întreaga scenă. Acest model bazat pe scenă reprezintă abordarea alternativă cea mai puternică utilizată în prezent în estimarea datei imaginilor, deoarece poate învăța modele vizuale specifice epocii pe întreaga imagine, și nu se bazează pe identitate sau vârstă.

Metode și date

Eroarea medie absolută (MAE) între anul estimat și adevărul cunoscut a fost metrica centrală pentru experimente.

Datele au fost împărțite în cinci părți, cu grijă pentru a se asigura că toate imaginile din același film au fost păstrate într-o singură partiție. Trei dintre aceste părți au fost utilizate pentru antrenare, una pentru validare și una pentru testare. Această rotație în cinci părți a fost aplicată pentru a preveni supraantrenarea.

Deoarece modelele bazate pe fețe nu au fost antrenate pe acest set de date, nu a fost necesară împărțirea, și în schimb, au fost evaluate direct pe setul complet CSFD-1.6M.

Modelul Scenă a fost antrenat timp de 200 de epoci sub optimizerul Adam, cu imagini redimensionate la o cultură de 384×384.

Rezultate

Secțiunea de rezultate a articolului este divizată în mod neobișnuit pe mai multe indicatori de performanță, fără a exista un singur test central. Vom prezenta aici o selecție a celor mai pertinente rezultate.

Rezultatul cel mai important nu este un singur număr, ci un model: modelele de agregare facială (în special variantele Complete și Top-1) depășesc în mod constant linia de bază puternică Scenă atunci când sunt prezente două sau mai multe identități cunoscute – chiar dacă modelul Scenă este antrenat direct pe setul de date, susținând afirmația centrală că datarea facială legată de identitate oferă un semnal mai robust decât interpretarea holistică a scenei.

Pentru a evalua efectul priorilor temporali, autorii au comparat mai multe configurații ale modelului Complet. Performanța cea mai puternică a fost obținută utilizând priorul Deceniu, care a depășit semnificativ atât modelul Naiv (care nu utilizează priori temporali) cât și priorul Uniform (care presupune lipsa oricărei preferințe pentru anii specifici):

Performanța scade brusc pentru toate metodele pe măsură ce numărul de fețe crește, dar modelele care utilizează priori temporali realiști, cum ar fi priorul Deceniu, sunt afectate mult mai puțin. Liniile de bază Naiv și Scenă rămân plate sau se degradează cu grupuri mai mari, în timp ce modelul Complet, ghidat de priori informativi, menține o eroare scăzută. Priorii oraculi, care se bazează pe statistici din setul de test, definesc limita inferioară a performanței posibile.

Performanța scade brusc pentru toate metodele pe măsură ce numărul de fețe crește, dar modelele care utilizează priori temporali realiști, cum ar fi priorul Deceniu, sunt afectate mult mai puțin. Liniile de bază Naiv și Scenă rămân plate sau se degradează cu grupuri mai mari, în timp ce modelul Complet, ghidat de priori informativi, menține o eroare scăzută. Priorii oraculi, care se bazează pe statistici din setul de test, definesc limita inferioară a performanței posibile.

Pentru a demonstra valoarea setului de date CSFD-1.6M dincolo de datarea fotografiei, setul de date a fost testat și ca resursă de preantrenare pentru sarcina mai largă de estimare a vârstei faciale. Urmând un protocol standard de evaluare, modelele ResNet101 au fost preantrenate pe CSFD-1.6M și comparate cu modele similare preantrenate pe IMDB-WIKI și ImageNet. Aceste modele au fost apoi ajustate și evaluate pe cinci seturi de date populare: AgeDB; AFAD, MORPH; UTKFace; și CLAP2016:

Eroarea medie absolută (plus/minus deviația standard) pe cinci seturi de date de estimare a vârstei, comparând modele preantrenate pe ImageNet, IMDB-WIKI și CSFD-1.6M. Valori mai mici indică o performanță mai bună. CSFD-1.6M oferă cele mai bune rezultate pe toate seturile de date.

Eroarea medie absolută (plus/minus deviația standard) pe cinci seturi de date de estimare a vârstei, comparând modele preantrenate pe ImageNet, IMDB-WIKI și CSFD-1.6M. Valori mai mici indică o performanță mai bună. CSFD-1.6M oferă cele mai bune rezultate pe toate seturile de date.

Pe toate cele cinci seturi de date, preantrenarea pe CSFD-1.6M a condus la ratele de eroare cele mai scăzute, depășind celelalte două surse de preantrenare cu o marjă clară – o diferență de performanță care s-a dovedit a fi cea mai puternică pe AFAD și CLAP2016, dar a rămas constantă pe toate seturile de date.

Ne referim cititorului la restul secțiunii de rezultate din articolul sursă, care tratează și studii de ablație în detaliu.

Concluzie

Deși noua lucrare de cercetare devine rapid densă și greu de abordat pentru cititorul obișnuit, subiectul abordat este unul dintre cele mai interesante și relevante în literatura de viziune computațională – nu în ultimul rând pentru că se suprapune în mod abil cu antropologia și studiile culturale, unde constantele sunt greu de determinat.

 

* La fel ca evoluția muzicală, care și-a încetinit ritmul schimbării.

Publicat pentru prima dată luni, 10 noiembrie 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.