Connect with us

AI voi arvata valokuvan vuoden perusteella ihmisten ikään

Andersonin kulma

AI voi arvata valokuvan vuoden perusteella ihmisten ikään

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Uusi tutkimus osoittaa, että AI voi käyttää ihmisten kasvoja arvioidakseen valokuvan ottamisvuoden yhdistämällä ikäarviot tunnettuihin syntymävuosiin ja voittaa näin ollen nykyiset kohtaukseen perustuvat menetelmät.

 

Arvata valokuvan ikä oli aikaisemmin paljon helpompaa, koska hiusten ja vaatetusmuodit kehittyivät nopeasti. Monien kiistellyistä syistä johtuen tämä visuaalisen tyylin muutos hidastui noin 30 vuotta sitten, mikä tekee siitä haasteellisempaa arvata valokuvan vuosi tällaisen visuaalisen vihjeen perusteella.

Pitkään oli mahdollista myös ajoittaa kuvia ja elokuvia värien resoluution ja filmiraiden ominaisuuksien perusteella. Tähän ei tarvinnut olla asiantuntija; jos katsoi tarpeeksi vanhoja elokuvia, kulttuuriset vihjeet (kuten musiikki, autot, muoti, aiheet jne.) liittyisivät lopulta yhteen elokuvan filmiraiden tyyleihin:

Kuva siitä, miten filmiraiden parantuminen on laajentanut ihonvärien ja valaistustyylit ajan myötä, siirtymällä tasaisista, eteenpäin suunnattuista asetelmista luonnollisempiin ja monipuolisempiin ulkoasuun. [Lähde ] https://archive.is/3ZSjN (oma artikkeli)

Kuva siitä, miten filmiraiden parantuminen on laajentanut ihonvärien ja valaistustyylit ajan myötä, siirtymällä tasaisista, eteenpäin suunnattuista asetelmista luonnollisempiin ja monipuolisempiin ulkoasuun. Lähde (oma artikkeli)

Lisäksi valokuvan ajoittamisen ankkuri oli se, oliko se mustavalkoinen – talous, josta luovuttiin valokuvauksen digitalisoitumisen myötä tämän vuosisadan alussa

Useat kaupalliset ja kokeelliset järjestelmät, kuten MyHeritagen tilauspohjainen PhotoDater, yrittävät ajoittaa valokuvia käyttämällä näitä ja monia muita kriteerejä.

Esimerkki valokuvan ikäarviosta MyHeritage PhotoDater -tilauspalvelusta. Lähde [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]

Esimerkki valokuvan ikäarviosta MyHeritage PhotoDater -tilauspalvelusta. Lähde

Ilman muita paljastavia merkkejä, kuten älypuhelimia tai muita aikakauteen liittyviä teknologioita, paras tapa arvioida valokuvan ikää viimeisen 15-25 vuoden aikana on tunnistaa henkilö (esim. julkisuuden henkilö tai ehkä tuttava) ja arvioida heidän ikänsä, mikä antaa karkean vuosiequivalentin.

Kasvojen ikä viittauksena

Tietokonegrafiikan alalla ja monilla muilla aloilla (esim. oikeuslääketiede, arkistointi, journalismi, tietokanta-arkkitehtuuri jne.) valokuvan ikä on arvostettu tavoite, koska monista mielenkiintoisimmista digitaalisista ja analogisista kokoelmista puuttuu oikea annotaatio ja metatieto tai niissä on virheellisiä metatietoja aiemmista (vääristä) arvioista.

Sen vuoksi olisi hyödyllistä, jos AI-järjestelmä voisi tarkastella valokuvia samalla tavalla kuin me, kun tarkastelemme historiallisia kokoelmiamme ja kommentoimme ‘Oh yes, that was when…’. Kysymys on, mikä voisi olla koukku, poissa ollessa tavalliset tarvittavat vihjeet?

Tšekistä oleva uusi tutkimusartikkeli tarjoaa aloituspisteen tähän lähestymistapaan hyödyntämällä AI-pohjaisia ikäntunnistusjärjestelmiä yhdessä kasvon tunnistusjärjestelmien kanssa, jotka on linkitetty yhteiseen tietokantaan tunnettuja henkilöitä (tässä tapauksessa IMDB-tyyppinen kokoelma, jossa on tšekkiläisiä esittäjiä ja elokuvantekijöitä):

Kuva elokuvasta Joachim, Put It in the Machine (1974), jota käytetään ajoittamisprosessin havainnollistamiseen. Malli tunnistaa tunnetut henkilöt valokuvassa, arvioi heidän ikänsä kasvojen ikäarvioijan avulla (oikea sarake) ja vähentää tämän arvon kustakin henkilön syntymävuodesta, jotta voidaan luoda todennäköisyysjakauma mahdollisille valokuvan ottamisvuosille. Kaaviot osoittavat kunkin ikäarvion todennäköisyyden, ja katkeamat viivat merkitsevät henkilön todellisen ikän valokuvan ottamishetkellä.

Kuva elokuvasta ‘Joachim, Put It in the Machine’ (1974), jota käytetään ajoittamisprosessin havainnollistamiseen. Malli tunnistaa tunnetut henkilöt valokuvassa, arvioi heidän ikänsä kasvojen ikäarvioijan avulla (oikea sarake) ja vähentää tämän arvon kustakin henkilön syntymävuodesta, jotta voidaan luoda todennäköisyysjakauma mahdollisille valokuvan ottamisvuosille. Kaaviot osoittavat kunkin ikäarvion todennäköisyyden, ja katkeamat viivat merkitsevät henkilön todellisen ikän valokuvan ottamishetkellä. Lähde

Järjestelmä toimii tunnistamalla tunnetut henkilöt valokuvassa, arvioimalla heidän kasvojen ikänsä esikoulutetun mallin avulla ja vähentämällä tämän arvon heidän syntymävuodestaan, jotta voidaan luoda todennäköinen aikajakso valokuvan ottamisvuosille. Kun useita kasvoja on läsnä, ajoitusarviot yhdistetään lopulliseen ennusteeseen.

Menetelmä testattiin Czecho-Slovak Movie Database (CSFD) -kuvista, ja tuloksena oleva lähestymistapa tarjoaa, kirjoittajien mukaan, johdonmukaisesti tarkemman tuloksen kuin kohtaukseen perustuvat mallit (staattiset mallit, jotka riippuvat taustaelementeistä tai visuaalisesta kontekstista eivätkä kasvoista) koulutettuna samalla datalla.

Tämän menetelmän skeema vaatii keskitetyän tietokannan, joka sisältää tietoa laajasta ryhmästä henkilöitä; mutta mikä tahansa vastaava kokoelma, joka sisältää vahvistetut syntymävuodet ja keskitetyt päivämäärät, voisi tuottaa samanlaisen tuloksen.

Artikkeli toteaa:

‘Yksinomaan meidän tietokantamme tarjoaa annotaatioita useille henkilöille yhdessä kuvassa, mikä mahdollistaa useiden kasvojen tietojen yhdistämisen tutkimisen. Esitämme todennäköisyyspohjaisen kehyksen, joka yhdistää visuaalisen näytön modernin kasvon tunnistus- ja ikäarviomallien sekä uraan perustuvien aikaisempien todennäköisyyksien avulla valokuvan ottamisvuoden arvioimiseksi.

‘Kokeilumme osoittavat, että useiden kasvojen todisteiden yhdistäminen parantaa johdonmukaisesti suorituskykyä ja lähestymistapaa, joka ylittää merkittävästi vahvat, kohtaukseen perustuvat vertailukohteet, erityisesti kuvissa, joissa on useita tunnistettavia henkilöitä.’

Uusi artikkeli on otsikoitu Valokuvan ajoitus kasvojen ikäyhteenvetona, ja se on peräisin kahdelta tutkijalta Tšekin teknillisestä yliopistosta Prahassa, ja luvataan myöhemmin koodi- ja tietojulkaisu.

Menetelmä

Arvioidakseen, milloin valokuva on otettu, kirjoittajien uusi järjestelmä tarkastelee jokaista havaittua kasvoa ja yrittää arvioida, kuka se voi olla, käyttäen mainittua tietokantaa tunnettuja henkilöitä. Koska henkilö voi esiintyä valokuvassa vain kerran, järjestelmä tarkistaa kaikki mahdolliset identiteettien yhdistelmät ja käyttää heidän syntymävuosiaan arvioidakseen, miten vanha kunkin henkilön näyttää.

Tämän jälkeen se toimii taaksepäin arvioidakseen todennäköisimmän vuoden, joka tekee nämä iät vastaaviksi:

Vasemmalla: järjestelmä rakentaa aikajanan, joka osoittaa, milloin tunnistetut henkilöt olivat aktiivisimpia uransa perusteella. Oikealla: tämä yhdistetään kasvojen ikäarvioiden kanssa lopulliseen arvioon valokuvan ottamisajankohdasta.

Vasemmalla: järjestelmä rakentaa aikajanan, joka osoittaa, milloin tunnistetut henkilöt olivat aktiivisimpia uransa perusteella. Oikealla: tämä yhdistetään kasvojen ikäarvioiden kanssa lopulliseen arvioon valokuvan ottamisajankohdasta.

Hallitakseen monia mahdollisia identiteettien yhdistelmiä järjestelmä olettaa, että kasvot ovat riippumattomia, ja että kunkin ulkonäkö riippuu ainoastaan identiteetistä ja valokuvan ottamisajankohdasta.

Arvioidakseen, milloin valokuva on otettu, järjestelmä arvioi ensin kunkin havaitun kasvon ikän NIST cvut-002-mallin avulla, joka perustuu ViT-B/16-arkkitehtuuriin ja on koulutettu yksityisessä tietokannassa (joka, kirjoittajien mukaan, sijoittuu korkealle NISTin Face Analysis Technology Evaluation (FATE) tietokannassa).

Kun henkilön syntymävuosi on tiedossa, malli muuttaa ikäarvion todennäköiseksi valokuvan vuodeksi lisäämällä iän syntymävuoteen, mikä antaa todennäköisyysjakauman mahdollisille ottamisvuosille. Arvioidakseen, miten hyvin havaittu kasvo vastaa tunnettua identiteettiä, järjestelmä vertaa heidän upotukset ArcFace-avaruudessa:

ArcFace, joka on keskeinen arkkitehtuuri nykyisille InsightFace-malleille, julkaistiin vuonna 2015 ja oli tarkoitus tulla merkittäväksi hankkeeksi kasvojen arvioinnissa ja arviointitutkimuksessa. [Lähde ] https://arxiv.org/pdf/1801.07698

ArcFace, joka on keskeinen arkkitehtuuri nykyisille InsightFace-malleille, julkaistiin vuonna 2015 ja oli tarkoitus tulla merkittäväksi hankkeeksi kasvojen arvioinnissa ja arviointitutkimuksessa. Lähde

Kunkin identiteetin edustaa keskiarvo, joka on luotu heidän viitekuvistaan. Samankaltaisuus testatun kasvon ja identiteetin välillä mitataan Von Mises Fisher -jakauman avulla, joka mallintaa, miten identiteetin viitekuvat ryhmittäytyvät keskiarvon ympärille. Jaettu terävyysparametri säätää, miten varma järjestelmä on näissä ryhmittäytymissä, ja se arvioidaan jätä-yksi-ulos-strategialla identiteetin viitekuvissa.

Malli määrittää viisi tyyppiä apuprioreja arvioidakseen, milloin tunnistettu henkilö saattaa esiintyä valokuvassa: yksinkertainen; vuosikymmen; elokuva; kuva; ja konveksi yhdistävä apupriori, joka yhdistää vahvimmat ja heikoimmat vaihtoehdot, jotta voidaan testata apupriorin lujuus (ts. apupriorien kestävyys paineen alla).

Kasvojen käsittely, joita ei voida tunnistaa luotettavasti, malli sisältää fallback ‘tuntematon’ identiteetin, jolla on tietämättömät jakaumat, jossa on kasvon todennäköisyys, joka on tasainen upotusavaruudessa, ja aikaisempi priori, joka on tasainen kaikkien vuosien yli. Tämä mahdollistaa epävarmojen kasvojen ohittamisen ilman vääristymää lopullisessa päivämääräarviossa:

Täydellisen mallin suorituskyky avoimessa asetelmassa, jossa sekä tunnetut että tuntemattomat kasvot esiintyvät samassa kuvassa. Keskimääräinen virhe (MAE) kasvaa tuntemattomien identiteettien määrän kasvaessa, mutta paranee johdonmukaisesti, kun enemmän tunnettuja identiteettejä on saatavilla aikajanan ankkuroimiseksi. Kunkin neliön koko osoittaa otoksen määrän, paljastaen, että alhaiset virheet ovat hallitsevia tietokannan jakautumisessa.

Kuva siitä, miten suorituskyky vaikuttaa, kun joitakin kasvoja kuvassa ei voida tunnistaa. Kunkin neliön koko osoittaa otoksen määrän, ja virhe kasvaa tuntemattomien identiteettien määrän kasvaessa, mutta paranee tasaisesti, kun enemmän tunnettuja identiteettejä on saatavilla.

Tiedot ja testit

Kirjoittajat käyttivät mainittua CSFD-tietokantaa luomaan uuden kokoelman, jonka he kutsuivat CSFD-1.6M:ksi. Tietokanta luotiin kohtauksista, joissa useita henkilöitä oli, ja jokainen kasvo merkittiin identiteetillä ja vuodella. Tämä rakenne oli välttämätöntä opettaa mallille, miten kasvot liittyvät toisiinsa kontekstissa; yksinkertaiset tietokannat, kuten IMDB-WIKI, eivät tue tätä, koska ne merkitsevät vain yhden henkilön per kuva.

Elokuvien julkaisuvuodet Czecho-Slovak Movie Database -tietokannasta käytettiin arvioimaan, milloin valokuva otettiin, ja kunkin henkilön syntymävuosi yhdistettiin julkiseen profiiliin, jossa oli heidän syntymävuotensa ja heidän profiilikuvansa.

Tämän jälkeen kunkin kasvon valokuvassa yhdistettiin yhteen tunnettuun identiteettiin, aluksi käyttäen ArcFacea luomaan kasvojen upotuksia ja laskea keskiarvo upotus kunkin identiteetin viitekuvista.

Sitten Hungarian-algoritmi käytettiin identiteettien ja kasvojen välisen yhdistämisen arvioimiseen vertaamalla upotusten samankaltaisuutta, ja sopeutuksia tehtiin, kun havaittujen kasvojen määrä SCRFD-10GE -kehyksessä ei vastannut tunnettujen henkilöiden määrää.

Tilastot CSFD-1.6M -tietokannasta, jotka kuvaavat haettuja kuvia, havaittuja kasvoja, identiteetin vastaavuuksia, lopullisia annotoituja otoksia ja saatavilla olevaa identiteettipoolia.

Tilastot CSFD-1.6M -tietokannasta, jotka kuvaavat haettuja kuvia, havaittuja kasvoja, identiteetin vastaavuuksia, lopullisia annotoituja otoksia ja saatavilla olevaa identiteettipoolia.

Vastaukset hylättiin, jos samankaltaisuus oli liian alhainen tai jos arvioitu ikä poikkesi liian paljon tunnetusta iästä, ja suurempaa suvaitsevuuksia sallittiin vanhemmille aiheille, eikä kasvoja suodatettu laadun tai koosta johtuen.

Kirjoittajat korostavat tietokantansa ylivoimaa lähimpään vertailukelpoiseen tietokantaan, IMDB-WIKI:

‘Meidän tietokantamme ei ole ainoastaan huomattavasti suurempi, vaan kriittisesti se koostuu monien henkilöiden kohtauksista, joita mallimme vaatii. Vaikka mikään verkkohakuinen tietokanta ei ole vapaa merkintämelusta, meidän annotointiputkimme hyödyntää tietokannan tarjoamia implisiittisiä linkkejä kuvien ja identiteettiprofiilien välillä, pyrkien korkeampiin laadun identiteettien määrityksiin.’

Heidän arviointinsa vertasi useita versioita heidän ajoitusjärjestelmästään, jotta voidaan ymmärtää, mistä heidän edut tulivat. Yksi malli oletti täydellistä tietoa siitä, kuka oli kuvassa, tarjoamalla ylärajan suorituskyvylle poistamalla identiteetin tunnistamiseen liittyvän epävarmuuden, ja täydellinen malli arvioi identiteettejä ja vuosia yhdessä, punnitsemalla eri identiteettien määrityksiä ennen lopullisen vuosiarvion antamista.

Yksinkertaisempi variantti valitsi yksin vain todennäköisimmän identiteetin konfiguraation ilman vaihtoehtoisten marginalisointia, mikä osoittautui lähes yhtä tehokkaaksi käytännössä.

Toisaalta perustavin vertailukohteena jokainen kasvo määritettiin itsenäisesti ja tuloksena olevat ikäperusteiset vuosiarviot yhdistettiin ilman identiteettien yhteensopivuuden tarkastelua.

Testataksesi, kuinka paljon menetelmä hyötyy kasvojen käytöstä, erillinen malli koulutettiin arvioimaan päivämäärää suoraan koko kohtauksesta. Tämä kohtaukseen perustuva malli edustaa vahvinta vaihtoehtoista lähestymistapaa, jota käytetään kuvien ajoituksessa, koska se voi oppia aikakauteen liittyviä visuaalisia malleja koko kuvan yli, sen sijaan, että se riippuisi identiteetistä tai iästä.

Mitat ja tiedot

Keskimääräinen virhe (MAE) ennustetun ja todellisen vuoden välillä oli keskeinen mittari kokeissa.

Tiedot jaettiin viiteen osaan, ja huolehdittiin siitä, että kaikki saman elokuvan kuvat säilytettiin yhdessä jaossa. Kolme näistä osista käytettiin koulutukseen, yksi validointiin ja yksi testaamiseen. Tämä viisiosainen kierto sovellettiin estämään ylisovittuminen.

Koska kasvojen perusteella tehtyjä malleja ei ollut koulutettu tällä tietokannalla, niiden ei tarvinnut jakautua, ja ne arvioitiin suoraan koko CSFD-1.6M -tietokannassa.

Kohtaukseen perustuva malli koulutettiin 200 epokalle Adam -optimoinnin alla, ja kuvat muunnettiin 384×384 leikkaukseen.

Tulokset

Tulokset jaetaan epätavallisesti useiden suorituskykyindikaattoreiden ympärille, eikä ole yhtä erottuvaa tai keskeistä testiä. Esitämme kuitenkin valikoiman tärkeimmistä tuloksista.

Tärkein tulos ei ole yksittäinen luku, vaan malli: kasvojen yhdistämisellä (erityisesti Täysi ja Top-1 -versiot) ylittävät johdonmukaisesti vahvan Kohtaus -vertailukohdetasoa, kun kaksi tai useampi tunnettu identiteetti on läsnä – vaikka Kohtaus -malli on koulutettu suoraan tietokannassa, tukeakseen keskeistä väittämää, että identiteettiin liittyvien kasvojen ajoitus tarjoaa vahvemman signaalin kuin holistinen kohtaus-tulkinta.

Tulokset osoittavat, että kasvojen yhdistäminen parantaa suorituskykyä, kun useita tunnettuja identiteettejä on läsnä, ja virhe pienenee, kun enemmän tunnettuja identiteettejä on saatavilla.

Vertailemalla useita konfiguraatioita Täydellistä malliaan kirjoittajat osoittivat, että vahvin suorituskyky saavutettiin Vuosityyppi -apupriorin avulla, joka ylitti merkittävästi sekä Naivi -mallin (jossa ei ollut aikaisempaa prioria) että Yksinkertainen -priorin (joka oletti, ettei ollut etuoikeutettua vuotta).

Kun tietokantaa käytettiin esikoulutuksena laajempaan tehtävään, kasvojen ikäarvioinnissa, tulokset osoittivat, että CSFD-1.6M antoi alhaisimmat virheluvut viidessä suositussa ikäarvioinnin benchmarkissa, joissa olivat mukana AgeDB; AFAD, MORPH; UTKFace; ja CLAP2016:

Keskimääräinen virhe (plus miinus keskihajonta) viidessä ikäarvioinnin benchmarkissa, joissa verrataan malleja, jotka on esikoulutettu ImageNetissä, IMDB-WIKIssä ja CSFD-1.6M:ssa. Alhaisemmat arvot osoittavat parempaa suorituskykyä. CSFD-1.6M antaa vahvimmat tulokset kaikissa benchmarkissa.

Keskimääräinen virhe (plus miinus keskihajonta) viidessä ikäarvioinnin benchmarkissa, joissa verrataan malleja, jotka on esikoulutettu ImageNetissä, IMDB-WIKIssä ja CSFD-1.6M:ssa. Alhaisemmat arvot osoittavat parempaa suorituskykyä. CSFD-1.6M antaa vahvimmat tulokset kaikissa benchmarkissa.

Kaikissa viidessä tietokannassa esikoulutus CSFD-1.6M:llä johti alhaisimpiin virhelukuihin, ylittäen muut kaksi esikoulutuslähdettä selvällä marginaalilla – ero, joka oli vahvin AFAD- ja CLAP2016 -tietokannoissa, mutta pysyi johdonmukaisena kaikkialla.

Johtopäätös

Vaikka uusi artikkeli nopeasti tulee tiiviiksi ja haasteelliseksi casual-lukijalle, aihe on yksi mielenkiintoisimmista ja merkittävimmistä tietokonegrafiikan kirjallisuudessa – ei vain siksi, että se rajoittuu antropologiaan ja kulttuuritutkimukseen, missä vakiot on vaikea määritellä.

 

* Kuten musiikin evoluutio myös hidastui.

Julkaistu ensimmäisen kerran maanantaina, 10. marraskuuta 2025

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]