Andersonův úhel

AI může uhádnout rok fotografie podle věku lidí

Published November 10, 2025

Updated April 25, 2026

Martin Anderson

An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Nový výzkum ukazuje, že AI může pomocí obličejů lidí odhadnout rok, ve kterém byla fotografie pořízena, a kombinovat odhady věku s známými roky narození, aby překonala současné metody založené na scéně.

Uhádnutí data fotografie bývalo dříve mnohem snazší, než je nyní, protože móda vlasů a oděvů se vyvíjela velmi rychle. Z různých, dosud nedořešených důvodů, se tento vývoj vizuálního stylu před asi třiceti lety zastavil, což znamená, že již není tak snadné podívat se na účes nebo oblečení a uhádnout rok podle tohoto druhu vizuálních podnětů.

Po určitou dobu bylo možné datovat obrázky a filmy také na základě barevného rozlišení a charakteristik zrna filmu. Není třeba být specialistou na forenzní analýzu; pokud jste sledovali dostatek starých filmů, kulturní podněty (jako hudba, auta, móda, témata atd.) by se nakonec spojily s styly filmového zrna:

Ilustrace toho, jak se zlepšování filmového zrna postupně rozšiřovalo rozsah barev pleti a stylů osvětlení v čase, přecházející z plochých, frontálních kompozic na více naturalistických a variabilních vzhledů. Zdroj (můj vlastní článek)

Dalším ” kotvou ” pro datování fotografie bylo, zda byla černobílá – ekonomika, která se stala zbytečnou po popularizaci digitální fotografie na počátku tohoto století

Několik komerčních a experimentálních systémů, jako je například MyHeritage s předplatným PhotoDater, se snaží datovat fotografie pomocí těchto a různých dalších kritérií.

Příklad odhadu stáří fotografie ze služby MyHeritage PhotoDater. Zdroj

V případě absence jiných značek, jako jsou smartphony nebo jiná technologie specifická pro určitou éru, je nejlepším způsobem, jak určit stáří fotografie pořízené v posledních 15-25 letech, znalost osoby (tj. celebrity nebo možná známý), a odhad jejich věku, což poskytuje hrubý ekvivalent roku.

Věk obličeje jako referenční bod

V oblasti počítačového vidění a v různých dalších oblastech (tj. forenzní, archivní zpracování, žurnalistika, architektura datového souboru atd.) je schopnost určit stáří fotografie velmi ceněným cílem, protože mnoho z nejzajímavějších digitálních a analogových sbírek postrádá řádnou anotaci a metadata, nebo dokonce má nesprávná metadata z předchozích (špatných) odhadů.

Proto by bylo užitečné, kdyby systém AI mohl prohlížet fotografie stejně jako my, když se díváme na naše historické sbírky, a komentovat ‘Oh ano, to bylo, když…’. Otázkou je, co by mohlo být háček, pokud chybí obvyklé nezbytné podněty?

Nová výzkumná práce z České republiky nabízí počáteční úchop do tohoto přístupu, využívající systémy AI založené na rozpoznávání věku a rozpoznávání obličeje spojené s centrální databází identit (v tomto případě sbírka českých umělců a filmařů ve stylu IMDB):

Snímek z filmu ‘Joachim, Put It in the Machine’ (1974), použitý k ilustraci procesu datování. Model detekuje známé osoby na fotografii, odhaduje jejich věk pomocí odhadce věku obličeje (pravý sloupec) a odečítá tuto hodnotu od roku narození každé osoby, aby vytvořil pravděpodobnostní rozdělení možných dat fotografií. Grafy ukazují pravděpodobnost každého odhadu věku, s čárkami označujícími skutečný věk osoby v době pořízení fotografie. Zdroj

Systém funguje tak, že detekuje známé osoby na fotografii, odhaduje jejich věk obličeje pomocí předem trénovaného modelu a odečítá tuto odhadnutou hodnotu od roku narození, aby vytvořil pravděpodobnostní rozdělení možných dat fotografií. Když je na fotografii více obličejů, jsou odhady dat agregovány, aby se vytvořil finální odhad.

Metoda byla testována na obrazech z Czecho-Slovak Movie Database (CSFD), a výsledný přístup, podle autorů, nabízí konzistentně lepší přesnost než modely založené na scéně (statické modely, které se spoléhají na pozadí nebo vizuální kontext místo obličejů) trénované na stejných datech.

Schéma této metody vyžaduje centrální databázi, která obsahuje znalosti o široké skupině osob; v tomto případě databázi českých filmových umělců; ale jakákoliv podobná sbírka, která obsahuje potvrzené roky narození a centrálně potvrzené události, by mohla vést k podobnému výsledku.

Práce uvádí:

‘Jedinečně, naše dataset poskytuje anotace pro více osob v jednom obraze, umožňující studium agregace multi-obličejových informací. Navrhujeme pravděpodobnostní rámec, který formálně kombinuje vizuální důkazy z moderních modelů rozpoznávání obličeje a odhadu věku, a kariérních temporálních předpovědí, aby se odvodil rok pořízení fotografie.

‘Naše experimenty prokázaly, že agregace důkazů z více obličejů konzistentně zlepšuje výkon a přístup významně překonává silné, scéně-založené metody, zejména pro obrázky obsahující několik identifikovatelných osob.’

Nová práce se jmenuje Datování fotografie pomocí agregace věku obličeje a pochází od dvou výzkumníků z České technické univerzity v Praze, s příslibem pozdějšího vydání kódu a dat.

Metoda

Pro odhad, kdy byla fotografie pořízena, nový systém vypadá na každou detekovanou tvář a snaží se uhádnout, kdo by to mohl být, pomocí výše zmíněné databáze známých osob. Jelikož osoba může být na fotografii pouze jednou, systém kontroluje všechny možné kombinace identit a používá jejich známé roky narození, aby odhadl, jak vypadají.

Po tomto systému pracuje zpět, aby odhadl nejpravděpodobnější rok, který by způsobil, že tyto věky souhlasí:

Vlevo: systém vytváří časovou osu, která ukazuje, kdy byli rozpoznaní jednotlivci nejaktivnější, na základě jejich známých kariér. Vpravo: toto je kombinováno s odhady věku obličeje, aby se vytvořil finální odhad, kdy byla fotografie pořízena.

Pro zvládnutí mnoha možných kombinací identit systém předpokládá, že tváře jsou nezávislé, a že vzhled každé tváře závisí pouze na její identitě a datu fotografie.

Pro odhad, kdy byla fotografie pořízena, systém nejdříve odhadne věk každé detekované tváře pomocí modelu NIST cvut-002, který je založen na architektuře ViT-B/16 a trénován na privátním datasetu (který, podle autorů, patří mezi nejlepší v NIST’s Face Analysis Technology Evaluation (FATE) databázi).

Jakmile je znám rok narození osoby, model převádí odhad věku na pravděpodobný rok pořízení fotografie jednoduchým přidáním věku k roku narození, což vede k pravděpodobnostnímu rozdělení možných let pořízení. Pro posouzení, jak dobře detekovaná tvář odpovídá známé identitě, systém porovnává jejich vložené reprezentace v prostoru ArcFace:

ArcFace, hlavní přispěvatelé architektury pro nyní populární model InsightFace, byli spuštěni v roce 2015, určeni stát se vlivným projektem v hodnocení a posuzování obličeje. Zdroj

Každá identita je reprezentována průměrnou vloženou reprezentací vytvořenou z jejích referenčních portrétů. Podobnost mezi testovací tváří a identitou je pak měřena pomocí Von Mises Fisher Distribution, která modeluje, jak těsně se portréty identity shlukují kolem této průměrné. Společný parametr ostrosti kontroluje, jak jistý je systém v těchto shlucích, a je odhadnut pomocí strategie leave-one-out na portrétech identit.

Model definuje pět typů priors pro odhad, kdy rozpoznaná osoba může být na fotografii: uniformní; dekádový; filmový; obrazový; a konvexní kombinace prior, která kombinuje nejsilnější a nejslabší možnosti, aby otestovala citlivost na sílu prior (tj. odolnost prior vůči stresu).

Pro zpracování tváří, které nelze s jistotou identifikovat, model zahrnuje záložní ‘neznámou’ identitu s neinformativními rozděleními, která má rovnoměrnou pravděpodobnost v prostoru vložených reprezentací a temporální prior rovnoměrně rozloženou přes všechna léta. To umožňuje ignorovat nejisté tváře bez zkreslení finálního odhadu data:

Výkon plného modelu za otevřených podmínek, kdy se v jedné fotografii objevují známé i neznámé tváře. Průměrná absolutní chyba (MAE) se zvyšuje s počtem neznámých identit, ale konzistentně se zlepšuje, když je k dispozici více známých identit, aby ukotvily časovou osu. Velikost každého čtverce ukazuje počet vzorků, což ukazuje, že konfigurace s nízkou chybou dominují distribuci dat.

Jak je ovlivněn výkon, když některé tváře na obrázku nelze identifikovat. Každý čtverec ukazuje průměrnou chybu datování pro různé počty známých a neznámých identit, s velikostí čtverce, která odráží, jak častá je tato kombinace v datasetu. Chyba se zvyšuje s více neznámými, ale klesá postupně, když je k dispozici více známých identit.

Data a testy

Autoři použili výše zmíněný dataset CSFD, aby vytvořili novou sbírku, kterou nazvali CSFD-1.6M. Dataset byl vytvořen z scén s několika lidmi, s každou tváří označenou identitou a rokem. Tato struktura byla nezbytná pro naučení modelu, jak tváře souvisejí s sebou v kontextu; datasety s jednou tváří, jako je IMDB-WIKI, tuto podporu neposkytují, protože označují pouze jednu osobu na obrázku.

Roky vydání filmů z Czecho-Slovak Movie Database byly použity k odhadu, kdy byla fotografie pořízena, s každou osobou na obrázku spárována s veřejným profilem, který obsahuje rok narození, a portrét.

Následně byla každá tvář na obrázku spárována s jednou z známých identit, nejprve pomocí ArcFace pro vytvoření vložených reprezentací, a výpočet průměrné vložené reprezentace pro každou identitu.

Po tomto algoritmus Maďarské byl použit k přiřazení tváří identitám porovnáním podobnosti vložených reprezentací, s úpravami provedenými, když počet detekovaných tváří prostřednictvím rámce SCRFD-10GE se neshodoval s počtem známých osob.

Statistiky z datasetu CSFD-1.6M, uvádějící počet scrapperů, detekovaných tváří, shod identit, konečné anotované vzorky a dostupný pool identit.

Shody byly odmítnuty, pokud podobnost byla příliš nízká nebo pokud odhadovaný věk se příliš lišil od známého věku, s větší tolerancí pro starší subjekty, a tváře nebyly filtrovány podle kvality nebo velikosti.

Autoři uvádějí nadřazenost své kurátorské sady nad nejbližším srovnatelným datasetem, IMDB-WIKI:

‘Náš dataset není pouze podstatně větší, ale kriticky, sestává z multi-osobních scén, které jsou vyžadovány našim modelem. Zatímco žádný webový dataset není zcela prostý šumu anotací, náš proces anotace využívá explicitních odkazů mezi obrázky a profily identit, poskytovaných databází, s cílem dosáhnout vyšší kvality přiřazování identit.’

Jejich hodnocení srovnávalo několik verzí systému datování, aby porozumělo, odkud pocházejí jeho zisky. Jeden model předpokládal dokonalou znalost toho, kdo je na obrázku, poskytující horní hranici výkonu odstraněním veškeré nejistoty v rozpoznávání identit, s plnou verzí modelu, která odhaduje identitu a datum společně, váží různé možné konfigurace identit, než dospěje k finálnímu odhadu roku.

Jednodušší varianta vybrala jedinou nejpravděpodobnější konfiguraci identit bez marginalizace alternativ, což se ukázalo jako téměř stejně účinné v praxi.

Naopak, nejjednodušší základní metoda přiřadila každou tvář nezávisle a kombinovala výsledné odhady věku, bez zohlednění toho, zda identita kolektivně dává smysl.

Pro test, jak moc metoda profitovala z použití tváří, byl trénován samostatný model, aby odhadl datum přímo z celé scény. Tento scéně-založený model představuje nejsilnější alternativní přístup目前 používaný v odhadu data obrázku, protože může naučit érové vizuální vzory napříč celým obrázkem, místo aby se spoléhal na identitu nebo věk.

Metriky a data

Průměrná absolutní chyba (MAE) mezi předpovězeným rokem a známou skutečností byla centrální metrikou pro experimenty.

Data byla rozdělena do pěti částí, s péčí, aby všechny obrázky ze stejného filmu byly zachovány v rámci jedné části. Tři z těchto částí byly použity pro trénink, jedna pro validaci a jedna pro testování. Tato pětifázová rotace byla aplikována, aby se zabránilo přeučení.

Vzhledem k tomu, že modely založené na tvářích nebyly trénovány na tomto datasetu, nebylo rozdělování vyžadováno, a místo toho byly vyhodnoceny přímo na plném datasetu CSFD-1.6M.

Model Scény byl trénován po dobu 200 epoch pod optimalizátorem Adam, s obrázky převedenými na 384×384 výřez.

Výsledky

Část výsledků v práci je neobvykle rozdělena napříč několika ukazateli výkonu, bez jediného výjimečného nebo centrálního testu. Nicméně, zde budou prezentovány některé z nejrelevantnějších výsledků.

Nejdůležitějším výsledkem není jediné číslo, ale vzorec: modely agregace obličeje (zejména varianty Plný a Top-1) konzistentně překonávají silný Scéně baseline, kdykoli jsou přítomny dvě nebo více známých identit – i když je model Scény trénován přímo na datasetu, podporující centrální tvrzení, že identita-spojené datování obličeje poskytuje silnější signál než holistická interpretace scény.

Pro vyhodnocení efektu temporálních prior autorů srovnávali několik konfigurací svého Plného modelu. Nejlepší výkon byl získán pomocí dekádového prioru, který výrazně překonal jak naivní model (který nepoužívá žádný temporální prior), tak uniformní prior (který předpokládá žádnou preferenci nad roky):

Výkon se zhoršuje ostře pro všechny metody, jak se zvyšuje počet tváří, ale modely, které používají realistické temporální priory, jako je dekádový prior, jsou ovlivněny mnohem méně. Naivní a scéně-založené metody zůstávají ploché nebo se zhoršují s větším počtem tváří, zatímco plný model, vedený informativními priory, udržuje nízkou chybu. Oracle-založené priory, které se spoléhají na statistiku testovací sady, definují dolní hranici dosažitelného výkonu.

Pro demonstraci hodnoty datasetu CSFD-1.6M za hranicemi datování fotografií byl dataset také otestován jako zdroj pro předtrénování pro širší úkol odhadu věku obličeje. Podle standardního vyhodnocovacího protokolu modely ResNet101 byly předtrénovány na CSFD-1.6M a srovnány s protějšky předtrénovanými na IMDB-WIKI a ImageNet. Tyto modely byly poté dofínovány a vyhodnoceny napříč pěti populárními benchmarky: AgeDB; AFAD, MORPH; UTKFace; a CLAP2016:

Průměrná absolutní chyba (plus minus standardní odchylka) na pěti benchmarcích odhadu věku, srovnávající modely předtrénované na ImageNet, IMDB-WIKI a CSFD-1.6M. Nižší hodnoty indikují lepší výkon. CSFD-1.6M poskytuje nejlepší výsledky napříč všemi benchmaruky.

Napříč všemi pěti datasety vedlo předtrénování na CSFD-1.6M k nejnižším chybám, překonávající ostatní dvě zdroje předtrénování o značný margin – rozdíl ve výkonu, který se ukázal nejsilnější na AFAD a CLAP2016, ale zůstal konzistentní napříč všemi.

Odkazujeme čtenáře na zbytek poněkud fragmentovaného oddílu výsledků v původní práci, který se také podrobně zabývá studiemi odloučení.

Závěr

Ačkoli nová práce rychle становится hustou a nepřístupnou pro běžného čtenáře, téma, které se zabývá, je jedním z nejzajímavějších a nejrelevantnějších v literatuře počítačového vidění – nejméně proto, že se velmi dobře překrývá s antropologií a kulturními studiemi, kde jsou konstanty obtížně stanoveny.

* Stejně jako i evoluce hudby zpomalila svou rychlost změny.

Poprvé zveřejněno v pondělí, 10. listopadu 2025