Connect with us

Штучна інтелект може вгадати рік фотографії за віком людей

Погляд Anderson

Штучна інтелект може вгадати рік фотографії за віком людей

mm
An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Нові дослідження показують, що штучна інтелект може використовувати обличчя людей, щоб оцінити рік, коли була зроблена фотографія, поєднуючи оцінки віку з відомими роками народження, щоб перевершити поточні методи, засновані на сцені.

 

Вгадування дати фотографії раніше було значно простішим, ніж тепер, оскільки мода на волосся та одяг розвивалася з великою швидкістю. За досить суперечливими причинами, цей рух візуального стилю зупинився близько тридцяти років тому, що означає, що тепер вже не так легко глянути на стилі волосся чи одягу та вгадати рік за цією візуальною ознакою.

Тривалий час було можливим датувати зображення та фільми на основі кольорової роздільності та характеристик зерна плівки. Не потрібно було бути фахівцем з судової експертизи; якщо ви дивилися достатньо старих фільмів, культурні ознаки (наприклад, музика, автомобілі, мода, теми тощо) врешті-решт асоціювалися з стилями плівки:

Ілюстрація того, як покращення плівки поступово розширили діапазон тонів шкіри та стилів освітлення з часом, рухаючись від плоских, фронтальних установок до більш натуралістичних та різноманітних виглядів. [ Джерело ] https://archive.is/3ZSjN (моя власна стаття)

Ілюстрація того, як покращення плівки поступово розширили діапазон тонів шкіри та стилів освітлення з часом, рухаючись від плоских, фронтальних установок до більш натуралістичних та різноманітних виглядів. Джерело (моя власна стаття)

Додатковим “якорем” для датування фотографії було те, чи була вона чорно-біла – економія, яка стала зайвою після популяризації цифрової фотографії на початку цього століття

Деякі комерційні та експериментальні системи, такі як MyHeritage PhotoDater, намагаються датувати фотографії, використовуючи ці та інші різні критерії.

Приклад оцінки віку фотографії з сервісу MyHeritage PhotoDater. Джерело [ https://www.youtube.com/watch?v=2oVyLI6tBcY ]

Приклад оцінки віку фотографії з сервісу MyHeritage PhotoDater. Джерело

Відсутність інших ознак, таких як смартфони чи інші технології, що характеризують епоху, найкращий спосіб визначення віку фотографії за останні 15-25 років полягає в тому, щоб бути знайомим з людиною (наприклад, знаменитістю або знайомим), і оцінити її вік, що дає приблизний еквівалентний рік.

Вік обличчя як посилання

У галузі комп’ютерного бачення та в різних інших галузях (наприклад, судової експертизи, обробки архівів, журналістики, архітектури наборів даних тощо) можливість визначення віку фотографії є цінною метою, оскільки багато з найбільш цікавих цифрових та аналогових колекцій не мають належної анотації та метаданих, або навіть мають неправильні метадані з попередніх (неправильних) оцінок.

Отже, було б корисно, якщо система штучної інтелекту могла б переглянути фотографії так само, як ми робимо, коли переглядаємо нашу історичну колекцію, і коментувати ‘О, так, це було тоді…’. Питання полягає в тому, що могло б бути гачком, якщо відсутні звичайні необхідні ознаки?

Нова наукова робота з Чехії пропонує початковий крок у цьому підході, використовуючи системи штучної інтелекту, засновані на визначенні віку та визначенні особи, пов’язані з спільною базою даних ідентифікаторів (у цьому випадку, колекцією чеських виконавців та кінематографістів):

Кадр з фільму “Joachim, Put It in the Machine” (1974), використаний для ілюстрації процесу датування. Модель визначає відомих осіб на фотографії, оцінює їх вік за допомогою оцінювача віку обличчя (права колонка), і віднімає цю оцінку від року народження кожної особи, щоб згенерувати ймовірнісний розподіл можливих дат фотографії. Графіки показують ймовірність кожної оцінки віку, з пунктирними лініями, що позначають справжній вік особи на момент фотографування. Джерело

Система працює шляхом визначення відомих осіб на фотографії, оцінювання їх віку обличчя за допомогою попередньо навченої моделі, і віднімання цієї оцінки від року народження особи, щоб згенерувати ймовірнісний розподіл можливих дат фотографії. Коли на фотографії присутні кілька осіб, оцінки дат об’єднуються, щоб отримати остаточну оцінку.

Метод був протестований на зображеннях, відібраних з Чехословацької кінобази даних (CSFD), і отриманий підхід, як стверджують автори, пропонує суттєво вищу точність, ніж моделі, засновані на сцені, які навчаються на тих самих даних.

Схема цього методу вимагає центральної бази даних, яка містить знання про велику групу осіб, у цьому випадку чеської кінобази даних; але будь-яка подібна колекція, яка містить підтверджені дати народження та центральні дати-події, могла б дати подібний результат.

У роботі зазначено:

‘Унікально, наша база даних містить анотації для декількох осіб у одному зображенні, що дозволяє вивчати агрегацію інформації з декількох осіб. Ми пропонуємо ймовірнісний каркас, який формально поєднує візуальні дані з сучасних моделей розпізнавання обличчя та оцінки віку, а також кар’єрні тимчасові апріорі, щоб вивести рік фотографування.

‘Наші експерименти показують, що агрегація даних з декількох осіб суттєво покращує результати, і підхід значно перевершує сильні базові моделі, засновані на сцені, особливо для зображень, що містять декілька ідентифікованих осіб.’

Нова робота називається Датування фотографій за допомогою агрегації віку обличчя, і походять від двох дослідників Чехословацького технічного університету в Празі, з обіцянкою подальшого випуску коду та даних.

Метод

Для оцінки року фотографії система авторів спочатку розглядає кожне виявлене обличчя та намагається вгадати, хто це може бути, використовуючи вищезгадану базу даних відомих осіб. Оскільки одна особа може з’явитися лише один раз на фотографії, система перевіряє всі можливі комбінації ідентифікаторів і використовує відомі роки народження, щоб вгадати, скільки років кожній особі.

Після цього система працює у зворотному напрямку, щоб оцінити найбільш ймовірний рік, який би відповідав цим вікам:

Ліворуч: система будує хронологію, показуючи, коли визнані особи були найбільш активні, на основі їхніх відомих кар'єр. Праворуч: це поєднується з оцінками віку обличчя, щоб отримати остаточну оцінку року фотографування.

Ліворуч: система будує хронологію, показуючи, коли визнані особи були найбільш активні, на основі їхніх відомих кар’єр. Праворуч: це поєднується з оцінками віку обличчя, щоб отримати остаточну оцінку року фотографування.

Для управління великою кількістю можливих комбінацій ідентифікаторів система припускає, що обличчя незалежні, і що кожне обличчя залежить лише від своєї ідентичності та дати фотографії.

Для оцінки року фотографії система спочатку оцінює вік кожного виявленого обличчя за допомогою моделі NIST cvut-002, яка заснована на архітектурі ViT-B/16 та навчена на приватному наборі даних (який, як стверджують автори, займає високе місце в базі даних NIST Face Analysis Technology Evaluation (FATE) бази даних).

Як тільки рік народження особи відомий, модель перетворює оцінку віку на ймовірний рік фотографії просто додавши вік до року народження, що дає ймовірнісний розподіл можливих років фотографування. Для оцінки того, наскільки добре виявлене обличчя відповідає відомій ідентичності, система порівнює їх ембеддинги у просторі ArcFace:

ArcFace, центральна архітектура для популярної моделі InsightFace, була запущена в 2015 році, і стала впливовим проєктом у сфері оцінки обличчя та його характеристики. [ Джерело ] https://arxiv.org/pdf/1801.07698

ArcFace, центральна архітектура для популярної моделі InsightFace, була запущена в 2015 році, і стала впливовим проєктом у сфері оцінки обличчя та його характеристики. Джерело

Кожна ідентичність представлена середнім ембеддингом, побудованим з її посилальних портретів. Схожість між тестовим обличчям та ідентичністю потім вимірюється за допомогою розподілу фон Мізеса-Фішера, який моделює, наскільки щільно портрети ідентичності згруповані навколо цього середнього значення. Загальний параметр різкості контролює, наскільки впевнено система у цих кластерах, і оцінюється за допомогою стратегії залишення одного зразка на портретах ідентичності.

Модель визначає п’ять типів апріорі для оцінки того, коли визнана особа може з’явитися на фотографії: уніформ; десятилітній; фільм; зображення; і комбінація апріорі, яка поєднує найсильніші та найслабші варіанти, щоб протестувати чутливість до сили апріорі (тобто стійкості апріорі під час стресу).

Для обробки обличчя, які не можуть бути впевнено ідентифіковані, модель включає запасний “невідомий” ідентифікатор з неінформативними розподілами, що містить ймовірність обличчя, пласку в просторі ембеддингів, і тимчасовий апріор, плаский по всіх роках. Це дозволяє не впевненим обличчям бути проігнорованими без зміщення остаточної оцінки дати:

Виступ системи у відкритих умовах, коли на одному зображенні присутні як відомі, так і невідомі обличчя. Середня абсолютна похибка (MAE) збільшується з кількістю невідомих ідентичностей, але постійно покращується з більшим числом відомих ідентичностей, доступних для якорування хронології. Розмір кожного квадрата вказує на кількість зразків, показуючи, що конфігурації з низькою похибкою також домінують у розподілі набору даних.

Як впливає кількість невідомих осіб на роботу системи. Кожний квадрат показує середню похибку датування для різних комбінацій відомих та невідомих ідентичностей, з розміром квадрата, що відображає, наскільки часто зустрічається ця комбінація в наборі даних. Похибка збільшується з більшим числом невідомих осіб, але знижується з більшим числом відомих ідентичностей.

Дані та тести

Автори використали вищезгадану базу даних CSFD для створення нового набору даних, який вони назвали CSFD-1.6M. Набір даних був побудований з сцен, що містять декілька осіб, з кожним обличчям, позначеним ідентичністю та роком. Ця структура була необхідна для навчання моделі, як обличчя пов’язані між собою в контексті; набори даних з одним обличчям, такі як IMDB-WIKI, не підтримують це, оскільки вони позначають лише одну особу на зображенні.

Роки випуску фільмів з Чехословацької кінобази даних були використані для оцінки того, коли була зроблена фотографія, з кожною особою в зображенні, зіставленою з публічним профілем, що містить рік народження, і портретом.

Після цього кожне обличчя в зображенні було зіставлено з однією з відомих ідентичностей, спочатку використовуючи ArcFace для створення ембеддингів обличчя, і обчислення середнього ембеддингу для кожної ідентичності.

Після цього алгоритм Гунгаря був використаний для призначення обличчя ідентичностям шляхом порівняння схожості ембеддингів, з коригуваннями, зробленими, коли кількість виявлених обличчя через фреймворк SCRFD-10GE не збігалася з кількістю відомих осіб.

Статистика з набору даних CSFD-1.6M, що містить інформацію про зібрані зображення, виявлені обличчя, зіставлені ідентичності, остаточні анотовані зразки та доступний пул ідентичностей.

Статистика з набору даних CSFD-1.6M, що містить інформацію про зібрані зображення, виявлені обличчя, зіставлені ідентичності, остаточні анотовані зразки та доступний пул ідентичностей.

Зіставлення були відхилені, якщо схожість була занадто низькою або якщо оцінка віку значно відрізнялася від відомого віку, з більшим терпимістю до старших осіб, і обличчя не фільтрувалися за якістю чи розміром.

Автори відзначають перевагу своєї кураторської колекції над найближчою порівнюваною базою даних, IMDB-WIKI:

‘Наша база даних не тільки суттєво більша, але й, що важливо, складається з сцен з декількома особами, необхідних для нашої моделі. Хоча жодна веб-скрапована база даних не є вільною від шуму в мітках, наш пайплайн анотації використовує явні посилання між зображеннями та профілями ідентичностей, надані базою даних, спрямовані на вищу якість завдань ідентичності.’

Їх оцінка порівнювала кілька версій системи датування, щоб зрозуміти, звідки походять її переваги. Одна модель припускала досконале знання про те, хто знаходиться на зображенні, забезпечуючи верхню межу продуктивності, видаливши будь-яку невизначеність у розпізнаванні ідентичності, з повною версією моделі, яка оцінювала ідентичності та дати спільно, зважуючи різні можливі завдання ідентичності перед тим, як прийти до остаточної оцінки року.

Простіша версія вибрала найімовірнішу конфігурацію ідентичності без маргіналізації альтернатив, що виявилося майже так само ефективним на практиці.

Натомість найбазовіша базова модель призначала кожному обличчю окремо і об’єднувала отримані оцінки віку, не беручи до уваги, чи колективно ці ідентичності мали сенс.

Для того, щоб протестувати, наскільки метод виграє від використання обличчя взагалі, окрема модель була навчена для оцінки дати безпосередньо із усього зображення. Ця модель, заснована на сцені, становить найсильніший альтернативний підхід, який зараз використовується для оцінки дати зображення, оскільки вона може вивчити епохо-специфічні візуальні закономірності по всьому зображенню, а не покладатися на ідентичність або вік.

Метрики та дані

Середня абсолютна похибка (MAE) між передбаченим роком і відомим фактом була центральною метрикою для експериментів.

Дані були розділені на п’ять частин, з піклуванням про те, щоб всі зображення з одного фільму зберігалися в одному розділі. Три частини були використані для навчання, одна для валідації, і одна для тестування. Цей п’ятикратний оберт був застосований для запобігання переобученню.

Оскільки моделі обличчя не були навчені на цьому наборі даних, розділення не було необхідним, і натомість вони були оцінені безпосередньо на повному наборі даних CSFD-1.6M.

Модель сцени була навчена протягом 200 епох під оптимізатором Adam, з зображеннями, зміненими до розміру 384×384 кадру.

Результати

Розділ результатів статті розділений незвично по декількох показниках продуктивності, без жодного видатного або центральної оцінки. Однак ми представимо вибір найістотніших результатів тут.

Найважливіший результат не є окремим числом, а закономірністю: моделі агрегації обличчя (особливо Повна та Топ-1 варіанти) постійно перевершують сильну базову модель сцени всякий раз, коли присутні дві або більше відомі ідентичності – навіть якщо модель сцени навчена безпосередньо на цьому наборі даних, підтримуючи центральну тезу, що ідентичність-зв’язана датування обличчя забезпечує більш надійний сигнал, ніж голістична інтерпретація сцени.

Для оцінки впливу тимчасових апріорі автори порівняли декілька конфігурацій своєї Повної моделі. Найкращу продуктивність було досягнуто за допомогою Десятилітнього апріорі, який суттєво перевершив як Наївну модель (яка не використовує тимчасових апріорі), так і Уніформний апріор (який припускає відсутність переваги років):

Похибка знижується різко для всіх методів, коли кількість обличчя збільшується, але моделі, що використовують реалістичні тимчасові апріорі, такі як Десятилітній апріор, суттєво менше постраждали. Базові моделі Naive та Scene залишаються пласкими або погіршуються з більшим числом осіб, тоді як Повна модель, керована інформативними апріорі, підтримує низьку похибку. Апріорі, засновані на статистиці тестового набору, визначають нижню межу досяжної продуктивності.

Похибка знижується різко для всіх методів, коли кількість обличчя збільшується, але моделі, що використовують реалістичні тимчасові апріорі, такі як Десятилітній апріор, суттєво менше постраждали. Базові моделі Naive та Scene залишаються пласкими або погіршуються з більшим числом осіб, тоді як Повна модель, керована інформативними апріорі, підтримує низьку похибку. Апріорі, засновані на статистиці тестового набору, визначають нижню межу досяжної продуктивності.

Для демонстрації цінності набору даних CSFD-1.6M за межами датування фотографій, набір даних також був протестований як ресурс попереднього навчання для більш широкої задачі оцінки віку обличчя. За стандартним протоколом оцінки, моделі ResNet101 були попередньо навчені на CSFD-1.6M, і порівняні з аналогами, попередньо навченими на IMDB-WIKI та ImageNet. Ці моделі були потім донастроювали та оцінені на п’яти популярних бенчмарках: AgeDB; AFAD, MORPH; UTKFace; і CLAP2016:

Середня абсолютна похибка (плюс/мінус стандартне відхилення) на п'яти бенчмарках оцінки віку, порівнюючи моделі, попередньо навчені на ImageNet, IMDB-WIKI та CSFD-1.6M. Нижчі значення вказують на кращу продуктивність. CSFD-1.6M дає найкращі результати на всіх бенчмарках.

Середня абсолютна похибка (плюс/мінус стандартне відхилення) на п’яти бенчмарках оцінки віку, порівнюючи моделі, попередньо навчені на ImageNet, IMDB-WIKI та CSFD-1.6M. Нижчі значення вказують на кращу продуктивність. CSFD-1.6M дає найкращі результати на всіх бенчмарках.

На всіх п’яти наборах даних попереднє навчання на CSFD-1.6M призвело до найнижчих показників похибки, перевершуючи інші два джерела попереднього навчання на явній межі – розрив у продуктивності, який виявився найсильнішим на AFAD і CLAP2016, але залишався послідовним по всьому діапазону.

Ми звертаємося до читача до решти досить фрагментованого розділу результатів у джерельній роботі, який також детально описує дослідження видалення.

Висновок

Хоча нова робота швидко стає густою та недоступною для звичайного читача, тема, яку вона розглядає, є однією з найбільш цікавих та актуальних у літературі з комп’ютерного бачення – не в останню чергу тому, що вона органічно переходить у галузі антропології та культурних досліджень, де константи важко визначити.

 

* Так само, як і музична еволюція також знизила свою швидкість зміни.

Перша публікація понеділка, 10 листопада 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]