Взгляд Anderson

“Деградированные” Синтетические Лица Могут Помочь Улучшить Распознавание Лица

Опубликовано 1 августа 2022

Обновлено 23 мая 2026

Martin Anderson

Исследователи из Университета штата Мичиган разработали способ, позволяющий синтетическим лицам сделать перерыв в сцене глубоких подделок и принести пользу обществу, помогая системам распознавания изображений стать более точными.

Новый модуль контrollable face synthesis (CFSM), который они разработали, способен регенерировать лица в стиле реальных видеозаписей с систем видеонаблюдения, а не полагаться на высококачественные изображения, используемые в популярных открытых наборах данных знаменитостей, которые не отражают все недостатки и ограничения настоящих систем видеонаблюдения, такие как размытие лица, низкое разрешение и шум датчика – факторы, которые могут повлиять на точность распознавания.

Концептуальная архитектура модуля контrollable face synthesis (CFSM). Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

CFSM не предназначен специально для аутентичного симулирования поз, выражений или других обычных черт, которые являются целью систем глубоких подделок, а скорее для генерации диапазона альтернативных видов в стиле целевой системы распознавания, используя style transfer.

Система разработана для имитации стиля целевой системы и адаптировать свой вывод в соответствии с разрешением и диапазоном “эксцентричностей” в ней. Использование системы включает устаревшие системы, которые вряд ли будут обновлены из-за стоимости, но которые в настоящее время могут внести небольшой вклад в новое поколение технологий распознавания лица, из-за плохого качества вывода, который когда-то был передовым.

Тестирование системы показало, что она достигла заметных успехов в системах распознавания изображений, которые имеют дело с таким шумным и низкокачественным данным.

Обучение моделей распознавания лица адаптироваться к ограничениям целевой системы. Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Кроме того, они обнаружили полезный побочный продукт процесса – что целевые наборы данных теперь можно охарактеризовать и сравнить друг с другом, что делает сравнение, бенчмаркинг и генерацию индивидуальных наборов данных для различных систем видеонаблюдения проще в будущем.

Более того, метод можно применить к существующим наборам данных, выполняя де-факто адаптацию домена и делая их более подходящими для систем распознавания лица.

Новая статья озаглавлена Контролируемый и направленный синтез лица для неограниченного распознавания лица, поддерживается частично Управлением директора национальной разведки США (ODNI, в IARPA) и исходит от четырех исследователей отделения компьютерных наук и инженерии в MSU.

Известный Контент

Распознавание лица низкого качества (LQFR) стало заметной областью изучения за последние несколько лет. Поскольку гражданские и муниципальные власти построили системы видеонаблюдения, чтобы они были устойчивыми и долговечными (не желая перераспределять ресурсы на эту проблему периодически), многие “устаревшие” системы видеонаблюдения стали жертвами технического долга, в плане их адаптируемости в качестве источников данных для машинного обучения.

Различные уровни разрешения лица на различных исторических и более поздних системах видеонаблюдения. Источник: https://arxiv.org/pdf/1805.11519.pdf

К счастью, это задача, которую модели диффузии и другие модели, основанные на шуме, необычно хорошо приспособлены решить. Многие из наиболее популярных и эффективных систем синтеза изображений в последние годы выполняют апскейлинг изображений низкого разрешения в качестве части своего конвейера, в то время как это также абсолютно необходимо для техник нейронной компрессии (методов сохранения изображений и фильмов в виде нейронных данных вместо битмап-данных).

Частью проблемы распознавания лица является получение максимально возможной точности из минимального количества фич, которые можно извлечь из наименьших и наименее перспективных изображений низкого разрешения. Это ограничение существует не только потому, что полезно иметь возможность идентифицировать (или создавать) лицо на низком разрешении, но и из-за технических ограничений на размер изображений, которые могут пройти через возникающее латентное пространство модели, обучаемой в любом VRAM, доступном на локальном GPU.

В этом смысле термин “фичи” запутан, поскольку такие фичи также могут быть получены из набора данных скамеек. В секторе компьютерного зрения “фичи” относится к характерным особенностям, полученным из изображений – любых изображений, будь то контуры церкви, горы или расположение лицевых фич в наборе данных лиц.

Поскольку алгоритмы компьютерного зрения теперь способны увеличивать изображения и видеозаписи, были предложены различные методы для “улучшения” изображений низкого разрешения или других ухудшенных материалов видеонаблюдения, чтобы они могли быть использованы для правовых целей, таких как определение местонахождения человека в месте преступления.

Помимо возможности неправильной идентификации, которая периодически привлекала внимание, в теории не должно быть необходимости гипер-разрешать или преобразовывать изображения низкого разрешения, чтобы сделать положительную идентификацию человека, поскольку система распознавания лица, фокусирующаяся на низкоуровневых фичах, не должна требовать такого уровня разрешения и четкости. Кроме того, такие преобразования дороги на практике и вызывают дополнительные, повторяющиеся вопросы о их потенциальной действительности и законности.

Необходимость Более “Упадочных” Знаменитостей

Было бы более полезно, если система распознавания лица могла бы извлечь фичи (т. е. фичи машинного обучения человеческих фич) из вывода устаревших систем, как они есть, понимая лучше отношение между “высоким разрешением” идентичностью и ухудшенными изображениями, доступными в неизменных (и часто неразменных) существующих рамках видеонаблюдения.

Проблема заключается в стандартах: общие веб-набранные наборы данных, такие как MS-Celeb-1M и WebFace260M (среди нескольких других), были захвачены исследовательским сообществом, потому что они предоставляют последовательные бенчмарки, против которых исследователи могут измерить свой прогресс против текущего состояния искусства.

Примеры из популярного набора данных MS-Celeb1m от Microsoft. Источник: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Однако авторы утверждают, что алгоритмы распознавания лица (FR), обученные на этих наборах данных, не подходят для визуальных “доменов” вывода многих старых систем видеонаблюдения.

Статья гласит*:

‘[Состояние искусства] (SoTA) модели FR не работают хорошо на реальных изображениях видеонаблюдения (неограниченных) из-за проблемы доменного сдвига, т. е. крупномасштабные обучающие наборы данных (полуограниченные), полученные путем веб-ползания знаменитых лиц, не имеют вариаций в дикой природе, таких как врожденный шум датчика, низкое разрешение, размытие движения, эффект турбулентности и т. д.

‘Например, точность верификации 1:1, сообщенная одной из SoTA-моделей на неограниченном наборе данных IJB-S, составляет примерно 30% ниже, чем на полуограниченном LFW.

‘Потенциальное средство против такого разрыва в производительности является сбор крупномасштабного неограниченного набора данных лиц. Однако, сбор такого обучающего набора данных с десятками тысяч объектов является чрезвычайно трудным из-за высокой ручной стоимости маркировки.’

Статья описывает различные предыдущие методы, которые пытались “сопоставить” различные типы вывода из исторических или низкобюджетных систем видеонаблюдения, но отмечает, что эти методы занимались “слепыми” дополнениями. Напротив, CFSM получает прямую обратную связь от реального вывода целевой системы во время обучения и адаптируется к ней посредством стиля передачи, чтобы имитировать этот домен.

Актриса Натали Портман, не чуждающаяся горстке наборов данных, которые доминируют в сообществе компьютерного зрения, фигурирует среди идентификаторов в этом примере CFSM, выполняющем стиль-совпадающую адаптацию домена на основе обратной связи от домена фактической целевой модели.

Архитектура, разработанная авторами, использует Fast Gradient Sign Method (FGSM) для индивидуации и “импорта” полученных стилей и характеристик из фактического вывода целевой системы. Часть конвейера, посвященная генерации изображений, будет улучшаться и становиться более верной целевой системе с обучением. Эта обратная связь от низкоразмерного стиля целевой системы является низкоуровневой по своей природе и соответствует наиболее широким полученным визуальным дескрипторам.

Авторы комментируют:

‘С обратной связью от модели FR, синтезированные изображения более полезны для производительности FR, что приводит к значительно улучшенным возможностям обобщения моделей FR, обученных с ними.’

Тесты

Исследователи использовали предыдущую работу MSU в качестве шаблона для тестирования своей системы. На основе тех же экспериментальных протоколов они использовали MS-Celeb-1m, который состоит исключительно из фотографий знаменитостей, собранных из веб-ресурсов, в качестве помеченного обучающего набора данных. Для справедливости они также включили MS1M-V2, который содержит 3,9 миллиона изображений, представляющих 85 700 классов.

Целевые данные были набор данных WiderFace из Гонконгского университета. Это особенно разнообразный набор изображений, предназначенный для задач распознавания лица в сложных ситуациях. 70 000 изображений из этого набора были использованы.

Для оценки система была протестирована на четырех бенчмарках распознавания лица: IJB-B, IJB-C, IJB-S и TinyFace.

CFSM был обучен с ∼10% обучающих данных из MS-Celeb-1m, около 0,4 миллиона изображений, за 125 000 итераций с размером пакета 32 под оптимизатором Adam при очень низкой скорости обучения 1e-4.

Целевая модель распознавания лица использовала модификацию ResNet-50 в качестве основы, с функцией потерь ArcFace, включенной во время обучения. Кроме того, была обучена модель с CFSM в качестве абляции и сравнительного упражнения (обозначенной как “ArcFace” в таблице результатов ниже).

Результаты основного теста CFSM. Более высокие числа лучше.

Авторы комментируют основные результаты:

‘Модель ArcFace превосходит все базовые модели как в задачах идентификации лица, так и в задачах верификации, и достигает нового состояния искусства.’

Способность извлекать домены из различных характеристик устаревших или низкобюджетных систем видеонаблюдения также позволяет авторам сравнивать и оценивать сходство распределения среди этих систем и представлять каждую систему в терминах визуального стиля, который можно использовать в последующей работе.

Примеры из различных наборов данных демонстрируют явные различия в стиле.

Авторы отмечают, что их система может с пользой использовать некоторые технологии, которые до сих пор рассматривались исключительно как проблемы, подлежащие решению исследовательским и видением сообществом:

‘[CFSM] показывает, что манипуляция противником может выйти за рамки атаки и увеличить точность распознавания в задачах компьютерного зрения. Тем временем, мы определяем метрику сходства набора данных на основе полученных стилевых основ, которые захватывают стиль различий в метке или предикторе-агностическом виде.’

‘Мы считаем, что наша исследование продемонстрировало силу контролируемой и направленной модели синтеза лица для неограниченного распознавания лица и обеспечило понимание различий наборов данных.’

* Мое преобразование внутренних цитат авторов в гиперссылки.

Опубликовано впервые 1 августа 2022 года.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

“Деградированные” Синтетические Лица Могут Помочь Улучшить Распознавание Лица

Известный Контент

Необходимость Более “Упадочных” Знаменитостей

Тесты

You may like