Искусственный интеллект
Определение глубоких подделок знаменитостей по внешним областям лица

Новое сотрудничество между Microsoft и китайским университетом предложило новый способ определения глубоких подделок знаменитостей, используя ограничения текущих методов создания глубоких подделок для распознавания личностей, которые были “проектированы” на других людях.
Подход называется Преобразователь согласованности идентичности (ICT), и работает путем сравнения внешних частей лица (челюсти, скуловых костей, линии волос и других внешних линейных особенностей) с внутренней частью лица. Система использует общие доступные публичные изображения знаменитых людей, что ограничивает ее эффективность популярными знаменитостями, чьи изображения доступны в большом количестве в широко доступных наборах данных компьютерного зрения и в Интернете.

Покрытие подделок лиц через семь методов: DeepFake в FF+; DeepFake в Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; и DF-VAE. Популярные пакеты, такие как DeepFaceLab и FaceSwap, обеспечивают аналогичное ограниченное покрытие. Источник: https://arxiv.org/pdf/2203.01318.pdf
Как иллюстрирует изображение выше, текущие популярные методы создания глубоких подделок довольно ограничены ресурсами и полагаются на подходящие “хост-лица” (изображение или видео человека, которому будет заменена идентичность глубокой подделки), чтобы минимизировать доказательства замены лица.
Хотя различные методы могут охватывать всю лобную часть и большую часть подбородка и скуловых костей, все они более или менее ограничены внутри рамки хост-лица.

Карта салIENCE, подчеркивающая ‘внутренние’ и ‘внешние’ идентичности, рассчитанные ICT. Где внутреннее совпадение лица установлено, но внешняя идентичность не соответствует, ICT оценивает изображение как ложное.
В тестах ICT смог обнаружить контент глубоких подделок в фальшивых средах, таких как видео низкого разрешения, где содержание всего видео ухудшается артефактами сжатия, что помогает скрыть остаточные доказательства процесса создания глубоких подделок – обстоятельство, которое сбивает с толку многие конкурирующие методы обнаружения глубоких подделок.

ICT превосходит конкурентов в распознавании контента глубоких подделок. Смотрите встроенное видео в конце статьи для более примеров и лучшего разрешения. Смотрите встроенное источниковое видео в конце статьи для дальнейших примеров. Источник: https://www.youtube.com/watch?v=zgF50dcymj8
Статья называется Защита знаменитостей с помощью Преобразователя согласованности идентичности, и исходит от девяти исследователей, аффилированных с Университетом науки и технологий Китая, Microsoft Research Asia и Microsoft Cloud + AI.
Пробел достоверности
Существует хотя бы пара причин, почему популярные алгоритмы замены лиц, такие как DeepFaceLab и FaceSwap, пренебрегают внешней областью заменяемых лиц.
Во-первых, обучение моделей глубоких подделок занимает много времени и критически зависит от ресурсов, и принятие “совместимых” хост-лиц/тел освобождает циклы GPU и эпохи, чтобы сосредоточиться на относительно неизменных внутренних областях лица, которые мы используем для различия идентичности (поскольку переменные, такие как колебания веса и старение, наименее вероятно изменят эти основные черты лица в краткосрочной перспективе).
Во-вторых, большинство методов создания глубоких подделок (и это определенно так с DeepFaceLab, программным обеспечением, используемым наиболее популярными или печально известными практиками) имеют ограниченную возможность реплицировать “конец лица” границы, такие как области скуловых костей и челюсти, и ограничены тем, что их апстрим-код ( 2017 ) не обширно решал эту проблему.
В случаях, когда идентичности не соответствуют хорошо, алгоритм глубокой подделки должен “закрасить” фоновые области вокруг лица, что он делает неуклюже, даже в руках лучших создателей глубоких подделок, таких как Ctrl Shift Face, чей вывод использовался в исследованиях статьи.

Лучшее из лучшего: кадры из видео глубокой подделки от известного создателя глубоких подделок Ctrl-Shift-Face, заменяющего Джима Керри на Гэри Олдмана. Эта работа, безусловно, представляет собой один из лучших результатов, в настоящее время доступных через DeepFaceLab и методы постобработки. Тем не менее, замены остаются ограниченными относительно скудным вниманием, которое DFL уделяет внешней части лица, требующей геркулесовских усилий по сбору и обучению данных для решения внешних линейных особенностей. Источник: https://www.youtube.com/watch?v=x8igrh1eyLk
Это “покрытие” или отвлечение внимания в значительной степени избегает общественного внимания в текущей обеспокоенности по поводу растущей реализма глубоких подделок, потому что наши критические способности вокруг глубоких подделок все еще развиваются за пределами “шокового и удивительного” этапа.
Разделенные идентичности
Новая статья отмечает, что большинство предыдущих методов обнаружения глубоких подделок полагаются на артефакты, которые выдают процесс замены, такие как несовместимые положения головы и моргание, среди многих других методов. Только на прошлой неделе другая новая статья об обнаружении глубоких подделок предложила использовать “подпись” различных типов моделей в рамках FaceSwap, чтобы помочь определить поддельное видео, созданное с его помощью (см. изображение ниже).

Определение глубоких подделок путем характеризации подписей различных типов моделей в рамках FaceSwap. Источник: https://arxiv.org/pdf/2202.12951.pdf
Напротив, архитектура ICT создает две отдельные вложенные идентичности для человека, каждая из которых должна быть проверена перед тем, как вся идентичность будет признана “истинной” видео или изображением.

Архитектура для фаз обучения и тестирования ICT.
Разделение идентичностей облегчается преобразователем зрения, который выполняет распознавание лиц перед разделением обследованных регионов на токены, принадлежащие внутренним или внешним идентичностям.

Распределение патчей среди двух параллельных идентификаторов.
Статья гласит:
‘К сожалению, существующие методы проверки лица склонны характеризовать наиболее дискриминационную область, т. е. внутреннюю часть лица для верификации, и не могут захватить информацию об идентичности во внешней части лица. С помощью Преобразователя согласованности идентичности мы обучаем модель для изучения пары векторов идентичности, одного для внутренней части лица и другого для внешней части лица, проектируя Преобразователь таким образом, чтобы внутренние и внешние идентичности могли быть изучены одновременно в безшовно объединенной модели.’
Поскольку не существует существующей модели для этого протокола идентификации, авторы разработали новый вид потерь согласованности, который может служить метрикой для подлинности. Результатом являются “внутренний токен” и “внешний токен” из модели извлечения идентичности, добавленные к более традиционным патч-эмбеддингам, производимым фреймворками распознавания лиц.
Данные и обучение
Сеть ICT была обучена на наборе данных Microsoft Research MS-Celeb-1M, который содержит 10 миллионов изображений знаменитых лиц, покрывающих один миллион идентичностей, включая актеров, политиков и многие другие типы известных фигур. Согласно процедуре предыдущего метода Face X-ray (другой инициативе Microsoft Research), ICT создает свою собственную процедуру генерации подделок, меняя внутренние и внешние области лиц, взятых из этого набора данных, чтобы создать материал для тестирования алгоритма.
Для выполнения этих внутренних замен ICT определяет два изображения в наборе данных, которые демонстрируют подобные положения головы и ориентиры лица, генерирует область маски центральных особенностей (в которую можно выполнить замену), и выполняет замену глубокой подделки с коррекцией цвета RGB.
Причина, по которой ICT ограничен идентификацией знаменитостей, заключается в том, что он полагается (в своей наиболее эффективной вариации) на новый набор ссылок, который включает в себя полученные векторы лица из центрального корпуса (в данном случае MS-Celeb-1M, хотя ссылка могла быть расширена до сетевых изображений, которые, вероятно, существуют в достаточном качестве и количестве только для хорошо известных публичных фигур).
Эти полученные пары векторов действуют как токены подлинности для проверки внутренних и внешних областей лица одновременно.
Авторы отмечают, что токены, полученные из этих методов, представляют собой “высокоуровневые” особенности, в результате чего процесс обнаружения глубоких подделок более вероятно выживет в сложных средах, таких как видео низкого разрешения или другие ухудшенные видео.
Критически, ICT не ищет доказательства, основанные на артефактах, а скорее фокусируется на методах верификации идентичности, более соответствующих методам распознавания лиц – подход, который трудно реализовать с низким объемом данных, как в случае расследования инцидентов глубоких подделок мести против не знаменитых целей.
Тесты
Обученный на MS-Celeb-1M, ICT был затем разделен на версии алгоритма с помощью ссылок и “слепые” версии, и протестирован против ряда конкурирующих наборов данных и методов. Это включало FaceForensics++ (FF++), набор из 1000 аутентичных и глубоких подделок видео, созданных через четыре метода, включая Face2Face и FaceSwap; Google’s Обнаружение глубоких подделок (DFD), также состоящий из тысяч видео глубоких подделок, сгенерированных Google; Celeb-DeepFake v1 (CD1), который включает 408 реальных и 795 синтезированных, низко-артефактных видео; Celeb-DeepFake v2, расширение V1, содержащее 590 реальных и 5 639 фальшивых видео; и китайский Deeper-Forensics (Deeper) 2020 года.
Это наборы данных; методы обнаружения в тестовых задачах были Мультитаск, MesoInc4, Капсула, Xception-c0, c2 (метод, используемый в FF++), FWA/DSP-FW из Университета в Олбани, Двухветвевой, PCL+I2G, и метод контекстного несоответствия Юваля Ниркина.
Упомянутые методы обнаружения направлены на обнаружение определенных типов манипуляций с лицом. Кроме того, авторы статьи протестировали более общие методы обнаружения глубоких подделок Face X-ray, FFD Университета штата Мичиган, CNNDetection и Patch-Forensics из MIT CSAIL.
Наиболее очевидные результаты из теста заключаются в том, что конкурирующие методы резко снижают свою эффективность по мере снижения разрешения и качества видео. Поскольку некоторые из наиболее серьезных потенциальных последствий проникновения глубоких подделок в наши дискриминационные силы (не в последнюю очередь в настоящее время) лежат (не в последнюю очередь) в не-HD или других ухудшенных видео, это, кажется, значительный результат.

В графике результатов выше синие и красные линии указывают на устойчивость методов ICT к ухудшению изображения во всех областях, кроме препятствия гауссовского шума (не вероятность в видео Zoom и веб-камеры), в то время как надежность конкурирующих методов резко падает.
В таблице результатов ниже мы видим эффективность различных методов обнаружения глубоких подделок на не виденных наборах данных. Серые и помеченные результаты указывают на сравнение с исходно опубликованными результатами в закрытых проектах, которые не могут быть внешне проверены. На протяжении почти всех сравнимых фреймворков ICT превосходит конкурирующие подходы к обнаружению глубоких подделок (показаны жирным шрифтом) на протестированных наборах данных.

Как дополнительный тест, авторы запустили контент из канала YouTube известного создателя глубоких подделок Ctrl Shift Face и обнаружили, что конкурирующие методы достигли заметно худших баллов идентификации:

Заметно, что методы FF++ (Xception-c23) и FFD, которые достигают некоторых из высших баллов на некоторых тестовых данных в общих тестах новой статьи, здесь достигают намного более низкого балла, чем ICT в “реальном мире” контексте контента глубоких подделок высокого качества.
Авторы заключают статью с надеждой, что ее результаты направят сообщество обнаружения глубоких подделок к аналогичным инициативам, которые фокусируются на более легко обобщаемых высокоуровневых особенностях, и подальше от “холодной войны” обнаружения артефактов, в которой последние методы регулярно обходятся разработками в фреймворках глубоких подделок или другими факторами, которые делают такие методы менее устойчивыми.
Смотрите сопровождающее видео ниже для более примеров ICT, выявляющего контент глубоких подделок, который часто обманывает альтернативные методы.
Опубликовано впервые 4 марта 2022 года.










