Искусственный интеллект

Глубокие подделки могут эффективно обманывать многие основные API “живости” лица

Published February 23, 2022

Updated April 28, 2026

Martin Anderson

From DeepFace Live - Arnold Schwarzenegger 224 3.03M Iterations | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

Новое исследовательское сотрудничество между США и Китаем изучило уязвимость некоторых из крупнейших систем аутентификации на основе лица в мире к глубоким подделкам и обнаружило, что большинство из них уязвимо к разработке и появлению форм атак глубоких подделок.

Исследование провело глубокие подделки на основе проникновения с помощью пользовательской структуры, развернутой против систем проверки живости лица (FLV), которые обычно поставляются крупными поставщиками и продаются в качестве услуги дочерним клиентам, таким как авиакомпании и страховые компании.

Из статьи, обзор функционирования API проверки живости лица (FLV) у крупных поставщиков. Источник: https://arxiv.org/pdf/2202.10673.pdf

Живость лица предназначена для отражения использования таких методов, как атаки на изображения, использование масок и предзаписанного видео, так называемых “мастерских лиц” и других форм визуального клонирования идентификаторов.

Исследование заключает, что ограниченное количество модулей обнаружения глубоких подделок, развернутых в этих системах, многие из которых обслуживают миллионы клиентов, далеки от неуязвимых и могут быть сконфигурированы на методах глубоких подделок, которые сейчас устарели или могут быть слишком архитектурно-специфичными.

Авторы отмечают:

‘[Различные] методы глубоких подделок также показывают вариации у разных поставщиков… Без доступа к техническим деталям целевых поставщиков FLV, мы предполагаем, что такие вариации обусловлены мерами защиты, развернутыми разными поставщиками. Например, некоторые поставщики могут развернуть защиту против конкретных атак глубоких подделок.’

И продолжают:

‘[Большинство] API FLV не используют обнаружение глубоких подделок; даже для тех, у которых есть такие защиты, их эффективность вызывает беспокойство (например, они могут обнаружить высококачественные синтезированные видео, но не могут обнаружить видео низкого качества).’

Исследователи наблюдают, в этом отношении, что ‘аутентичность’ относительна:

‘[Даже] если синтезированное видео не реально для людей, оно все равно может обойти текущий механизм обнаружения глубоких подделок с очень высокой скоростью успеха.’

Выше, образцы глубоких подделок, которые смогли аутентифицироваться в экспериментах авторов. Ниже, видимо, более реалистичные фальшивые изображения, которые не прошли аутентификацию.

Другим открытием было то, что текущая конфигурация общих систем верификации лица предвзята в сторону белых мужчин. Следовательно, женщины и не-белые идентификаторы были обнаружены более эффективными в обходе систем верификации, подвергая клиентов в этих категориях большему риску нарушения через методы, основанные на глубоких подделках.

Отчет обнаруживает, что белые мужские идентификаторы наиболее тщательно и точно оцениваются популярными API проверки живости лица. В таблице выше мы видим, что женские и не-белые идентификаторы могут быть более легко использованы для обхода систем.

Статья отмечает, что ‘существуют предвзятости в [проверке живости лица], которые могут принести значительные риски безопасности для определенной группы людей.’

Авторы также провели этические атаки на аутентификацию лица против китайского правительства, крупной китайской авиакомпании, одной из крупнейших страховых компаний в Китае и R360, одной из крупнейших инвестиционных групп в мире, и сообщают об успехе в обходе аутентификации этих организаций.

В случае успешной аутентификации для китайской авиакомпании, дочерний API требовал от пользователя ‘покачать головой’ как доказательство против потенциального материала глубоких подделок, но это не сработало против структуры, разработанной исследователями, которая включает шесть архитектур глубоких подделок.

Несмотря на оценку авиакомпанией покачивания головы пользователя, контент глубоких подделок смог пройти тест.

Статья отмечает, что авторы связались с поставщиками, которые якобы признали работу.

Авторы предлагают ряд рекомендаций для улучшения текущего состояния искусства в FLV, включая отказ от аутентификации на основе одного изображения (‘Image-based FLV’), где аутентификация основана на одном кадре из видеопотока клиента; более гибкое и комплексное обновление систем обнаружения глубоких подделок в области изображений и голоса; введение необходимости синхронизации голосовой аутентификации в видео с движениями губ (что сейчас не так, в общем); и требование от пользователей выполнения жестов и движений, которые в настоящее время трудно воспроизвести системам глубоких подделок (например, профильные виды и частичное затенение лица).

Статья называется Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era, и исходит от совместных ведущих авторов Changjiang Li и Li Wang, и пяти других авторов из Университета штата Пенсильвания, Университета Чжэцзяна и Университета Шаньдуна.

Основные цели

Исследователи нацелились на ‘шесть наиболее представительных’ поставщиков проверки живости лица (FLV), которые были анонимизированы с помощью криптонимов в исследовании.

Поставщики представлены следующим образом: ‘BD’ и ‘TC’ представляют конгломерат-поставщика с наибольшим количеством вызовов API, связанных с лицом, и самой большой долей китайских облачных услуг ИИ; ‘HW’ – ‘один из поставщиков с крупнейшим китайским рынком публичного облака’; ‘CW’ имеет самый высокий темп роста в области компьютерного зрения и занимает лидирующую рыночную позицию; ‘ST’ – один из крупнейших поставщиков компьютерного зрения; и ‘iFT’ входит в число крупнейших поставщиков программного обеспечения ИИ в Китае.

Данные и архитектура

Основные данные, которые обеспечивают проект, включают набор данных из 625 537 изображений из китайской инициативы CelebA-Spoof, вместе с видео в реальном времени из набора данных SiW-M Университета штата Мичиган 2019 года.

Все эксперименты проводились на сервере с двумя процессорами 2,40 ГГц Intel Xeon E5-2640 v4, работающими на 256 ГБ ОЗУ с 4ТБ HDD и четырьмя оркестровыми 1080Ti NVIDIA GPU, всего 44 ГБ оперативной VRAM.

Шесть в одном

Структура, разработанная авторами статьи, называется LiveBugger, и включает шесть современных архитектур глубоких подделок, направленных против четырех основных защит в системах FLV.

LiveBugger содержит различные подходы к глубоким подделкам и центрируется на четырех основных векторах атак в системах FLV.

Шесть архитектур глубоких подделок, использованных в исследовании, включают: X2Face Оксфордского университета 2018 года; американское академическое сотрудничество ICface; две вариации израильского проекта 2019 года FSGAN; итальянскую Модель метода первого порядка (FOMM), из начала 2020 года; и сотрудничество Пекинского университета и Microsoft Research FaceShifter (хотя FaceShifter не является открытым исходным кодом, авторы должны были реконструировать его на основе опубликованных архитектурных деталей).

Методы, использованные в этих структурах, включали использование предварительно отрендеренного видео, в котором объекты фальшивого видео выполняют рутинные действия, которые были извлечены из требований аутентификации API в более ранней оценочной модули LiveBugger, и также использование эффективной ‘кукольной’ глубокой подделки, которая переводит живые движения человека в поток глубоких подделок, который был вставлен в захваченный поток веб-камеры.

Примером этого является DeepFaceLive, который дебютировал прошлым летом как приложение к популярному DeepFaceLab, для включения потоковой передачи глубоких подделок в реальном времени, но который не включен в исследование авторов.

Атака на четыре вектора

Четыре вектора атак в типичной системе FLV включают: аутентификацию на основе изображения, которая использует одно пользовательское фото в качестве токена аутентификации против идентификатора лица, который находится в системе; тишину на основе FLV, которая требует от пользователя загрузить видеоклип себя; действие на основе FLV, которое требует от пользователя выполнить действия, указанные платформой; и голосовую FLV, которая соответствует речи пользователя с базой данных системы для речевого шаблона пользователя.

Первым вызовом для системы является определение степени, в которой API будет раскрывать свои требования, поскольку они могут быть предвидены и удовлетворены в процессе глубоких подделок. Это обрабатывается Интеллектуальным двигателем в LiveBugger, который собирает информацию о требованиях из публично доступной документации API и других источников.

Поскольку опубликованные требования могут быть отсутствовать (по различным причинам) из фактических процедур API, Интеллектуальный двигатель включает зонд, который собирает неявную информацию на основе результатов разведывательных вызовов API. В проекте исследования это было облегчено официальными автономными ‘тестовыми’ API, предоставленными для пользы разработчиков, и также добровольцами, которые предложили использовать свои собственные живые учетные записи для тестирования.

Интеллектуальный двигатель ищет доказательства того, что API в настоящее время использует определенный подход, который может быть полезен в атаках. Особенности этого типа могут включать обнаружение связности, которое проверяет, являются ли кадры в видео временно непрерывными – требование, которое может быть установлено путем отправки перемешанных кадров видео и наблюдения за тем, способствует ли это неудаче аутентификации.

Модуль также ищет обнаружение языка губ, где API может проверить, синхронизирован ли звук в видео с движениями губ пользователя (редко бывает – см. ‘Результаты’ ниже).

Результаты

Авторы обнаружили, что все шесть оцененных API не используют обнаружение связности на момент экспериментов, что позволяет двигателю глубоких подделок в LiveBugger просто склеить синтезированный аудио с видео глубоких подделок, основанный на материалах, предоставленных добровольцами.

Однако некоторые дочерние приложения (т.е. клиенты фреймворков API) были обнаружены с добавлением обнаружения связности в процесс, что требует предварительной записи видео, адаптированного для обхода этого.

Кроме того, только несколько поставщиков API используют обнаружение языка губ; для большинства из них видео и аудио анализируются как отдельные величины, и нет функциональности, которая попытается соответствовать движениям губ предоставленному аудио.

Разнообразные результаты, охватывающие диапазон фальшивых методов, доступных в LiveBugger, против различных массивов векторов атак в API FLV. Более высокие числа указывают на более высокую скорость успеха в проникновении FLV с помощью методов глубоких подделок. Не все API включают все возможные защиты для FLV; например, несколько из них не предлагают никакой защиты против глубоких подделок, в то время как другие не проверяют, соответствуют ли движения губ и аудио в видео, представленном пользователем во время аутентификации.

Заключение

Результаты и указания статьи для будущего FLV API лабиринтны, и авторы объединили их в функциональную ‘архитектуру уязвимостей’, которая могла бы помочь разработчикам FLV лучше понять некоторые из проблем, обнаруженных в исследовании.

Сеть рекомендаций статьи по существующей и потенциальной уязвимости процедур видеоидентификации лица к атакам глубоких подделок.

Рекомендации отмечают:

‘Безопасные риски FLV широко существуют во многих реальных приложениях и, таким образом, угрожают безопасности миллионов конечных пользователей.’

Авторы также наблюдают, что использование аутентификации на основе действий является ‘незначительным’, и что увеличение количества действий, которые пользователи должны выполнить, ‘не может принести никакой безопасной выгоды’.

Далее, авторы отмечают, что сочетание голосового распознавания и временного распознавания лица (в видео) является бесполезной защитой, если только поставщики API не начнут требовать, чтобы движения губ были синхронизированы с аудио.

Статья появляется в свете недавнего предупреждения ФБР бизнесу о опасности мошенничества с глубокими подделками, почти через год после их предупреждения о использовании технологии в иностранных операциях по влиянию, и общих страхов, что живая технология глубоких подделок облегчит новую волну преступлений против публики, которая все еще доверяет архитектурам безопасности видеоаутентификации.

Это еще ранние дни глубоких подделок как поверхности атаки на аутентификацию; в 2020 году $35 миллионов долларов было мошеннически извлечено из банка в ОАЭ с помощью технологии глубоких подделок аудио, и британский исполнитель также был обманут на $243 000 в 2019 году.

Опубликовано впервые 23 февраля 2022 года.