Искусственный интеллект
Дипфейки могут эффективно обмануть многие основные API «живости» лица

Новое исследовательское сотрудничество между США и Китаем изучило восприимчивость к дипфейкам некоторых крупнейших в мире систем аутентификации на основе лица и обнаружило, что большинство из них уязвимы для развивающихся и новых форм дипфейковых атак.
В ходе исследования были проведены вторжения на основе дипфейков с использованием специальной платформы, развернутой в системах Facial Liveness Verification (FLV), которые обычно поставляются крупными поставщиками и продаются в качестве услуги нижестоящим клиентам, таким как авиакомпании и страховые компании.

Из документа обзор функционирования API-интерфейсов Facial Liveness Verification (FLV) у основных поставщиков. Источник: https://arxiv.org/pdf/2202.10673.pdf
Оживление лица предназначено для предотвращения использования таких техник, как атаки с использованием враждебного изображения, использование . и предварительно записанное видео, так называемое «мастер-лица»и другие формы клонирование визуального идентификатора.
В исследовании делается вывод о том, что ограниченное количество модулей обнаружения дипфейков, развернутых в этих системах, многие из которых обслуживают миллионы клиентов, далеко не безошибочны и, возможно, были настроены на методы дипфейков, которые сейчас устарели или могут быть слишком специфичными для архитектуры. .
Авторы отмечают:
«[Различные] методы дипфейка также различаются у разных поставщиков… Не имея доступа к техническим характеристикам целевых поставщиков FLV, мы предполагаем, что такие различия связаны с мерами защиты, применяемыми разными поставщиками. Например, некоторые поставщики могут использовать средства защиты от конкретных атак дипфейка».
И продолжайте:
«[Большинство] API FLV не используют функцию обнаружения дипфейков; даже у тех, у кого есть такая защита, ее эффективность вызывает опасения (например, она может обнаруживать высококачественные синтезированные видео, но не обнаруживать низкокачественные)».
В этой связи исследователи отмечают, что «подлинность» относительна:
«[Даже] если синтезированное видео нереально для людей, оно все равно может обойти существующий механизм обнаружения дипфейков с очень высокой вероятностью успеха».

Выше представлены примеры изображений, аутентификация которых была успешно проведена в ходе экспериментов авторов. Ниже представлены, по-видимому, гораздо более реалистичные поддельные изображения, аутентификация которых не прошла.
Другой вывод заключался в том, что текущая конфигурация общих систем проверки лиц предвзято относится к белым мужчинам. Впоследствии было обнаружено, что женские и небелые личности более эффективны в обходе систем проверки, подвергая клиентов этих категорий большему риску взлома с помощью методов, основанных на дипфейках.

В отчете показано, что личности белых мужчин наиболее строго и точно оцениваются популярными API-интерфейсами проверки живости лица. В приведенной выше таблице мы видим, что женскую и небелую идентичность легче использовать для обхода систем.
В документе отмечается, что «В [проверке живости лица] есть предубеждения, которые могут представлять значительную угрозу безопасности для определенной группы людей».
Авторы также провели этические атаки с аутентификацией по лицу против китайского правительства, крупной китайской авиакомпании, одной из крупнейших компаний по страхованию жизни в Китае и R360 , одной из крупнейших единороговых инвестиционных групп в мире, и сообщают об успехах в обходе последующего использования этими организациями изученных API.
В случае успешного обхода аутентификации для китайской авиакомпании API нижнего уровня требовал от пользователя «покачивать головой» в качестве доказательства отсутствия потенциально фальшивого материала, однако это не сработало против разработанной исследователями структуры, включающей шесть архитектур дипфейка.

Несмотря на оценку авиакомпанией покачивания головой пользователя, контент с использованием deepfake смог пройти тест.
В документе отмечается, что авторы связались с вовлеченными поставщиками, которые, как сообщается, признали работу.
Авторы предлагают ряд рекомендаций по улучшению текущего состояния FLV, включая отказ от аутентификации по одному изображению («FLV на основе изображения»), где аутентификация основана на одном кадре с камеры клиента; более гибкое и комплексное обновление систем обнаружения дипфейков в областях изображений и голоса; введение требования, чтобы голосовая аутентификация в пользовательском видео была синхронизирована с движениями губ (что в настоящее время, как правило, не выполняется); и требование, чтобы пользователи выполняли жесты и движения, которые в настоящее время трудно воспроизвести системам дипфейков (например, Просмотры профиля частичная затемнение лица).
The статье называется Видеть — значит жить? Переосмысление безопасности проверки живости лица в эпоху дипфейков, и исходит от совместных ведущих авторов Чанцзяна Ли и Ли Вана, а также пяти других авторов из Пенсильванского государственного университета, Чжэцзянского университета и Шаньдунского университета.
Основные цели
Исследователи выбрали «шесть наиболее репрезентативных» поставщиков услуг по проверке подлинности лиц (FLV), которые в ходе исследования были анонимизированы с помощью криптонимов.
Продавцы представлены так: «БД» и «ТС» представляют собой конгломерат-поставщика с наибольшим количеством вызовов API, связанных с распознаванием лиц, и наибольшей долей облачных сервисов ИИ в Китае; «ГВ» является «одним из поставщиков с крупнейшим [китайским] рынком публичных облаков»; 'CW' имеет самые быстрые темпы роста в области компьютерного зрения и занимает лидирующие позиции на рынке; «СТ» входит в число крупнейших поставщиков компьютерного зрения; и «iFT» входит в число крупнейших поставщиков программного обеспечения для искусственного интеллекта в Китае.
Данные и архитектура
Базовые данные, лежащие в основе проекта, включают набор данных из 625,537 XNUMX изображений из китайской инициативы. Знаменитость-пародиявместе с видеозаписями с конференции Мичиганского государственного университета 2019 года СиВ-М набор данных.
Все эксперименты проводились на сервере с двумя процессорами Intel Xeon E2.40-5 v2640 с тактовой частотой 4 ГГц, 256 ГБ ОЗУ с жестким диском на 4 ТБ и четырьмя управляемыми графическими процессорами NVIDIA 1080Ti, что в сумме дает 44 ГБ оперативной видеопамяти.
Шесть в одном
Структура, разработанная авторами статьи, называется LiveBugger, и включает в себя шесть современных фреймворков дипфейка, направленных против четырех основных средств защиты в системах FLV.

LiveBugger содержит различные подходы к дипфейкам и сосредоточен на четырех основных векторах атак в FLV-системах.
Используются шесть фреймворков для создания дипфейков: Оксфордский университет, 2018 г. X2Лицо; академическое сотрудничество США ICface; две вариации израильского проекта 2019 года ФСГАН; итальянский Модель метода первого порядка (Фомм), с начала 2020 года; и сотрудничество Пекинского университета с Microsoft Research Фейсшифтер (хотя, поскольку FaceShifter не является открытым исходным кодом, авторам пришлось реконструировать его на основе опубликованных деталей архитектуры).
Методы, используемые в этих фреймворках, включают использование предварительно отрендеренного видео, в котором субъекты поддельного видео выполняют механические действия, которые были извлечены из требований аутентификации API в более раннем модуле оценки LiveBugger, а также использование эффективной «поддельной кукольной анимации», которая преобразует живые движения человека в поддельный поток, вставленный в заимствованный поток с веб-камеры.
Примером последнего является DeepFaceLive, который дебютировал прошлым летом как дополнение к популярной программе DeepFaceLab, для обеспечения потоковой передачи deepfake-контента в реальном времени, но которая не включена в исследование авторов.
Атака на четыре вектора
Четыре вектора атаки в типичной системе FLV: FLV на основе изображений, которая использует одну предоставленную пользователем фотографию в качестве токена аутентификации по идентификатору лица, записанному в системе; FLV на основе тишины, который требует, чтобы пользователь загрузил видеоклип о себе; FLV, основанный на действиях, который требует от пользователя выполнения действий, продиктованных платформой; и голосовой FLV, который сопоставляет предложенную пользователем речь с записью в базе данных системы для речевого образца этого пользователя.
Первая проблема для системы — установить, в какой степени API будет раскрывать свои требования, поскольку их можно будет предвидеть и учесть в процессе дипфейка. За это отвечает механизм Intelligence Engine в LiveBugger, который собирает информацию о требованиях из общедоступной документации API и других источников.
Поскольку опубликованные требования могут отсутствовать (по разным причинам) в реальных процедурах API, Intelligence Engine включает в себя зонд, собирающий неявную информацию на основе результатов исследовательских вызовов API. В рамках исследовательского проекта этому способствовали официальные офлайн-тестовые API, предоставленные разработчикам, а также волонтёры, предложившие использовать свои собственные реальные учётные записи для тестирования.
Intelligence Engine ищет доказательства того, использует ли API в настоящее время определенный подход, который может быть полезен при атаках. Особенности такого рода могут включать обнаружение когерентности, который проверяет, являются ли кадры в видео непрерывными во времени — требование, которое можно установить, отправляя зашифрованные видеокадры и наблюдая, не способствует ли это сбою аутентификации.
Модуль также ищет Обнаружение языка губ, где API может проверить, является ли звук в видео синхронизировано с движениями губ пользователя (бывает редко — см. «Результаты» ниже).
Результаты
Авторы обнаружили, что все шесть оцененных API не использовали обнаружение когерентности во время экспериментов, что позволяло механизму дипфейкеров в LiveBugger просто сшивать синтезированный звук с дипфейковым видео на основе материалов, предоставленных добровольцами.
Однако было обнаружено, что некоторые последующие приложения (т. е. клиенты API-фреймворков) добавили в процесс обнаружение когерентности, что потребовало предварительной записи видео, предназначенного для обхода этого.
Кроме того, только несколько поставщиков API используют определение языка по губам; для большинства из них видео и аудио анализируются как отдельные величины, и нет никакой функции, которая пытается сопоставить движение губ с предоставленным звуком.

Разнообразные результаты, охватывающие ряд фиктивных методов, доступных в LiveBugger, против разнообразных векторов атак в API-интерфейсах FLV. Более высокие числа указывают на более высокий уровень успеха при проникновении в FLV с использованием методов дипфейка. Не все API включают все возможные средства защиты от FLV; например, некоторые из них не обеспечивают никакой защиты от дипфейков, в то время как другие не проверяют соответствие движения губ и звука в видео, отправленном пользователем во время аутентификации.
Заключение
Результаты статьи и прогнозы относительно будущего API FLV запутанны, и авторы объединили их в функциональную «архитектуру уязвимостей», которая может помочь разработчикам FLV лучше понять некоторые из выявленных проблем.

Свод рекомендаций статьи, касающихся существующей и потенциальной подверженности процедур видеоидентификации на основе лиц атакам с использованием дипфейков.
В рекомендациях отмечается:
«Риски безопасности FLV широко распространены во многих реальных приложениях и, таким образом, угрожают безопасности миллионов конечных пользователей».
Авторы также отмечают, что использование основанного на действиях FLV является «незначительным» и что увеличение количества действий, которые должны выполнять пользователи, «не может принести никакого повышения безопасности».
Кроме того, авторы отмечают, что сочетание распознавания голоса и временного распознавания лиц (в видео) является бесполезной защитой, если только поставщики API не начнут требовать, чтобы движения губ синхронизировались со звуком.
Статья появилась в свете недавнего предупреждения ФБР бизнесу об опасностях мошенничества с использованием дипфейков, почти через год после их предсказания использования этой технологии в операциях по оказанию влияния за рубежом, а также общие страхи что живая технология дипфейка вызовет новую волну преступности в обществе, которое все еще доверяет архитектурам безопасности видеоаутентификации.
Это все еще первые дни дипфейка как поверхности атаки аутентификации; в 2020 году 35 миллионов долларов было мошеннически извлеченный из банка в ОАЭ с использованием технологии дипфейк-аудио, а одного из руководителей Великобритании также обманным путем заставили выплатить 243,000 XNUMX долларов США. в 2019 году.
Впервые опубликовано 23 февраля 2022 г.