Artificial Intelligence

Дипфейки могут эффективно обмануть многие основные API «живости» лица

обновленный on 9 декабря 2022

Из «DeepFace Live — Арнольд Шварценеггер 224 3.03 млн итераций | RTX A6000' - https://www.youtube.com/watch?v=9tr35y-yQRY

Новое исследовательское сотрудничество между США и Китаем изучило восприимчивость к дипфейкам некоторых крупнейших в мире систем аутентификации на основе лица и обнаружило, что большинство из них уязвимы для развивающихся и новых форм дипфейковых атак.

В ходе исследования были проведены вторжения на основе дипфейков с использованием специальной платформы, развернутой в системах Facial Liveness Verification (FLV), которые обычно поставляются крупными поставщиками и продаются в качестве услуги нижестоящим клиентам, таким как авиакомпании и страховые компании.

Из документа обзор функционирования API-интерфейсов Facial Liveness Verification (FLV) у основных поставщиков. Источник: https://arxiv.org/pdf/2202.10673.pdf

Оживление лица предназначено для предотвращения использования таких техник, как атаки с использованием враждебного изображения, использование . и предварительно записанное видео, так называемое «главные лица»и другие формы клонирование визуального идентификатора.

В исследовании делается вывод о том, что ограниченное количество модулей обнаружения дипфейков, развернутых в этих системах, многие из которых обслуживают миллионы клиентов, далеко не безошибочны и, возможно, были настроены на методы дипфейков, которые сейчас устарели или могут быть слишком специфичными для архитектуры. .

Авторы отмечают:

«[Различные] методы дипфейка также демонстрируют различия у разных поставщиков… Не имея доступа к техническим деталям целевых поставщиков FLV, мы предполагаем, что такие различия связаны с мерами защиты, развернутыми разными поставщиками. Например, некоторые поставщики могут развертывать средства защиты от определенных дипфейковых атак».

И продолжайте:

«[Большинство] FLV API не используют обнаружение дипфейков; даже для тех, у кого есть такая защита, ее эффективность вызывает беспокойство (например, она может обнаруживать высококачественные синтезированные видео, но не может обнаруживать низкокачественные)».

В связи с этим исследователи отмечают, что «подлинность» относительна:

«[Даже] если синтезированное видео нереально для людей, оно все равно может обойти текущий механизм обнаружения дипфейков с очень высокой вероятностью успеха».

Выше приведены образцы дипфейковых изображений, подлинность которых удалось подтвердить в ходе экспериментов авторов. Ниже, по-видимому, гораздо более реалистичные поддельные изображения, не прошедшие проверку подлинности.

Другой вывод заключался в том, что текущая конфигурация общих систем проверки лиц предвзято относится к белым мужчинам. Впоследствии было обнаружено, что женские и небелые личности более эффективны в обходе систем проверки, подвергая клиентов этих категорий большему риску взлома с помощью методов, основанных на дипфейках.

В отчете показано, что личности белых мужчин наиболее строго и точно оцениваются популярными API-интерфейсами проверки живости лица. В приведенной выше таблице мы видим, что женскую и небелую идентичность легче использовать для обхода систем.

В документе отмечается, что «В [проверке живости лица] есть предубеждения, которые могут представлять значительный риск для безопасности определенной группы людей».

Авторы также провели этические атаки с аутентификацией по лицу против китайского правительства, крупной китайской авиакомпании, одной из крупнейших компаний по страхованию жизни в Китае и R360 , одной из крупнейших инвестиционных групп-единорогов в мире, и сообщают об успешном отказе от дальнейшего использования этими организациями изученных API.

В случае успешного обхода аутентификации для китайской авиакомпании нижестоящий API требовал от пользователя «качать головой» в качестве доказательства против потенциального дипфейкового материала, но оказалось, что это не работает против структуры, разработанной исследователями, которая включает в себя шесть дипфейковые архитектуры.

Несмотря на то, что авиакомпания оценила тряску головы пользователя, дипфейк-контент смог пройти тест.

В документе отмечается, что авторы связались с вовлеченными поставщиками, которые, как сообщается, признали работу.

Авторы предлагают ряд рекомендаций по улучшению текущего состояния FLV, включая отказ от аутентификации по одному изображению («FLV на основе изображения»), когда аутентификация основана на одном кадре с камеры клиента; более гибкое и всестороннее обновление систем обнаружения дипфейков в графических и голосовых доменах; навязывание необходимости синхронизировать голосовую аутентификацию в пользовательском видео с движениями губ (чего сейчас, как правило, нет); и требование от пользователей выполнять жесты и движения, которые в настоящее время трудно воспроизвести системами дипфейков (например, Просмотры профиля частичная затемнение лица).

Ассоциация бумаги называется Видеть — значит жить? Переосмысление безопасности проверки живости лица в эпоху дипфейков, и исходит от совместных ведущих авторов Чанцзяна Ли и Ли Вана, а также пяти других авторов из Пенсильванского государственного университета, Чжэцзянского университета и Шаньдунского университета.

Основные цели

Исследователи нацелились на «шесть наиболее репрезентативных» поставщиков Facial Liveness Verification (FLV), которые в ходе исследования были анонимизированы с помощью криптонимов.

Продавцы представлены так: "БД" и «ТК» представлять конгломерат поставщиков с наибольшим количеством вызовов API, связанных с лицами, и наибольшей долей облачных сервисов искусственного интеллекта в Китае; 'ХВ' является «одним из поставщиков с крупнейшим [китайским] публичным облачным рынком»; 'CW' имеет самые быстрые темпы роста в области компьютерного зрения и занимает лидирующие позиции на рынке»; «СТ» входит в число крупнейших поставщиков компьютерного зрения; и 'Если T' входит в число крупнейших поставщиков программного обеспечения для искусственного интеллекта в Китае.

Данные и архитектура

Базовые данные, лежащие в основе проекта, включают набор данных из 625,537 XNUMX изображений из китайской инициативы. Знаменитость-пародия, а также живые видео с выступления Мичиганского государственного университета в 2019 году. СиВ-М набор данных.

Все эксперименты проводились на сервере с двумя процессорами Intel Xeon E2.40-5 v2640 с тактовой частотой 4 ГГц, 256 ГБ ОЗУ с жестким диском на 4 ТБ и четырьмя управляемыми графическими процессорами NVIDIA 1080Ti, что в сумме дает 44 ГБ оперативной видеопамяти.

Шесть в одном

Структура, разработанная авторами статьи, называется LiveBugger, и включает в себя шесть современных фреймворков дипфейка, направленных против четырех основных средств защиты в системах FLV.

LiveBugger содержит различные подходы к дипфейкам и сосредоточен на четырех основных векторах атак в FLV-системах.

Шесть используемых фреймворков дипфейков: Оксфордский университет, 2018 г. X2Лицо; академическое сотрудничество США ICface; две вариации израильского проекта 2019 года ФСГАН; итальянский Модель метода первого порядка (Фомм), с начала 2020 года; и сотрудничество Microsoft Research Пекинского университета Фейсшифтер (хотя, поскольку FaceShifter не является открытым исходным кодом, авторам пришлось реконструировать его на основе опубликованных деталей архитектуры).

Методы, используемые среди этих платформ, включали использование предварительно обработанного видео, в котором субъекты поддельного видео выполняют механические действия, которые были извлечены из требований аутентификации API в более раннем оценочном модуле LiveBugger, а также использование эффективного «дипфейк-кукольного». ’, который переводит живые движения человека в дипфальсифицированный поток, который был вставлен в кооптированный поток с веб-камеры.

Примером последнего является DeepFaceLive, который дебютировал прошлым летом как дополнение к популярной программе DeepFaceLab, чтобы включить потоковую передачу дипфейков в реальном времени, но это не включено в исследование авторов.

Атака на четыре вектора

Четыре вектора атаки в типичной системе FLV: FLV на основе изображений, который использует одну предоставленную пользователем фотографию в качестве токена аутентификации по идентификатору лица, зарегистрированному в системе; FLV на основе тишины, который требует, чтобы пользователь загрузил видеоклип о себе; FLV, основанный на действиях, который требует от пользователя выполнения действий, продиктованных платформой; и голосовой FLV, который сопоставляет запрошенную пользователем речь с записью в базе данных системы для речевого шаблона этого пользователя.

Первая проблема для системы — установить, в какой степени API будет раскрывать свои требования, поскольку их можно будет предвидеть и учесть в процессе дипфейка. За это отвечает механизм Intelligence Engine в LiveBugger, который собирает информацию о требованиях из общедоступной документации API и других источников.

Поскольку опубликованные требования могут отсутствовать (по разным причинам) в реальных процедурах API, Intelligence Engine включает зонд, который собирает неявную информацию на основе результатов исследовательских вызовов API. В исследовательском проекте этому способствовали официальные оффлайновые «тестовые» API, предоставленные в интересах разработчиков, а также добровольцы, предложившие использовать для тестирования собственные реальные аккаунты.

Intelligence Engine ищет доказательства того, использует ли API в настоящее время определенный подход, который может быть полезен при атаках. Особенности такого рода могут включать обнаружение когерентности, который проверяет, являются ли кадры в видео непрерывными во времени — требование, которое можно установить, отправляя зашифрованные видеокадры и наблюдая, не способствует ли это сбою аутентификации.

Модуль также ищет Обнаружение языка губ, где API может проверить, является ли звук в видео синхронизируется с движениями губ пользователя (редко — см. «Результаты» ниже).

Итоги

Авторы обнаружили, что все шесть оцененных API не использовали обнаружение когерентности во время экспериментов, что позволяло механизму дипфейкеров в LiveBugger просто сшивать синтезированный звук с дипфейковым видео на основе материалов, предоставленных добровольцами.

Однако было обнаружено, что некоторые последующие приложения (т. е. клиенты API-фреймворков) добавили в процесс обнаружение когерентности, что потребовало предварительной записи видео, предназначенного для обхода этого.

Кроме того, только несколько поставщиков API используют определение языка по губам; для большинства из них видео и аудио анализируются как отдельные величины, и нет никакой функции, которая пытается сопоставить движение губ с предоставленным звуком.

Разнообразные результаты, охватывающие ряд фиктивных методов, доступных в LiveBugger, против разнообразных векторов атак в API-интерфейсах FLV. Более высокие числа указывают на более высокий уровень успеха при проникновении в FLV с использованием методов дипфейка. Не все API включают все возможные средства защиты от FLV; например, некоторые из них не обеспечивают никакой защиты от дипфейков, в то время как другие не проверяют соответствие движения губ и звука в видео, отправленном пользователем во время аутентификации.

Заключение

Результаты документа и указания на будущее FLV API запутаны, и авторы объединили их в функциональную «архитектуру уязвимостей», которая может помочь разработчикам FLV лучше понять некоторые обнаруженные проблемы».

Сеть документов, содержащая рекомендации относительно существующей и потенциальной уязвимости процедур видеоидентификации по лицу к дипфейковым атакам.

В рекомендациях отмечается:

«Угрозы безопасности FLV широко распространены во многих реальных приложениях и, таким образом, угрожают безопасности миллионов конечных пользователей».

Авторы также отмечают, что использование FLV на основе действий является «маргинальным» и что увеличение количества действий, которые должны выполнять пользователи, «не может принести никакого повышения безопасности».

Кроме того, авторы отмечают, что сочетание распознавания голоса и временного распознавания лиц (в видео) является бесполезной защитой, если только поставщики API не начнут требовать, чтобы движения губ синхронизировались со звуком.

Бумага выходит в свете недавнего Предупреждение ФБР бизнесу об опасностях дипфейкового мошенничества почти через год после того, как они предсказали успех технологии. использование в операциях иностранного влияния, А также общие страхи что живая технология дипфейка вызовет новую волну преступности в обществе, которое все еще доверяет архитектурам безопасности видеоаутентификации.

Это все еще первые дни дипфейка как поверхности атаки аутентификации; в 2020 году 35 миллионов долларов было мошеннически извлеченный из банка в ОАЭ с использованием технологии дипфейк-аудио, а одного из руководителей Великобритании также обманным путем заставили выплатить 243,000 XNUMX долларов США. Мэнсфилд.

Впервые опубликовано 23 февраля 2022 г.

Выражение эмоций через типографику с помощью ИИ

Не пропустите

Компьютерный компонент имитирует синапсы человеческого мозга

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Дипфейки могут эффективно обмануть многие основные API «живости» лица

Artificial Intelligence