Искусственный интеллект
Обнаружение дипфейковых видеозвонков по подсветке монитора

Новое сотрудничество между исследователями из Агентства национальной безопасности США (АНБ) и Калифорнийского университета в Беркли предлагает новый метод обнаружения фейкового контента в контексте видеотрансляции в реальном времени — путем наблюдения за влиянием освещения монитора на внешний вид человека на другом конце видеозвонка.

Популярный пользователь DeepFaceLive Druuzil Tech & Games тестирует свою собственную модель DeepFaceLab Кристиана Бэйла во время живого сеанса со своими подписчиками, в то время как источники освещения меняются. Источник: https://www.youtube.com/watch?v=XPQLDnogLKA
Система работает, размещая на экране пользователя графический элемент, который меняет узкий диапазон своего цвета быстрее, чем может отреагировать типичная система deepfake – даже если, как и в случае с реализацией потоковой передачи deepfake в реальном времени DeepFaceLive (на фото выше), он имеет некоторую возможность поддерживать живую передачу цвета и учитывать окружающее освещение.
Однородное цветное изображение, отображаемое на мониторе человека на другом конце (т.е. потенциального мошенника, использующего дипфейк), циклически проходит через ограниченный диапазон изменений оттенков, которые предназначены для того, чтобы не активировать автоматический баланс белого веб-камеры и другие специальный системы компенсации освещенности, что может поставить под угрозу метод.

В статье представлена иллюстрация изменения условий освещения от монитора, находящегося перед пользователем, который фактически действует как рассеянный «зональный свет». Источник: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Теория, лежащая в основе данного подхода, заключается в том, что живые системы deepfake не могут вовремя реагировать на изменения, отображаемые в экранной графике, что увеличивает «задержку» эффекта deepfake в определенных частях цветового спектра, выявляя его присутствие.
Для точного измерения отраженного света монитора система должна учитывать и вычитать влияние общего внешнего освещения, не связанного со светом от монитора. Это позволяет выявить погрешности в измерении оттенка активного освещения и оттенка лица пользователей, представляющие собой временной сдвиг в 1–4 кадра между каждым из них:

Ограничив изменения оттенков в графическом «детекторе» на экране и обеспечив, чтобы веб-камера пользователя не автоматически настраивала параметры съемки при чрезмерных изменениях уровня освещенности монитора, исследователи смогли обнаружить характерную задержку в адаптации системы deepfake к изменениям освещения.
В статье делается вывод:
«В связи с обоснованным доверием, которое мы оказываем живым видеозвонкам, и растущей повсеместностью видеозвонков в нашей личной и профессиональной жизни, мы предполагаем, что методы аутентификации видео- (и аудио)звонков будут только возрастать в своей важности».
проведенное исследование называется Обнаружение видео глубокой подделки в реальном времени с использованием активного освещения, и исходит от Кэндис Р. Герстнер, прикладного математика-исследователя Министерства обороны США, и профессора Хани Фарида из Беркли.
Подрыв доверия
За последние шесть месяцев сфера исследований, направленных на борьбу с дипфейками, заметно изменилась: от общего обнаружения дипфейков (т. е. выявления заранее записанных видеороликов и порнографического контента) к обнаружению «живых» сообщений в ответ на растущую волну случаев использования дипфейков во время видеоконференций и недавнее предупреждение ФБР о растущем использовании таких технологий в приложениях для удаленной работы.
Даже если выясняется, что видеозвонок не был дипфейковым, повышенные возможности для видеоподражателей с помощью ИИ начинает вызывать паранойю.
В новом документе говорится:
«Создание глубоких фейков в реальном времени [представляет] особую угрозу из-за общего чувства доверия, окружающего живое видео или телефонный звонок, а также сложности обнаружения глубоких фейков в реальном времени, по мере того как происходит звонок».
Исследовательское сообщество давно поставило перед собой цель найти безошибочные признаки дипфейкового контента, которые сложно компенсировать. Хотя СМИ обычно характеризуют это как технологическую войну между исследователями безопасности и разработчиками дипфейков, большинство отрицаний ранних подходов (таких как анализ моргания глаз, распознавание позы головы и анализ поведения) произошли просто потому, что разработчики и пользователи пытались создать более реалистичные дипфейки в целом, а не конкретно устранить последнюю «подсказку», выявленную сообществом безопасности.
Проливая свет на живое видео Deepfake
Обнаружение дипфейков в среде живого видео требует учета плохих видеосоединений, которые очень распространены в сценариях видеоконференций. Даже без промежуточного слоя дипфейка видеоконтент может быть подвержен задержке в стиле NASA, артефактам рендеринга и другим типам ухудшения качества звука и видео. Они могут помочь скрыть острые углы в живой архитектуре дипфейка, как с точки зрения видео, так и аудио дипфейки.
Новая система авторов улучшает результаты и методы, представленные в публикация 2020 г. из Центра сетевых вычислений Университета Темпл в Филадельфии.

В статье 2020 года мы можем наблюдать изменение «заполненной» подсветки лица по мере изменения содержимого экрана пользователя. Источник: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf.
Отличие новой работы в том, что она учитывает то, как веб-камеры реагируют на изменения освещения. Авторы поясняют:
«Поскольку все современные веб-камеры выполняют автоматическую экспозицию, тип активного освещения высокой интенсивности [использовавшийся в предыдущей работе], вероятно, вызовет автоматическую экспозицию камеры, которая, в свою очередь, исказит записанное выражение лица. Чтобы избежать этого, мы используем активное освещение, состоящее из изолюминатного изменения оттенка.
«Хотя это и позволяет избежать использования автоматической экспозиции камеры, это может привести к срабатыванию баланса белого, что снова исказит записанное выражение лица. Чтобы избежать этого, мы работаем в диапазоне оттенков, который, как мы эмпирически определили, не приводит к срабатыванию баланса белого».
Для этой инициативы авторы также рассмотрели аналогичные предыдущие усилия, такие как Живой экран, который принудительно выводит на монитор конечного пользователя незаметный световой рисунок, чтобы обнаружить поддельный контент.
Хотя эта система достигла точности 94.8%, исследователи пришли к выводу, что тонкость световых паттернов затруднила бы реализацию такого скрытого подхода в ярко освещенных помещениях, и вместо этого предложили свою собственную систему или систему, построенную по аналогичному образцу. могут быть включены публично и по умолчанию в популярное программное обеспечение для видеоконференций:
«Предлагаемое нами вмешательство может быть реализовано либо путем использования участником звонка своего экрана и отображения изменяющегося во времени шаблона, либо, в идеале, оно может быть напрямую интегрировано в клиент видеозвонка».
Tests
Авторы использовали смесь синтетических и реальных предметов, чтобы проверить свои способности. Dlib-управляемый детектор дипфейков. Для синтетического сценария они использовали Мицуба, прямое и обратное средство визуализации от Швейцарского федерального технологического института в Лозанне.

Образцы из смоделированных тестов окружающей среды с различным оттенком кожи, размером источника света, интенсивностью окружающего света и близостью к камере.
Изображенная сцена включает в себя параметрическую CGI-голову, снятую виртуальной камерой с полем обзора 90°. Особенность голов Ламбертовское отражение и нейтральные тона кожи, и расположены в 2 футах перед виртуальной камерой.
Чтобы протестировать фреймворк с различными оттенками кожи и настройками, исследователи провели серию тестов, последовательно меняя различные аспекты. Измененные аспекты включали оттенок кожи, близость и размер источника света.
Авторы комментируют:
«При моделировании, при соблюдении наших различных предположений, предложенная нами методика оказалась весьма устойчивой к широкому диапазону конфигураций визуализации».
Для реального сценария исследователи использовали 15 добровольцев с разными оттенками кожи в различных условиях. Каждый из них подвергался двум циклам ограниченного изменения оттенка в условиях, когда частота обновления дисплея 30 Гц была синхронизирована с веб-камерой, а это означает, что активное освещение длилось только одну секунду за раз. Результаты были в целом сопоставимы с синтетическими тестами, хотя корреляции заметно увеличивались при более высоких значениях освещенности.
Будущие направления
Исследователи признают, что система не учитывает типичные окклюзии лица, такие как челка, очки или растительность на лице. Однако они отмечают, что маскирование такого рода может быть добавлено к более поздним системам (посредством маркировки и последующей семантической сегментации), которые можно научить принимать значения исключительно из воспринимаемых участков кожи целевого субъекта.
Авторы также предполагают, что аналогичная парадигма может использоваться для обнаружения дипфейковых аудиозвонков и что необходимый для обнаружения звук может воспроизводиться на частоте, выходящей за пределы нормального диапазона человеческого слуха.
Возможно, наиболее интересно то, что исследователи также предполагают, что расширение области оценки за пределы лица в более богатой структуре захвата может значительно улучшить возможность обнаружения дипфейков*:
«Более сложный 3-D расчет освещения вероятно, обеспечит более богатую модель внешнего вида, которую фальсификатору будет еще труднее обойти. В то время как мы сосредоточились только на лице, дисплей компьютера также освещает шею, верхнюю часть тела и окружающий фон, по которому можно было сделать аналогичные измерения.
«Эти дополнительные измерения заставили бы фальсификатора учитывать всю трехмерную сцену, а не только лицо».
* Мое преобразование встроенных ссылок авторов в гиперссылки.
Впервые опубликовано 6 июля 2022 г.












