Искусственный интеллект

Обнаружение видеозвонков Deepfake через освещение монитора

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

Новое сотрудничество между исследователем из Агентства национальной безопасности США (NSA) и Калифорнийского университета в Беркли предлагает новый метод обнаружения контента deepfake в живом видеоконтексте – путем наблюдения за эффектом освещения монитора на внешности человека на другом конце видеозвонка.

Популярный пользователь DeepFaceLive Druuzil Tech & Games проверяет свою собственную модель Christian Bale DeepFaceLab в живой сессии со своими подписчиками, при изменении источников света. Источник: https://www.youtube.com/watch?v=XPQLDnogLKA

Система работает путем размещения графического элемента на экране пользователя, который меняет узкий диапазон своего цвета быстрее, чем типичная система deepfake может отреагировать – даже если, как реализация потокового видео deepfake в режиме реального времени DeepFaceLive (изображено выше), она имеет некоторую возможность поддерживать живую передачу цвета и учет окружающего освещения.

Единый цветной образ, отображаемый на мониторе человека на другом конце (т.е. потенциального мошенника deepfake), циклически проходит через ограниченное изменение оттенков, предназначенное не для активации автоматического белого баланса веб-камеры и других ад-хок систем компенсации освещения, которые бы поставили под угрозу метод.

Из статьи, иллюстрация изменения условий освещения от монитора перед пользователем, который эффективно работает как диффузный ‘областной свет’. Источник: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Теория за этим подходом заключается в том, что живые системы deepfake не могут отреагировать вовремя на изменения, изображенные в графическом элементе на экране, увеличивая ‘задержку’ эффекта deepfake в определенных частях цветового спектра, раскрывая его присутствие.

Чтобы точно измерить отраженный свет монитора, система должна учитывать и затем исключить эффект общего окружающего освещения, не связанного со светом от монитора. Затем она может различать недостатки в измерении активного освещения и оттенка лица пользователей, представляя временную задержку в 1-4 кадров между каждым:

Ограничивая изменения оттенков в графическом элементе ‘детектора’ на экране и обеспечивая, что веб-камера пользователя не вызывает автоматическую регулировку ее настроек из-за чрезмерных изменений уровня освещения монитора, исследователи смогли обнаружить характерную задержку в коррекции системы deepfake на изменения освещения.

Статья заключает:

‘Поскольку мы доверяем живым видеозвонкам и видеозвонки становятся все более распространенными в нашей личной и профессиональной жизни, мы предлагаем, что методы аутентификации видео (и аудио) будут только расти в важности.’

Исследование называется Обнаружение видео deepfake в режиме реального времени с помощью активного освещения, и было проведено Кэндис Р. Герстнер, прикладным математиком в Министерстве обороны США, и профессором Хани Фаридом из Беркли.

Эрозия доверия

Исследования в области противодействия deepfake в последние шесть месяцев существенно сместились от общего обнаружения deepfake (т.е. нацеливания на предварительно записанные видео и порнографический контент) к обнаружению ‘живости’, в ответ на растущую волну инцидентов использования deepfake в видеоконференциях и недавнее предупреждение ФБР о растущем использовании таких технологий в приложениях для удаленной работы.

Даже если видеозвонок не оказался deepfake, растущие возможности для имитаторов видео на основе ИИ начинают генерировать паранойю.

Новая статья гласит:

‘Создание видео deepfake в режиме реального времени [представляет] уникальные угрозы из-за общего чувства доверия, окружающего живой видео или телефонный звонок, и проблемы обнаружения deepfake в режиме реального времени, пока звонок проходит.’

Исследовательское сообщество уже давно поставило перед собой цель найти неопровержимые признаки контента deepfake, которые не могут быть легко компенсированы. Хотя средства массовой информации обычно характеризуют это как технологическую войну между исследователями безопасности и разработчиками deepfake, большинство опровержений ранних подходов (таких как анализ моргания глаз, определение положения головы и анализ поведения) произошли просто потому, что разработчики и пользователи пытались создать более реалистичные deepfake в целом, а не специально решали последнюю ‘отметку’, выявленную сообществом безопасности.

Освещение живого видео deepfake

Обнаружение deepfake в живых видео-средах несет бремя учета плохих видеосоединений, которые очень распространены в сценариях видеоконференций. Даже без вмешивающегося слоя deepfake, видеоконтент может быть подвержен лагу, артефактам и другим типам ухудшения аудио и видео. Это может служить для сокрытия грубых краев в живой архитектуре deepfake, как в видео, так и в аудио deepfake.

Система авторов улучшает результаты и методы, представленные в публикации 2020 года из Центра сетевых вычислений в Темпльском университете в Филадельфии.

Из статьи 2020 года мы можем наблюдать изменение ‘заполненного’ освещения лица при изменении содержимого экрана пользователя. Источник: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Разница в новой работе заключается в том, что она учитывает, как веб-камеры реагируют на изменения освещения. Авторы объясняют:

‘Поскольку все современные веб-камеры выполняют автоматическую экспозицию, тип высокоинтенсивного активного освещения [используемый в предыдущей работе] вероятно вызовет автоматическую экспозицию камеры, что в свою очередь поставит под угрозу записанную внешность. Чтобы избежать этого, мы используем активное освещение, состоящее из изолюминантного изменения оттенка.

‘Хотя это избегает автоматической экспозиции камеры, оно может вызвать белый баланс камеры, который снова поставит под угрозу записанную внешность. Чтобы избежать этого, мы работаем в диапазоне оттенков, который мы эмпирически определили как не вызывающий белый баланс.’

Для этой инициативы авторы также рассмотрели подобные предыдущие попытки, такие как LiveScreen, который заставляет незаметный узор освещения на мониторе пользователя в попытке раскрыть контент deepfake.

Хотя эта система достигла точности 94,8%, исследователи заключили, что тонкость световых узоров сделает такое скрытное подход трудным для реализации в ярко освещенных средах, и вместо этого предлагают, что их собственная система, или одна, построенная по подобным линиям, могла бы быть включена публично и по умолчанию в популярное программное обеспечение для видеоконференций:

‘Наше предложенное вмешательство могло бы быть реализовано либо участником звонка, который просто делится своим экраном и отображает временно меняющийся узор, либо, идеально, оно могло бы быть напрямую интегрировано в клиент видеозвонка.’

Тесты

Авторы использовали смесь синтетических и реальных субъектов для тестирования своего детектора deepfake на основе Dlib. Для синтетического сценария они использовали Mitsuba, прямой и обратный рендерер из Федерального технологического института в Лозанне.

Примеры из симулированного набора данных, с разнообразными тонами кожи, размером источника света, интенсивностью окружающего света и расстоянием до камеры.

Сцена, изображенная на картинке, включает параметрическую CGI-голову, захваченную виртуальной камерой с углом обзора 90°. Головы имеют Ламбертово отражение и нейтральные тона кожи, и расположены на расстоянии 2 футов от виртуальной камеры.

Чтобы протестировать框架 на широком диапазоне возможных тонов кожи и настроек, исследователи провели ряд тестов, изменяя различные аспекты последовательно. Изменяемыми аспектами были тон кожи, расстояние и размер освещения.

Авторы комментируют:

‘В симуляции, с нашими различными предположениями, удовлетворенными, наш предложенный метод очень устойчив к широкому диапазону конфигураций изображения.’

Для реального сценария исследователи использовали 15 добровольцев с разнообразными тонами кожи, в различных средах. Каждый был подвергнут двум циклам ограниченного изменения оттенка, в условиях, когда частота обновления дисплея 30 Гц была синхронизирована с веб-камерой, что означало, что активное освещение будет длиться только одну секунду за раз. Результаты были в целом сравнимы с синтетическими тестами, хотя корреляции увеличивались заметно с большими значениями освещения.

Будущие направления

Система, признают исследователи, не учитывает типичные лицевые окклюзии, такие как челки, очки или борода. Однако они отмечают, что маскировка этого типа может быть добавлена к более поздним системам (через маркировку и последующую семантическую сегментацию), которые могли бы быть обучены для принятия значений исключительно из воспринимаемых кожных областей в целевом субъекте.

Авторы также предлагают, что подобный парадигма могла бы быть использована для обнаружения аудиозвонков deepfake, и что необходимый звук мог бы быть воспроизведен в частоте, находящейся вне нормального человеческого слухового диапазона.

Возможно, наиболее интересно, что исследователи также предлагают, что расширение области оценки за пределы лица в более богатом фреймворке захвата могло бы существенно улучшить возможность обнаружения deepfake*:

‘Более сложная 3-D оценка освещения вероятно обеспечила бы более богатую модель внешности, которая была бы еще более трудной для обхода мошенником. Хотя мы сосредоточились только на лице, компьютерный дисплей также освещает шею, верхнюю часть тела и окружающий фон, из которых могли бы быть сделаны подобные измерения.

‘Эти дополнительные измерения заставили бы мошенника учитывать всю 3-D сцену, а не только лицо.’

* Мое преобразование внутренних цитат авторов в гиперссылки.

Опубликовано впервые 6 июля 2022 года.