Искусственный интеллект
Исследователи определили устойчивую черту дипфейков, которая может помочь в долгосрочном обнаружении

С тех пор, как в 2018 году начали появляться первые решения для обнаружения дипфейков, сектор исследований в области компьютерного зрения и безопасности стремился определить существенная характеристика дипфейковых видео — сигналы, которые могут оказаться устойчивыми к улучшениям в популярных технологиях синтеза лица (таких как пакеты дипфейков на основе автоэнкодера, такие как DeepFaceLab и FaceSwap, и использование Генеративные состязательные сети воссоздавать, имитировать или изменять человеческие лица).
Многие из «подсказок», такие как отсутствие моргания, стали ненужными из-за усовершенствований в области дипфейков, тогда как потенциальное использование методов цифрового происхождения (таких как технология под руководством Adobe) Инициатива аутентичности контента) – включая подходы блокчейна и цифровой водяной знак потенциальных исходных фотографий — либо потребуются радикальные и дорогостоящие изменения в существующем массиве доступных исходных изображений в Интернете, либо потребуются заметные совместные усилия стран и правительств по созданию систем наблюдения и аутентификации.
Поэтому было бы очень полезно, если бы можно было различить действительно фундаментальную и устойчивую черту в изображении и видеоконтенте, в котором представлены измененные, придуманные или измененные человеческие лица; характеристика, которую можно вывести непосредственно из фальсифицированных видео без масштабной проверки, хеширование криптографических активов, проверка контекста, оценка правдоподобия, процедуры обнаружения артефактов или другие обременительные подходы к обнаружению дипфейков.
Дипфейки в кадре
Новое исследовательское сотрудничество между Китаем и Австралией предполагает, что оно нашло этот «Святой Грааль» в форме нарушение регулярности.
Авторы разработали метод сравнения пространственной целостности и временной непрерывности реальных видео с теми, которые содержат дипфейковый контент, и обнаружили, что любое вмешательство дипфейка нарушает регулярность изображения, пусть и незаметно.
Отчасти это связано с тем, что процесс дипфейка разбивает целевое видео на кадры и применяет эффект обученной дипфейковой модели к каждому (замещающему) кадру. Популярные дистрибутивы дипфейка действуют аналогично аниматорам, уделяя больше внимания аутентичности каждого кадра, чем его вкладу в общую пространственную целостность и временную непрерывность видео.

Из статьи: A) Различия между типами данных. Здесь мы видим, что искажения, вызванные p-fake, изменяют пространственно-временное качество изображения так же, как и дипфейк, без подмены идентичности. B) Анализ шума трёх типов данных, показывающий, как p-fake имитирует искажения, вызванные дипфейком. C) Временная визуализация трёх типов данных, при этом реальные данные демонстрируют большую целостность при флуктуациях. D) Т-СНЭ визуализация извлеченных признаков для реального, поддельного и поддельного видео. Источник: https://arxiv.org/pdf/2207.10402.pdf
Это не тот способ, которым видеокодек обрабатывает серию кадров при создании или обработке оригинальной записи. Чтобы уменьшить размер файла или сделать видео пригодным для потоковой передачи, видеокодек отбрасывает огромное количество информации. Даже при самых высоких настройках качества кодек будет выделять ключевые кадры (переменная, которую может задать пользователь) — целые, практически несжатые изображения, встречающиеся в видео с заданным интервалом.
Промежуточные кадры между ключевыми кадрами в некоторой степени оцениваются как вариант кадров и будут повторно использовать как можно больше информации из соседних ключевых кадров, а не являются полноценными кадрами сами по себе.

Слева полный ключевой кадр, или «i-кадр», сохраняется в сжатом видео, что несколько увеличивает размер файла; справа промежуточный «дельта-кадр» повторно использует любую применимую часть более насыщенного данными ключевого кадра. Источник: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
Таким образом, блок (содержащий x количество кадров, в зависимости от настроек ключевого кадра), возможно, является наименьшей единицей, рассматриваемой в типичном сжатом видео, а не отдельным кадром. Даже сам ключевой кадр, известный как i-кадр, является частью этой единицы.
С точки зрения традиционной мультипликационной анимации, кодек выполняет своего рода промежуточный, где ключевые кадры служат опорами для промежуточных производных кадров, известных как дельта кадры.

Напротив, при наложении глубокой подделки огромное внимание и ресурсы уделяется каждому отдельному кадру, без учета более широкого контекста кадра и без учета того, как сжатие и блочное кодирование влияют на характеристики «подлинного» видео.

Более пристальный взгляд на разрыв между временным качеством подлинного видео (слева) и того же видео, искаженного дипфейками (справа).
Хотя некоторые из лучших дипфейкеров используют обширную постобработку в таких пакетах, как After Effects, и хотя дистрибутив DeepFaceLab имеет некоторая родная емкость применять процедуры «смешивания», такие как размытие движения, такая ловкость рук не влияет на несоответствие пространственного и временного качества между подлинными и поддельными видео.
Новый документ называется Обнаружение дипфейка путем нарушения пространственно-временной регулярности, и исходит от исследователей из Университета Цинхуа, Департамента технологий компьютерного зрения (VIS) в Baidu Inc. и Мельбурнского университета.
«Поддельные» фейковые видео
Исследователи, стоящие за документом, включили функциональность исследования в модуль plug-and-play под названием Pseudo-fake Generator (Генератор подделок), который преобразует настоящие видео в фальшивые видеоролики, искажая их так же, как это делает реальный процесс дипфейка, фактически не выполняя никаких операций дипфейка.
Тесты показывают, что модуль можно добавить во все существующие системы обнаружения дипфейков практически без затрат ресурсов и заметно повысить их производительность.
Открытие может помочь устранить еще один камень преткновения в исследованиях по обнаружению дипфейков: отсутствие аутентичных и актуальных наборов данных. Поскольку создание дипфейков — сложный и трудоемкий процесс, за последние пять лет сообщество разработало ряд наборов данных дипфейков, многие из которых уже устарели.
Изолируя нарушение регулярности как независимый от дипфейков сигнал для измененных видео постфактум, новый метод позволяет генерировать неограниченное количество видео сэмплов и наборов данных, которые раскрывают этот аспект дипфейков.

Обзор блока STE, где временная свертка по каналам используется в качестве стимула для генерации пространственно-временно улучшенных кодировок, что приводит к той же сигнатуре, что и даже очень убедительный дипфейк. С помощью этого метода можно создавать «поддельные» фейковые видео, обладающие теми же характеристиками сигнатуры, что и любое изменённое видео в стиле дипфейка, и не зависящие от конкретных распределений или изменчивых аспектов, таких как поведение признаков или алгоритмические артефакты.
Tests
Исследователи провели эксперименты с шестью известными наборами данных, используемыми в исследованиях по обнаружению дипфейков: FaceForensics ++ (ФФ++); ДикийDeepFake; Предварительный просмотр конкурса по обнаружению дипфейков (ДФДКП); Знаменитость-DF; Обнаружение дипфейков (ДФД); и Фейс Шифтер (ФШ).
Для FF++ исследователи обучили свою модель исходному набору данных и протестировали каждый из четырех подмножеств по отдельности. Без использования каких-либо дипфейковых материалов в обучении новый метод смог превзойти самые современные результаты.

Этот метод также занял лидирующие позиции по сравнению со сжатым набором данных FF++ C23, в котором представлены примеры, содержащие артефакты сжатия, которые заслуживают доверия в реальных средах просмотра дипфейков.

Авторы комментируют:
«Производительность в рамках FF++ подтверждает осуществимость нашей основной идеи, в то время как обобщаемость остается серьезной проблемой существующих методов обнаружения дипфейков, поскольку производительность не гарантируется при тестировании дипфейков, созданных невидимыми методами.
«Если учесть реальность гонки вооружений между детекторами и фальсификаторами, то обобщаемость является важным критерием для измерения эффективности метода обнаружения в реальном мире».
Хотя исследователи провели ряд дополнительных тестов (подробности см. в статье) на «надежность» и варьировали типы входных видеоданных (т. е. реальные, ложные, p-поддельные и т. д.), наиболее интересные результаты были получены в ходе теста на производительность при работе с различными наборами данных.
Для этого авторы обучили свою модель на вышеупомянутой «реальной» версии FF++ c23 и протестировали ее на четырех наборах данных, получив, как утверждают авторы, превосходную производительность на всех из них.

Результаты кросс-наборного испытания. В статье отмечается, что SBI использует подход, аналогичный подходу авторов, при этом, как утверждают исследователи, p-fake демонстрирует более высокую эффективность при нарушении пространственно-временной регулярности.
В документе говорится:
«На самом сложном Deepwild наш метод превосходит метод SOTA примерно на 10 процентных пунктов по показателю AUC. Мы полагаем, что это связано с большим разнообразием дипфейков в Deepwild, из-за чего другие методы не могут эффективно обобщать данные, полученные на основе наблюдаемых дипфейков».
В тестах использовались такие показатели, как показатель точности (ACC), площадь под кривой рабочих характеристик приемника (AUC) и частота равных ошибок (EER).
Контратаки?
Хотя СМИ характеризуют напряженность между разработчиками дипфейков и исследователями обнаружения дипфейков. в условиях технологической войны, можно утверждать, что первые просто пытаются создать более убедительный результат, а возросшая сложность обнаружения дипфейков является косвенным побочным продуктом этих усилий.
Попытаются ли разработчики устранить этот недавно обнаруженный недостаток, возможно, зависит от того, считают ли они, что нарушение регулярности может быть воспринято в дипфейковом видео невооруженным глазом как признак недостоверности, и что, следовательно, эта метрика имеет ценность. рассмотрение с чисто качественной точки зрения.
Хотя прошло уже пять лет с тех пор, как в сети появились первые дипфейки, дипфейк все еще остается относительно молодой технологией, и сообщество, пожалуй, больше озабочено деталями и разрешением, чем правильным контекстом или соответствием сигнатурам сжатого видео, оба из которых требуют определенного «ухудшения» качества вывода — именно с этим сейчас борется все сообщество дипфейков.
Если окажется, что общий консенсус заключается в том, что нарушение регулярности — это зарождающаяся характеристика, не влияющая на качество, может не предприниматься никаких усилий для его компенсации — даже если оно быть «отменено» некоторыми процедурами постобработки или внутриархитектурными процедурами, что далеко не ясно.
Впервые опубликовано 22 июля 2022 г.












