Искусственный интеллект

Исследователи выявляют стойкую черту глубоких подделок, которая может помочь в долгосрочном обнаружении

Published July 22, 2022

Updated April 28, 2026

Martin Anderson

С тех пор, как в 2018 году начали появляться первые решения для обнаружения глубоких подделок, сектор исследований компьютерного зрения и безопасности стремился определить необходимую характеристику видео глубоких подделок – сигналы, которые могли бы оказаться устойчивыми к улучшениям популярных технологий синтеза лиц (таких как пакеты глубоких подделок на основе автоэнкодеров, такие как DeepFaceLab и FaceSwap, и использование Генеративных противостоящих сетей для воспроизведения, симуляции или изменения человеческих лиц).

Многие из “признаков”, таких как отсутствие моргания, стали устаревшими из-за улучшений глубоких подделок, тогда как потенциальное использование цифровых методов проверки подлинности (таких как инициатива Content Authenticity Initiative, возглавляемая Adobe) – включая подходы на основе блокчейна и цифровую водяную марку потенциальных источников фотографий – либо требуют значительных и дорогостоящих изменений в существующем массиве доступных источников изображений в Интернете, либо же потребуют заметных кооперативных усилий среди стран и правительств для создания систем надзора и аутентификации.

Следовательно, было бы очень полезно, если бы можно было выявить действительно фундаментальную и стойкую черту в содержании изображений и видео, в которых изменены, изобретены или поменяны человеческие лица; характеристику, которая могла бы быть выведена直接 из фальсифицированных видео, без крупномасштабной проверки, хэширования криптографических активов, проверки контекста, оценки правдоподобия, процедур обнаружения артефактов или других трудоемких подходов к обнаружению глубоких подделок.

Глубокие подделки в кадре

Новое исследовательское сотрудничество между Китаем и Австралией считает, что оно нашло это “священное сокровище” в виде нарушения регулярности.

Авторы разработали метод сравнения пространственной целостности и временной непрерывности реальных видео с теми, которые содержат контент глубоких подделок, и обнаружили, что любое вмешательство глубоких подделок нарушает регулярность изображения, хотя бы и незаметно.

Это частично связано с тем, что процесс глубоких подделок разбивает целевое видео на кадры и применяет эффект обученной модели глубоких подделок к каждому (замененному) кадру. Популярные распространения глубоких подделок действуют аналогичным образом, как и аниматоры, в этом отношении, уделяя больше внимания аутентичности каждого кадра, чем вкладу каждого кадра в общую пространственную целостность и временную непрерывность видео.

Из статьи: А) Различия между типами данных. Здесь мы видим, что нарушения p-fake изменяют пространственно-временное качество изображения таким же образом, как и глубокие подделки, без замены идентичности. Б) Анализ шума трех типов данных, показывающий, как p-fake имитирует нарушение глубоких подделок. В) Временная визуализация трех типов данных, с реальными данными, демонстрирующими большую целостность колебаний. Г) Визуализация T-SNE извлеченных особенностей для реальных, фальшивых и p-fake видео . Источник: https://arxiv.org/pdf/2207.10402.pdf

Это не так, как видеокодек обрабатывает серию кадров, когда создается или обрабатывается оригинальная запись. Чтобы сэкономить на размере файла или сделать видео подходящим для потоковой передачи, видеокодек отбрасывает огромное количество информации. Даже при настройках самого высокого качества кодек будет выделять ключевые кадры (переменная, которую может задать пользователь) – целые, практически не сжатые изображения, которые происходят на предварительно заданном интервале в видео.

Межкадровые кадры между ключевыми кадрами, до определенной степени, оцениваются как вариант кадров и будут повторно использовать как можно больше информации из соседних ключевых кадров, а не быть полными кадрами сами по себе.

Слева, полный ключевой кадр, или ‘i-кадр’, хранится в сжатом видео, за счет увеличения размера файла; справа, межкадровый ‘дельта-кадр’ повторно использует любую применимую часть более информативного ключевого кадра. Источник: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

Таким образом, блок (содержащий x количество кадров, в зависимости от настроек ключевых кадров) является, по сути, наименьшей единицей, рассматриваемой в типичном сжатом видео, а не любой отдельный кадр. Даже ключевой кадр, известный как i-кадр, является частью этой единицы.

В терминах традиционной карикатурной анимации кодек выполняет вид твининга, с ключевыми кадрами, действующими как опоры для межкадровых, полученных кадров, известных как дельта-кадры.

Напротив, наложение глубоких подделок уделяет огромное внимание и ресурсы каждому отдельному кадру, не учитывая контекст кадра и не делая позволения для того, как сжатие и блоковое кодирование влияют на характеристики “аутентичного” видео.

Более близкий взгляд на разрыв между временным качеством аутентичного видео (слева) и тем же видео, когда оно нарушается глубокими подделками (справа).

Хотя некоторые из лучших создателей глубоких подделок используют обширную постобработку, в пакетах, таких как After Effects, и хотя распределение DeepFaceLab имеет некоторую родную возможность применять процедуры “смешивания”, такие как размытие движения, такие хитрости не влияют на несоответствие пространственного и временного качества между аутентичными и глубокими подделками видео.

Новая статья озаглавлена Обнаружение глубоких подделок путем создания пространственно-временного нарушения регулярности и исходит от исследователей из Университета Цинхуа, Департамента технологии компьютерного зрения (VIS) в Baidu Inc. и Университета Мельбурна

‘Фальшивые’ фальшивые видео

Исследователи, стоящие за статьей, включили функциональность исследования в модуль “плаг и играй” под названием Псевдо-фальшивый генератор (P-fake Generator), который преобразует реальные видео в фальшивые фальшивые видео, нарушая их таким же образом, как и фактический процесс глубоких подделок, без фактического выполнения каких-либо операций глубоких подделок.

Тесты показывают, что модуль можно добавить ко всем существующим системам обнаружения глубоких подделок практически без каких-либо затрат ресурсов, и что он заметно улучшает их производительность.

Открытие может помочь решить одну из других препятствий в исследованиях обнаружения глубоких подделок: нехватку аутентичных и актуальных наборов данных. Поскольку генерация глубоких подделок является сложным и трудоемким процессом, сообщество разработало ряд наборов данных глубоких подделок за последние пять лет, многие из которых довольно устарели.

Выделив нарушение регулярности как сигнал глубоких подделок, независимый от глубоких подделок, для видео, измененных пост-фактум, новый метод делает возможным генерировать бесконечные образцы и наборы данных видео, которые фокусируются на этом аспекте глубоких подделок.

Обзор блока STE, где канальное временное свертывание используется как стимул для генерации пространственно-временных улучшенных кодирований, в результате чего получается тот же сигнальный след, который даже очень убедительная глубокая подделка даст. С помощью этого метода можно генерировать ‘фальшивые’ фальшивые видео, которые несут те же сигнальные характеристики, что и любое измененное, глубокоподобное видео, и которые не зависят от конкретных распределений или от волатильных аспектов, таких как поведение особенностей или алгоритмические артефакты.

Тесты

Исследователи провели эксперименты на шести известных наборах данных, используемых в исследованиях обнаружения глубоких подделок: FaceForensics++ (FF++); WildDeepFake; Превью задачи обнаружения глубоких подделок (DFDCP); Celeb-DF; Обнаружение глубоких подделок (DFD); и Face Shifter (FSh).

Для FF++ исследователи обучили свою модель на исходном наборе данных и протестировали каждую из четырех подмножеств отдельно. Без использования каких-либо материалов глубоких подделок в обучении новый метод смог превзойти результаты, достигнутые на данный момент.

Метод также занял первое место, когда сравнивались с набором данных FF++ C23, сжатым, который предоставляет примеры, содержащие артефакты сжатия, которые достоверны в реальных условиях просмотра глубоких подделок.

Авторы комментируют:

‘Результаты внутри FF++ подтверждают осуществимость нашей основной идеи, в то время как общая универсальность остается серьезной проблемой для существующих методов обнаружения глубоких подделок, поскольку производительность не гарантируется при тестировании на глубоких подделках, сгенерированных незнакомыми методами.

‘Рассмотрите дальше реальность гонки вооружений между детекторами и подделками, универсальность является важным критерием для оценки эффективности метода обнаружения в реальном мире.’

Хотя исследователи провели ряд под-тестов (см. статью для подробностей) вокруг ‘робастности’ и изменения типов видео (т.е. реальных, ложных, p-fake и т.д.), наиболее интересные результаты получены из теста на межнаборную производительность.

Для этого авторы обучили свою модель на вышеупомянутой ‘реальной’ версии FF++ C23 и протестировали ее против четырех наборов данных, получив, по заявлению авторов, лучшую производительность во всех них.

Результаты межнаборного испытания. Статья отмечает, что SBI использует аналогичный подход к подходу авторов, в то время как, по утверждению исследователей, p-fake показывает лучшую производительность для пространственно-временного нарушения регулярности.

Статья гласит:

‘На самом сложном Deepwild наше метод превосходит метод SOTA примерно на 10 процентных пунктов в терминах AUC%. Мы считаем, что это связано с большой разнообразностью глубоких подделок в Deepwild, которая делает другие методы неспособными хорошо обобщаться из виденных глубоких подделок.’

Метрики, использованные для тестов, были Оценка точности (ACC), Площадь под кривой оперативной характеристики получателя (AUC) и Коэффициент равных ошибок (EER).

Контр-атаки?

Хотя средства массовой информации характеризуют напряженность между разработчиками глубоких подделок и исследователями обнаружения глубоких подделок в терминах технологической войны, можно утверждать, что первые просто пытаются сделать более убедительный вывод, и что возросшая трудность обнаружения глубоких подделок является побочным продуктом этих усилий.

Неизвестно, попытаются ли разработчики устранить это недавно выявленное слабое место, зависит, возможно, от того, чувствуют ли они, что нарушение регулярности можно воспринять в видео глубоких подделок человеческим глазом как знак неаутентичности, и что, следовательно, эта метрика стоит устранения с чисто качественной точки зрения.

Хотя пять лет прошли с тех пор, как первые глубокие подделки появились в Интернете, технология глубоких подделок все еще относительно нова, и сообщество, возможно, более увлечено деталями и разрешением, чем правильным контекстом или соответствием сигналов сжатого видео, что требует определенного “деградации” вывода – именно того, против чего вся общность глубоких подделок в настоящее время борется.

Если общее мнение там окажется таким, что нарушение регулярности является зарождающимся сигналом, который не влияет на качество, может не быть никаких усилий, чтобы компенсировать его – даже если его можно “отменить” некоторыми постобработками или внутри-архитектурными процедурами, что далеко не очевидно.

Опубликовано впервые 22 июля 2022 года.