Искусственный интеллект
Обнаружение дипфейков на основе оригинальных биометрических признаков человека

В новой статье исследователей из Италии и Германии предлагается метод обнаружения дипфейковых видео на основе биометрического поведения лица и голоса, а не артефактов, созданных системами синтеза лиц, дорогостоящими решениями для нанесения водяных знаков или другими более громоздкими подходами.
Платформа требует ввода 10 или более разнообразных, не поддельных видеороликов на эту тему. Тем не менее, его не нужно специально обучать, переобучать или дополнять видео для каждого конкретного случая, поскольку его встроенная модель уже абстрагировала вероятные векторные расстояния между реальными и поддельными видео широко применимым образом.

Контрастное обучение лежит в основе подхода POI-Forensics. Векторы, полученные из исходного материала для каждого случая, сравниваются с теми же векторами в потенциально фальшивом видео, с аспектами и признаками, полученными как из видео, так и из аудиокомпонентов потенциально фальшивого видео. Источник: https://arxiv.org/pdf/2204.03083.pdf
Титулованный POI-судебная экспертиза, подход основан на движении и звуковых сигналах, уникальных для реального человека, которого дипфальсифицируют.
Хотя такая система могла бы позволить полностью автоматизированные, «предварительно обработанные» схемы аутентификации для знаменитостей, политиков, влиятельных лиц на YouTube и других людей, для которых легко доступно большое количество видеоматериалов, ее также можно было бы адаптировать к среде, в которой обычные жертвы технологий дипфейков потенциально могут иметь платформу для доказательства неаутентичности атак против них.

Визуализация извлеченных функций из подлинных и поддельных видео по четырем предметам в POI-Forensics через структура t-SNE.
Авторы утверждают, что POI-Forensics достигает нового уровня в обнаружении дипфейков. Сообщается, что в различных распространенных наборах данных в этой области эта структура обеспечивает улучшение показателей AUC на 3%, 10% и 7% для видео высокого качества, низкого качества и «атакованных» видео соответственно. Исследователи обещают выпустить код в ближайшее время.

Производительность POI-Forensics по сравнению с конкурирующими платформами SOTA пДФДК, DeepFakeTIMIT, ПоддельныйAVCelebV2 и КоДФ. Обучение в каждом случае проводилось на FaceForensics ++ и собственные ID-Показать на VoxCeleb2. Результаты включают видео высокого и низкого качества.
Авторы заявляют:
«Обучение проводится исключительно на реальных видео говорящих лиц, поэтому детектор не зависит от какого-либо конкретного метода манипулирования и обеспечивает высочайшую обобщающую способность. Кроме того, наш метод может обнаруживать как одномодальные (только аудио, только видео), так и мультимодальные (аудио-видео) атаки и устойчив к низкокачественным или поврежденным видео, опираясь только на семантические признаки высокого уровня. .'
Новый статье, который включает в себя элементы некоторых идей, основанных на видении авторов. ID-Показать проект 2021 года, называется Аудиовизуальное обнаружение лиц, представляющих интерес, DeepFake, и является совместным проектом Университета Федерико II в Неаполе и Мюнхенского технического университета.
Гонка дипфейковых вооружений
Чтобы победить систему обнаружения такого рода, дипфейковым системам и системам человеческого синтеза потребуется способность, по крайней мере, имитировать визуальные и звуковые биометрические сигналы от намеченной цели синтеза — технология, которая появится через много лет и, вероятно, останется в сфере внимания. дорогостоящие и проприетарные закрытые системы, разработанные компаниями VFX, которые будут иметь преимущество в сотрудничестве и участии намеченных целей (или их имущества, в случае имитации умерших людей).

Предыдущий подход авторов, ID-Reveal, полностью концентрировался на визуальной информации. Источник: https://arxiv.org/pdf/2012.02512.pdf
Успешные и популярные методы дипфейка, такие как обмен лицами и DeepFaceLab/В реальном времени в настоящее время не имеют возможности создавать такие детализированные биометрические аппроксимации, полагаясь в лучшем случае на талантливых имитаторов которым навязывается фальшивая личность, и гораздо чаще на соответствующих кадрах из дикой природы «похожих» людей. Структура основного кода 2017 года, который имеет небольшую модульность и остается исходным кодом для DFL и FaceSwap, не делает возможным добавление такого рода функций.
Эти два основных пакета дипфейков основаны на автоассоциатор. Альтернативные методы человеческого синтеза могут использовать генеративно-состязательную сеть (GAN) или поле нейронного излучения (НеРФ) подход к воссозданию личности человека; но у обоих этих направлений исследований впереди годы работы даже для создания полностью фотореалистичного человеческого видео.
За исключением аудио (фальшивых голосов), биометрическое моделирование находится далеко в списке проблем, стоящих перед синтезом человеческого изображения. В любом случае воспроизведение тембра и других качеств человеческого голоса не воспроизводит ни его причудливости и «рассказа», ни того, как реальный субъект использует семантическую конструкцию. Таким образом, даже совершенство голосовой симуляции, созданной искусственным интеллектом, не устраняет потенциальный брандмауэр биометрической аутентичности.
Только в Arxiv реализовано несколько стратегий и нововведений по обнаружению дипфейков. выходит каждую неделю. Недавние подходы основывались на Однородность голоса и лица, Гистограмма локального бинарного паттерна (ФФ-ЛБПХ), человеческое восприятие аудио дипфейков, анализ границ лица, учет деградации видео и «Судебная баллистика» – среди многих других.

Сегментированный анализ гистограмм является одним из последних методов, предлагаемых для улучшения обнаружения дипфейков. Источник: https://arxiv.org/pdf/2203.09928.pdf
Подход, данные и архитектура
POI-Forensics использует мультимодальный подход к проверке личности, используя программную биометрию на основе визуальных и звуковых сигналов. Фреймворк включает в себя отдельные аудио- и видеосети, которые в конечном итоге получают характеристические векторные данные, которые можно сравнить с теми же извлеченными функциями в изучаемом видео потенциального дипфейка.

Концептуальная архитектура POI-Forensics.
К целевым клипам можно применить как раздельный (аудио или видео), так и совмещенный анализ, в результате чего будет получен индекс подобия POI. Используемая контрастная функция потерь основана на 2021 г. академическое сотрудничество между Google Research, Бостонским университетом, Snap Inc. и MIT.
Базовый набор данных был разделен на основе идентичности. Для обучения было использовано 4608 удостоверений, а для валидации осталось 512. 500 идентификаторов, использованных в FakeAVCelebV2 (кандидат для тестирования, см. ниже), были исключены, чтобы получить неполяризованные результаты.
Две сети были обучены в течение 12 эпох с необычно большим размером пакета — 2304 пакета на эпоху, причем каждый пакет состоял из видеосегментов 8×8 — 8 сегментов для 8 разных идентификаторов. Оптимизатор Adam использовался с несвязанное снижение веса при скорости обучения 10-4, и снижение веса 0.01.
Тестирование и результаты
Наборы дипфейковых данных, протестированные для проекта, были предварительный просмотр набора данных DeepFake Detection Challenge, который включает обмен лицами по 68 предметам, из которых были выбраны 44 личности, которые имеют более девяти связанных видео, всего 920 реальных видео и 2925 поддельных видео; DeepFake-ТИМИТ, набор данных на основе GAN, содержащий 320 видеороликов по 32 предметам, всего 290 реальных видеороликов и 580 поддельных видеороликов продолжительностью не менее четырех секунд; ПоддельныйAVCelebV2, включающий 500 реальных видеороликов из Voxceleb2, и около 20,000 XNUMX поддельных видео из различных наборов данных, к которым был добавлен поддельный клонированный звук с помощью СВ2ТТС для совместимости; и KoDF, корейский набор данных дипфейков с 403 личностями, подделанными через FaceSwap, DeepFaceLab и ФСГАН, а также три модели движения первого порядка (Фомм).
Последний также имеет аудио-управляемый синтез лица. АТФХП, и вывод из Wav2Lip, при этом авторы использовали производный набор данных, включающий 276 реальных видео и 544 поддельных видео.
Используемые показатели включали площадь под кривой рабочей характеристики приемника (ППК) и примерно 10% «частоты ложных срабатываний», что было бы проблематично для фреймворков, которые включают и обучают поддельные данные, но эта проблема устраняется тем фактом, что POI-Forensics использует только подлинные видеоматериалы в качестве входных данных.
Методы были протестированы против Сефербеков детектор дипфейков, занявший первое место в Kaggle Deepfake Detection Вызов; ФТЦН (Fully Temporal Convolution Network), совместная работа Сямэньского университета Китая и Microsoft Research Asia; Губфорензикс, совместная работа 2021 года Имперского колледжа Лондона и Facebook; и ID-Показать, предыдущий проект нескольких исследователей новой статьи, в котором отсутствует аудио аспект и который использует 3D Morphable Models в сочетании с состязательным игровым сценарием для обнаружения фальшивого вывода.
По результатам (см. предыдущую таблицу выше) POI-Forensics опередил эталонного лидера Сефербекова на 2.5% по AUC и на 1.5% по точности. Производительность была более конкурентоспособной по сравнению с другими наборами данных в штаб-квартире.
Тем не менее, новый подход продемонстрировал заметное преимущество перед всеми конкурирующими эталонными методами для видео низкого качества, которые остаются наиболее вероятный сценарий в котором дипфейки склонны обманывать случайных зрителей, основанные на контекстах «реального мира».
Авторы утверждают:
«Действительно, в этом сложном сценарии только подходы, основанные на идентификации, продолжают обеспечивать хорошую производительность, поскольку они основаны на семантических функциях высокого уровня, достаточно устойчивых к искажениям изображения».
Учитывая, что PIO-Forensics использует только реальное видео в качестве исходного материала, достижение, возможно, преувеличено и предполагает, что использование собственных биометрических характеристик потенциальных жертв дипфейков является достойным путем к выходу из «холодной войны артефактов» между программным обеспечением дипфейков и обнаружением дипфейков. решения.
В финальном тесте исследователи добавили к входным данным враждебный шум — метод, который может надежно обмануть классификаторы. Ныне почтенный метод быстрого знака градиента по-прежнему оказывается особенно эффективным в этом отношении.
Как и ожидалось, стратегии состязательных атак снижали вероятность успеха для всех методов и наборов данных, при этом AUC снижалась с шагом от 10% до 38%. Однако только POI-Forensics и более ранний метод ID-Reveal авторов смогли поддерживать приемлемую производительность при этом сценарии атаки, предполагая, что высокоуровневые функции, связанные с мягкой биометрией, чрезвычайно устойчивы к уклонению от обнаружения дипфейков.
Авторы заключают:
«В целом, мы считаем, что наш метод — первая ступенька; в частности, использование семантических признаков более высокого уровня является перспективным направлением будущих исследований. Кроме того, мультимодальный анализ можно было бы дополнительно обогатить, включив больше информации из других областей, таких как текстовые данные».
Впервые опубликовано 8 апреля 2022 г.