заглушки Новый и более простой метод дипфейка, который превосходит предыдущие подходы - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Новый и более простой метод дипфейка, который превосходит предыдущие подходы

mm
обновленный on

Сотрудничество между китайской исследовательской группой в области искусственного интеллекта и исследователями из США позволило разработать, возможно, первую настоящую инновацию в технологии дипфейков с тех пор, как это явление появилось четыре года назад.

Новый метод может выполнять замену лица, которая превосходит все другие существующие платформы в стандартных тестах на восприятие, без необходимости тщательно собирать и обрабатывать большие специализированные наборы данных и обучать их в течение недели только для одной личности. Для примеров, представленных в новой статье, модели обучались на цельность двух популярных наборов данных о знаменитостях на одном графическом процессоре NVIDIA Tesla P40 в течение примерно трех дней.

Полное видео встроено в конце этой статьи. В этом отрывке из видео в дополнительных материалах к новой газете лицо Скарлетт Йоханссон перенесено на исходное видео. CihaNet устраняет проблему маскирования границ при обмене, формируя и вводя в действие более глубокие отношения между исходной и целевой идентичностями, что означает конец «очевидным границам» и другим сбоям наложения, которые возникают в традиционных подходах к дипфейкам. Источник: Источник: https://mitchellx.github.io/#video

Полное видео доступно в конце этой статьи. В этом отрывке из видео в дополнительных материалах, предоставленных одним из авторов новой статьи, лицо Скарлетт Йоханссон перенесено на исходное видео. CihaNet устраняет проблему маскирования границ при обмене, формируя и вводя в действие более глубокие отношения между исходной и целевой идентичностями, что означает конец «очевидным границам» и другим сбоям наложения, которые возникают в традиционных подходах к дипфейкам. Источник: Источник: https://mitchellx.github.io/#video

Новый подход избавляет от необходимости грубо «вставлять» трансплантированную личность в целевое видео, что часто приводит к ложным выводам. артефактов которые появляются там, где заканчивается фальшивое лицо и начинается настоящее лицо. Скорее, «карты галлюцинаций» используются для более глубокого смешения визуальных аспектов, потому что система отделяет идентичность от контекста гораздо эффективнее, чем современные методы, и, следовательно, может смешивать целевую идентичность на более глубоком уровне.

Из бумаги. Преобразования CihaNet облегчаются с помощью карт галлюцинаций (нижний ряд). Система использует контекстную информацию (т. е. направление лица, волосы, очки и другие окклюзии и т. д.) полностью из изображения, на которое будет наложена новая личность, и информацию об идентификации лица полностью от человека, который должен быть вставлен в изображение. Эта способность отделять лицо от контекста имеет решающее значение для успеха системы. Источник: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257.

Из бумаги. Преобразования CihaNet облегчаются с помощью карт галлюцинаций (нижний ряд). Система использует контекстную информацию (т. е. направление лица, волосы, очки и другие окклюзии и т. д.) полностью из изображения, на которое будет наложена новая личность, и информацию об идентификации лица полностью от человека, который должен быть вставлен в изображение. Эта способность отделять лицо от контекста имеет решающее значение для успеха системы. Источник: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257.

По сути, новая карта галлюцинаций обеспечивает более полный контекст для обмена, в отличие от жестких масок, которые часто требуют тщательного контроля (а в случае с DeepFaceLab, отдельное обучение), обеспечивая при этом ограниченную гибкость с точки зрения реального объединения двух идентичностей.

Из образцов, представленных в дополнительных материалах, с использованием наборов данных FFHQ и Celeb-A HQ в VGGFace и Forensics++. Первые два столбца показывают случайно выбранные (реальные) изображения для замены. Следующие четыре столбца показывают результаты обмена с использованием четырех наиболее эффективных методов, доступных в настоящее время, а последний столбец показывает результат от CihaNet. Был использован репозиторий FaceSwap, а не более популярный DeepFaceLab, поскольку оба проекта являются ответвлениями исходного кода Deepfakes 2017 года на GitHub. Хотя с тех пор каждый проект добавлял модели, методы, разнообразные пользовательские интерфейсы и дополнительные инструменты, базовый код, который делает возможными дипфейки, никогда не менялся и остается общим для обоих. Источник: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Ассоциация бумаги, Под названием Одноэтапная сеть галлюцинаций контекста и идентичности, создан исследователями, связанными с JD AI Research и Массачусетским университетом в Амхерсте, и был поддержан Национальной ключевой программой исследований и разработок Китая в рамках гранта № 2020AAA0103800. Он был представлен на 29-й Международной конференции ACM по мультимедиа, проходившей с 20 по 24 октября в Чэнду, Китай.

Нет необходимости в паритете «лицом к лицу»

Как самое популярное в настоящее время программное обеспечение для дипфейков, DeepFaceLab, так и конкурирующий форк FaceSwap выполняют сложные и часто ручные рабочие процессы, чтобы определить, в какую сторону наклонено лицо, какие препятствия на пути необходимо учитывать (опять же, вручную). , и должны справляться со многими другими раздражающими препятствиями (включая освещение), которые делают их использование далеким от опыта «укажи и щелкни», неточно изображаемого в средствах массовой информации с момента появления дипфейков.

В отличие от этого, CihaNet не требует, чтобы два изображения были обращены непосредственно к камере, чтобы извлечь и использовать полезную идентификационную информацию из одного изображения.

В этих примерах перед набором претендентов на программное обеспечение дипфейков стоит задача поменять местами лица, которые не только отличаются по идентичности, но и обращены в разные стороны. Программное обеспечение, полученное из оригинального репозитория дипфейков (например, чрезвычайно популярные DeepFaceLab и FaceSwap, изображенные выше), не может справиться с несоответствием углов между двумя изображениями, которые нужно поменять местами (см. третий столбец). Между тем, Cihanet может правильно абстрагировать личность, поскольку «поза» лица не является неотъемлемой частью информации об личности.

В этих примерах перед набором претендентов на программное обеспечение дипфейков стоит задача поменять местами лица, которые не только отличаются по идентичности, но и обращены в разные стороны. Программное обеспечение, полученное из оригинального репозитория дипфейков (например, чрезвычайно популярные DeepFaceLab и FaceSwap, изображенные выше), не может справиться с несоответствием углов между двумя изображениями, которые нужно поменять местами (см. третий столбец). Между тем, CihaNet может правильно абстрагировать личность, поскольку «поза» лица не является неотъемлемой частью идентификационной информации.

Архитектура

Проект CihaNet, по словам авторов, был вдохновлен сотрудничеством между Microsoft Research и Пекинским университетом в 2019 году под названием Фейсшифтер, хотя он вносит некоторые заметные и критические изменения в базовую архитектуру старого метода.

FaceShifter использует две нормализации адаптивного экземпляра (АдаИН) сети для обработки идентификационной информации, данные которой затем переносятся в целевое изображение через маску, аналогично нынешнему популярному программному обеспечению для дипфейков (и со всеми его ограничениями), используя дополнительный СЛУШАТЬ-Net (который включает в себя отдельно обученную подсеть, обученную на препятствиях окклюзии — дополнительный уровень сложности).

Вместо этого новая архитектура напрямую использует эту «контекстную» информацию для самого процесса преобразования посредством одноэтапной операции каскадной нормализации адаптивных экземпляров (C-AdaIN), которая обеспечивает согласованность контекста (т. е. кожи лица и окклюзии) идентификатора. соответствующие области.

Вторая подсеть, имеющая решающее значение для системы, называется Swapping Block (SwapBlk), которая генерирует интегрированную функцию из контекста эталонного изображения и встроенной «идентификационной» информации из исходного изображения, минуя несколько этапов, необходимых для достижения этого путем обычные текущие средства.

Чтобы помочь отличить контекст от идентичности, карта галлюцинаций генерируется для каждого уровня, заменяя маску мягкой сегментации и воздействуя на более широкий спектр функций для этой критической части процесса дипфейка.

По мере того, как значение карты галлюцинаций (изображение внизу справа) растет, появляется более четкий путь между идентичностями.

По мере того, как значение карты галлюцинаций (изображение внизу справа) растет, появляется более четкий путь между идентичностями.

Таким образом, весь процесс подкачки выполняется за один этап и без постобработки.

Данные и тестирование

Чтобы опробовать систему, исследователи обучили четыре модели на двух очень популярных и разнообразных наборах данных открытых изображений: CelebA-HQ  и набор данных Flickr-Faces-HQ от NVIDIA (ФФШК), каждый из которых содержит 30,000 70,000 и XNUMX XNUMX изображений соответственно.

Для этих базовых наборов данных не выполнялась обрезка или фильтрация. В каждом случае исследователи обучали весь набор данных на одном графическом процессоре Tesla в течение трех дней со скоростью обучения 0.0002 при оптимизации Адама.

Затем они произвели серию случайных обменов между тысячами личностей, представленных в наборах данных, независимо от того, были ли лица одинаковыми или даже совпадали по полу, и сравнили результаты CihaNet с выходными данными четырех ведущих фреймворков: обмен лицами (что означает более популярный DeepFaceLab, так как он разделяет корневую кодовую базу в оригинальный репозиторий 2017 года которые принесли в мир дипфейки); вышеупомянутый FaceShifter; ФСГАНи Симсвоп.

При сравнении результатов через VGG-лицо, FFHQ, CelebA-HQ и FaceForensics ++, авторы обнаружили, что их новая модель превзошла все предыдущие модели, как показано в таблице ниже.

При оценке результатов использовались три показателя: структурное сходство (ССИМ), ошибка оценки позы и Точность поиска идентификатора, вычисляемый на основе процента успешно извлеченных пар.

Исследователи утверждают, что CihaNet представляет собой превосходный подход с точки зрения качественных результатов и заметный прогресс по сравнению с текущим состоянием технологий дипфейков за счет устранения бремени обширных и трудоемких архитектур и методологий маскировки и достижения более полезного и действенное отделение идентичности от контекста.

Посмотрите ниже, чтобы увидеть дополнительные видео-примеры новой техники. Вы можете найти полное видео здесь.

Из дополнительных материалов к новой газете CihaNet выполняет замену лица на различных личностях. Источник: https://mitchellx.github.io/#video