Connect with us

Новый и более простой метод Deepfake, который превосходит предыдущие подходы

Искусственный интеллект

Новый и более простой метод Deepfake, который превосходит предыдущие подходы

mm

Сотрудничество между китайской группой исследователей искусственного интеллекта и исследователями из США разработало то, что может быть первым真正шим инновационным методом технологии Deepfake с момента возникновения этого явления четыре года назад.

Новый метод может выполнять замену лиц, который превосходит все существующие框架 на стандартных перцептивных тестах, без необходимости тщательно собирать и курировать большие специальные наборы данных и обучать их в течение недели для одной идентичности. Для примеров, представленных в новой статье, модели были обучены на всём двух популярных наборов данных знаменитостей, на одном NVIDIA Tesla P40 GPU в течение примерно трёх дней.

Полное видео в конце этой статьи. В этом примере из видео в дополнительных материалах для новой статьи лицо Скарлетт Йоханссон переносится на исходное видео. CihaNet удаляет проблему edge-маскирования при выполнении замены, формируя и реализуя более глубокие отношения между источником и целевой идентичностью, что означает конец 'очевидных границ' и других суперпозиционных глюков, которые возникают в традиционных подходах Deepfake. Source: https://mitchellx.github.io/#video

Полное видео доступно в конце этой статьи. В этом примере из видео в дополнительных материалах, предоставленных одним из авторов новой статьи, лицо Скарлетт Йоханссон переносится на исходное видео. CihaNet удаляет проблему edge-маскирования при выполнении замены, формируя и реализуя более глубокие отношения между источником и целевой идентичностью, что означает конец ‘очевидных границ’ и других суперпозиционных глюков, которые возникают в традиционных подходах Deepfake. Source: Source: https://mitchellx.github.io/#video

Новый подход удаляет необходимость ‘вставлять’ трансплантированную идентичность грубо в целевое видео, что часто приводит к характерным артефактам, которые появляются там, где фальшивое лицо заканчивается, и настоящее, основное лицо начинается. Вместо этого ‘галюцинационные карты’ используются для выполнения более глубокого смешивания визуальных аспектов, потому что система отделяет идентичность от контекста намного более эффективно, чем текущие методы, и поэтому может смешать целевую идентичность на более глубоком уровне.

Из статьи. CihaNet-преобразования осуществляются через галюцинационные карты (нижний ряд). Система использует контекстную информацию (т.е. направление лица, волосы, очки и другие препятствия и т. д.) полностью из изображения, в которое будет перенесена новая идентичность, и информацию о лицевой идентичности полностью из человека, который будет вставлен в изображение. Эта способность отделять лицо от контекста является критической для успеха системы. Source: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Из статьи. CihaNet-преобразования осуществляются через галюцинационные карты (нижний ряд). Система использует контекстную информацию (т.е. направление лица, волосы, очки и другие препятствия и т. д.) полностью из изображения, в которое будет перенесена новая идентичность, и информацию о лицевой идентичности полностью из человека, который будет вставлен в изображение. Эта способность отделять лицо от контекста является критической для успеха системы. Source: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Эффективно новая галюцинационная карта обеспечивает более полный контекст для замены, в отличие от жестких масок, которые часто требуют обширной курирования (и в случае DeepFaceLab, отдельного обучения) при ограниченной гибкости в плане реального включения двух идентичностей.

Из примеров, предоставленных в дополнительных материалах, используя оба набора данных FFHQ и Celeb-A HQ, на VGGFace и Forensics++. Первые две колонки показывают случайно выбранные (реальные) изображения для замены. Следующие четыре колонки показывают результаты замены, используя четыре наиболее эффективных метода, в настоящее время доступных, а последняя колонка показывает результат из CihaNet. Был использован репозиторий FaceSwap, а не более популярный DeepFaceLab, поскольку оба проекта являются форками исходного кода 2017 года Deepfakes на GitHub. Хотя каждый проект с тех пор добавил модели, методы, разнообразные интерфейсы и дополнительные инструменты, основной код, который делает Deepfakes возможными, никогда не менялся и остается общим для обоих. Source: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Статья статья, озаглавленная Одноэтапная сеть галюцинации контекста и идентичности, написана исследователями, связанными с JD AI Research и Университетом Массачусетса в Амхерсте, и была поддержана Национальной ключевой программой научно-технического развития Китая под грантом № 2020AAA0103800. Она была представлена на 29-й Международной конференции ACM по мультимедиа, 20-24 октября, в Чэнду, Китай.

Нет необходимости в ‘лицевом’ паритете

И наиболее популярное текущее программное обеспечение Deepfake, DeepFaceLab, и конкурирующий форк FaceSwap, выполняют извилистые и часто手-curated рабочие процессы, чтобы определить, в каком направлении лицо, какие препятствия на пути, которые необходимо учитывать (снова, вручную), и должны справиться с многими другими раздражающими препятствиями (включая освещение), которые делают их использование далеко от ‘point-and-click’ опыта, который неверно изображен в СМИ с момента возникновения Deepfakes.

Напротив, CihaNet не требует, чтобы две изображения были обращены直接 к камере, чтобы извлечь и использовать полезную информацию об идентичности из одного изображения.

В этих примерах набор программного обеспечения Deepfake-контендентов сталкивается с задачей замены лиц, которые не только различны по идентичности, но и не обращены в одну и ту же сторону. Программное обеспечение, полученное из исходного репозитория Deepfakes (такого как очень популярный DeepFaceLab и FaceSwap, показанный выше), не может справиться с разницей в углах между двумя изображениями для замены (см. третью колонку). Тем временем, CihaNet может абстрагировать идентичность правильно, поскольку 'поза' лица не является неотъемлемой частью информации об идентичности.

В этих примерах набор программного обеспечения Deepfake-контендентов сталкивается с задачей замены лиц, которые не только различны по идентичности, но и не обращены в одну и ту же сторону. Программное обеспечение, полученное из исходного репозитория Deepfakes (такого как очень популярный DeepFaceLab и FaceSwap, показанный выше), не может справиться с разницей в углах между двумя изображениями для замены (см. третью колонку). Тем временем, CihaNet может абстрагировать идентичность правильно, поскольку ‘поза’ лица не является неотъемлемой частью информации об идентичности.

Архитектура

Проект CihaNet, по словам авторов, был вдохновлен сотрудничеством 2019 года между Microsoft Research и Пекинским университетом, называемым FaceShifter, хотя он делает некоторые заметные и критические изменения в основной архитектуре старого метода.

FaceShifter использует две сети Adaptive Instance Normalization (AdaIN) для обработки информации об идентичности, которая затем транспонируется в целевое изображение через маску, подобно текущему популярному программному обеспечению Deepfake (и со всеми связанными с этим ограничениями), используя дополнительную HEAR-Net (которая включает отдельно обученную подсеть, обученную на препятствиях-окклюзиях – дополнительный слой сложности).

Вместо этого новая архитектура直接 использует эту ‘контекстную’ информацию для трансформационного процесса, через двухэтапную каскадную операцию Adaptive Instance Normalization (C-AdaIN), которая обеспечивает согласованность контекста (т.е. кожа лица и окклюзии) областей, связанных с идентичностью.

Вторая подсеть, важная для системы, называется Блоком замены (SwapBlk), который генерирует интегрированную функцию из контекста ссылочного изображения и встроенной информации об идентичности из исходного изображения, минуя несколько стадий, необходимых для этого по обычным средствам.

Чтобы помочь различать контекст и идентичность, галюцинационная карта генерируется для каждого уровня, заменяя мягкую сегментационную маску, и действуя на более широкий спектр функций для этой критической части процесса Deepfake.

По мере роста значения галюцинационной карты (показано справа) появляется более четкий путь между идентичностями.

По мере роста значения галюцинационной карты (показано справа) появляется более четкий путь между идентичностями.

Таким образом, весь процесс замены выполняется в одной стадии и без постобработки.

Данные и тестирование

Чтобы попробовать систему, исследователи обучили четыре модели на двух высокопопулярных и разнообразных открытых наборах изображений – CelebA-HQ и наборе данных Flickr-Faces-HQ от NVIDIA (FFHQ), каждый из которых содержит 30 000 и 70 000 изображений соответственно.

Ни прунинг, ни фильтрация не были выполнены на этих базовых наборах данных. В каждом случае исследователи обучили всю базу данных на одном Tesla GPU в течение примерно трёх дней, с скоростью обучения 0,0002 на оптимизации Adam.

Затем они отрендерили ряд случайных замен среди тысяч личностей, представленных в наборах данных, без учета того, являются ли лица похожими или даже совпадают по полу, и сравнили результаты CihaNet с выводом из четырех ведущих фреймворков Deepfake: FaceSwap (который заменяет более популярный DeepFaceLab, поскольку он разделяет корневой кодовый базис в исходном репозитории 2017 года, который привел Deepfakes в мир); вышеупомянутый FaceShifter; FSGAN; и SimSwap.

При сравнении результатов через VGG-Face, FFHQ, CelebA-HQ и FaceForensics++ авторы обнаружили, что их новая модель превосходит все предыдущие модели, как указано в таблице ниже.

Три метрики, использованные при оценке результатов, были Структурное сходство (SSIM), ошибка оценки позы и точность извлечения идентичности, которая рассчитывается на основе процента успешно извлеченных пар.

Исследователи утверждают, что CihaNet представляет собой лучший подход в плане качественных результатов и заметный прогресс в текущем состоянии искусства технологий Deepfake, удаляя бремя обширных и трудоемких архитектур масок и методологий, и достигая более полезного и действенного разделения идентичности и контекста.

Взгляните ниже, чтобы увидеть дальнейшие видео-примеры нового метода. Вы можете найти полное видео здесь.

Из дополнительных материалов для новой статьи, CihaNet выполняет замену лиц на различных идентичностях. Source: https://mitchellx.github.io/#video

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.