заглушки Распутывание — следующая революция дипфейков - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Распутывание — следующая революция дипфейков

mm
обновленный on

Расширение данных CGI используется в новом проекте, чтобы получить больший контроль над дипфейковыми изображениями. Хотя вы все еще не можете эффективно использовать CGI-головы, чтобы заполнить недостающие пробелы в дипфейковых наборах данных о лицах, новая волна исследований по отделению личности от контекста означает, что вскоре вам, возможно, не придется этого делать.

Создатели некоторых из самых успешных вирусных дипфейковых видеороликов за последние несколько лет очень тщательно отбирают свои исходные видео, избегая продолжительных снимков профиля (например, тех, которые популяризируются полицейскими процедурами задержания), острых ракурсов и необычных или преувеличенных выражений лица. . Все чаще демонстрационные видеоролики, созданные вирусными дипфейкерами, представляют собой отредактированные компиляции, в которых выбираются «самые простые» ракурсы и выражения для дипфейка.

На самом деле, наиболее подходящим целевым видео, в которое можно вставить дипфейковую знаменитость, является то, где оригинальный человек (чья личность будет стерта дипфейком) смотрит прямо в камеру с минимальным диапазоном выражений.

В большинстве популярных дипфейков последних лет субъекты показывались прямо перед камерой и либо содержали только популярные выражения (например, улыбку), которые можно легко извлечь из материалов папарацци с красной ковровой дорожки, либо (как в случае с подделкой Сильвестра Сталлоне 2019 г. как Терминатор, изображенный слева), в идеале вообще без выражения, поскольку нейтральные выражения чрезвычайно распространены, что позволяет легко включать их в модели дипфейков.

В большинстве популярных дипфейков последних лет субъекты показывались прямо перед камерой и либо содержали только популярные выражения (например, улыбку), которые можно легко извлечь из материалов папарацци с красной ковровой дорожки, либо (как в случае с подделкой Сильвестра Сталлоне 2019 г. как Терминатор, изображенный слева), в идеале вообще без выражения, поскольку нейтральные выражения чрезвычайно распространены, что позволяет легко включать их в модели дипфейков.

Поскольку дипфейк-технологии, такие как DeepFaceLab и обмен лицами выполнять эти более простые свопы очень хорошо, мы настолько ослеплены тем, что они делают, что не замечаем того, на что они не способны, и — часто — даже не пытаемся:

Фрагменты из нашумевшего дипфейкового видео, в котором Арнольд Шварценеггер превращается в Сильвестра Сталлоне — если только ракурсы не слишком хитрые. Профили остаются постоянной проблемой с современными подходами к дипфейкам, отчасти потому, что программное обеспечение с открытым исходным кодом, используемое для определения поз лица в рамках дипфейков, не оптимизировано для видов сбоку, но в основном из-за нехватки подходящего исходного материала в одном или обоих необходимых наборы данных. Источник: https://www.youtube.com/watch?v=AQvCmQFScMA

Фрагменты из нашумевшего дипфейкового видео, в котором Арнольд Шварценеггер превращается в Сильвестра Сталлоне — если только ракурсы не слишком хитрые. Профили остаются постоянной проблемой с текущими подходами к дипфейкам, отчасти потому, что программное обеспечение с открытым исходным кодом, используемое для определения поз лица в рамках дипфейков, не оптимизировано для видов сбоку, но в основном из-за нехватки подходящего исходного материала в одном или обоих необходимых наборы данных. Источник: https://www.youtube.com/watch?v=AQvCmQFScMA

Новое исследование из Израиля предлагает новый метод использования синтетических данных, таких как головы компьютерной графики, для переноса дипфейкинга в 2020-е годы, путем истинного отделения идентичности лица (т.е. основных характеристик лица «Тома Круза» со всех сторон) от их контекста (т.е. глядя вверх, глядя в сторону, хмурый, хмурится в темноте, брови нахмурены, глаза закрытыИ т.д.).

Новая система дискретно отделяет позу и контекст (например, подмигивание) от кодирования личности человека, используя несвязанные синтетические данные о лице (на фото слева). В верхнем ряду мы видим «подмигивание», перенесенное на личность Барака Обамы, вызванное изученным нелинейным путем скрытого пространства GAN, представленным CGI-изображением слева. В нижнем ряду мы видим перенесенную на бывшего президента растянутую фасетку угла рта. Внизу справа мы видим, что обе характеристики применяются одновременно. Источник: https://arxiv.org/pdf/2111.08419.pdf

Новая система дискретно отделяет позу и контекст (например, подмигивание) от кодирования личности человека, используя несвязанные синтетические данные о лице (на фото слева). В верхнем ряду мы видим «подмигивание», перенесенное на личность Барака Обамы, вызванное изученным нелинейным путем скрытого пространства GAN, представленным CGI-изображением слева. В нижнем ряду мы видим перенесенную на бывшего президента растянутую фасетку угла рта. Внизу справа мы видим, что обе характеристики применяются одновременно. Источник: https://arxiv.org/pdf/2111.08419.pdf

Это не просто дипфейк-марионетка, техника, более подходящая для аватаров и частичной синхронизации губ, и имеющая ограниченный потенциал для полноценных дипфейковых трансформаций видео.

Скорее, это представляет собой путь вперед к фундаментальному разделению инструментальности (например, «изменить угол наклона головы», 'создать хмурый взгляд') от личности, предлагая путь к высокоуровневой, а не «производной» структуре дипфейка, основанной на синтезе изображений.

Новая газета называется Delta-GAN-Encoder: кодирование семантических изменений для явного редактирования изображений с использованием нескольких синтетических образцов, и исходит от исследователей из Техниона — Израильского технологического института.

Чтобы понять, что означает эта работа, давайте взглянем на то, как в настоящее время производятся дипфейки везде, от дипфейковых порносайтов до Индустриальный свет и магия (поскольку репозиторий с открытым исходным кодом DeepFaceLab в настоящее время доминирует как в «любительском», так и в профессиональном дипфейкинге).

Что сдерживает современные технологии дипфейков?

В настоящее время дипфейки создаются путем обучения кодировщик / декодер модель машинного обучения на двух папках с изображениями лиц — человека, которого вы хотите «закрасить» (в предыдущем примере это Арни), и человека, которого вы хотите наложить на отснятый материал (Слай).

Примеры различных поз и условий освещения для двух разных наборов лиц. Обратите внимание на отличительное выражение в конце третьей строки в столбце А, которое вряд ли будет иметь близкий эквивалент в другом наборе данных.

Примеры различных поз и условий освещения для двух разных наборов лиц. Обратите внимание на отличительное выражение в конце третьей строки в столбце А, которое вряд ли будет иметь близкий эквивалент в другом наборе данных.

Затем система кодер/декодер сравнивает каждое изображение в каждой папке друг к другу, поддерживая, улучшая и повторяя эту операцию в течение сотен тысяч итераций (часто до недели), пока он не поймет основные характеристики обеих идентичностей достаточно хорошо, чтобы поменять их местами по желанию.

Для каждого из двух людей, которых в процессе обменивают, то, что архитектура дипфейка узнает об идентичности, это запутался в контексте. Он не может изучить и применить принципы общей позы «навсегда», но нуждается в большом количестве примеров в обучающем наборе данных для каждой личности, которая будет участвовать в смене лица.

Поэтому, если вы хотите поменять местами две личности, которые делают что-то более необычное, чем просто улыбаются или смотрят прямо в камеру, вам понадобится многих экземпляры этой конкретной позы / идентичности на двух наборах лиц:

Поскольку характеристики лицевого идентификатора и позы в настоящее время настолько переплетены, для обучения эффективной модели дипфейка в таких системах, как DeepFaceLab, необходимо широкое соотношение выражения, позы головы и (в меньшей степени) освещения в двух наборах лицевых данных. Чем меньше конкретная конфигурация (например, «вид сбоку/улыбка/освещенный солнцем») присутствует в обоих наборах лиц, тем менее точно она будет отображаться в дипфейковом видео, если это необходимо.

Поскольку характеристики лицевого идентификатора и позы в настоящее время настолько переплетены, для обучения эффективной модели дипфейка в таких системах, как DeepFaceLab, необходимо широкое соотношение выражения, позы головы и (в меньшей степени) освещения в двух наборах лицевых данных. Чем меньше конкретная конфигурация (например, «вид сбоку/улыбка/освещенный солнцем») присутствует в обоих наборах лиц, тем менее точно она будет отображаться в дипфейковом видео, если это необходимо.

Если в наборе A есть необычная поза, а в наборе B ее нет, вам не повезло; независимо от того, как долго вы обучаете модель, она никогда не научится хорошо воспроизводить эту позу между идентичностями, потому что при обучении у нее была только половина необходимой информации.

Даже если у вас есть совпадающие изображения, этого может быть недостаточно: если в наборе А есть совпадающая поза, но с резким боковым освещением, по сравнению с эквивалентной позой с плоским освещением в другом наборе лиц, качество подкачки выигрывает. не так хорошо, как если бы у каждого были общие характеристики освещения.

Почему данных мало

Если вас регулярно не арестовывают, у вас, вероятно, не так уж много снимков себя в профиль. Все, что попадалось, вы, скорее всего, выбросили. Поскольку фотоагентства делают то же самое, трудно найти портретные снимки.

Дипфейкеры часто включают несколько копий ограниченных данных профиля бокового обзора, которые они имеют для идентификации в наборе лиц, просто для того, чтобы поза получила как минимум мало внимание и время во время обучения, вместо того, чтобы сбрасывать со счетов останец.

Но существует гораздо больше возможных типов изображений лиц сбоку, чем может быть доступно для включения в набор данных. улыбаться, хмурясь, кричащий, плач, темно освещенный, презрительный, скучающий, веселый, освещенный вспышкой, глядя вверх, глядя вниз, глаза открыты, глаза закрыты…и так далее. Любая из этих поз в нескольких комбинациях может понадобиться в целевом дипфейковом целевом видео.

И это только профили. Сколько у вас фотографий, на которых вы смотрите прямо вверх? Достаточно ли у вас, чтобы широко представлять 10,000 XNUMX возможных выражений вы могли бы носить, удерживая именно эту позу с этого точного угла камеры, покрывая по крайней мере некоторые из один миллион возможных условий освещения?

Скорее всего, у вас даже нет one картина себя глядя вверх. И это только два ракурса из ста или более, необходимых для полного охвата.

Даже если бы было возможно создать полное покрытие лица со всех сторон при различных условиях освещения, результирующий набор данных был бы слишком большим для обучения, порядка сотен тысяч изображений; и даже если это может быть обучены, характер процесса обучения для существующих фреймворков для дипфейков отбрасывает подавляющее большинство этих дополнительных данных в пользу ограниченного числа производных функций, потому что текущие фреймворки редукционистские и не очень масштабируемые.

Синтетическая замена

С момента зарождения дипфейков, дипфейкеры экспериментировали с использованием изображений в стиле компьютерной графики, голов, созданных в 3D-приложениях, таких как Cinema4D и Maya, для создания этих «недостающих поз».

ИИ не требуется; актриса воссоздается в традиционной программе CGI Cinema 4D с использованием сеток и растровых текстур - технологии, которая восходит к 1960-м годам, хотя получила широкое распространение только с 1990-х годов. Теоретически эту модель лица можно использовать для создания дипфейковых исходных данных для необычных поз, стилей освещения и выражений лица. На самом деле, это было ограничено или бесполезно для дипфейкинга, поскольку «фальшивость» рендеров имеет тенденцию просачиваться в замененных видео. Источник: изображение автора этой статьи на https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

ИИ не требуется; актриса воссоздается в традиционной программе CGI Cinema 4D с использованием сеток и растровых текстур - технологии, которая восходит к 1960-м годам, хотя получила широкое распространение только с 1990-х годов. Теоретически эту модель лица можно использовать для создания дипфейковых исходных данных для необычных поз, стилей освещения и выражений лица. На самом деле, это было ограничено или бесполезно для дипфейкинга, поскольку «фальшивость» рендеров имеет тенденцию просачиваться в замененных видео. Источник: изображение автора этой статьи на https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

От этого метода обычно рано отказываются новые практикующие дипфейки, потому что, хотя он может обеспечить позы и выражения, которые иначе недоступны, синтетический вид лиц CGI обычно просачивается в свопы из-за запутывания идентификатора и контекстуальной / семантической информации.

Это может привести к внезапному мельканию лиц «зловещей долины» в убедительном во всем остальном видео дипфейка, поскольку алгоритм начинает использовать единственные данные, которые у него могут быть для необычной позы или выражения — явно фальшивые лица.

Среди самых популярных тем для дипфейкеров алгоритм трехмерного дипфейка для австралийской актрисы Марго Робби включен в установку по умолчанию DeepFaceLive, версии DeepFaceLab, которая может выполнять дипфейки в прямом эфире, например, во время сеанса веб-камеры. Версия CGI, как показано на рисунке выше, может использоваться для получения необычных «недостающих» углов в наборах данных дипфейков. Источник: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-3d98fe15b0403e4be64902332cfb9ace

Одним из самых популярных предметов для дипфейкеров является 3D-алгоритм дипфейка австралийской актрисы Марго Робби. включены в установке по умолчанию DeepFaceLive, версии DeepFaceLab, которая может выполнять дипфейки в прямом эфире, например, в сеансе веб-камеры. Версия CGI, как показано на рисунке выше, может использоваться для получения необычных «недостающих» углов в наборах данных дипфейков. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI Faces как отдельное концептуальное руководство

Вместо этого новый метод Delta-GAN Encoder (DGE) от израильских исследователей более эффективен, потому что поза и контекстная информация из изображений CGI были полностью отделены от информации об «идентификации» цели.

Мы можем увидеть этот принцип в действии на изображении ниже, где различные ориентации головы были получены с использованием изображений компьютерной графики в качестве ориентира. Поскольку черты идентичности не связаны с контекстуальными характеристиками, ни фальшиво выглядящий синтетический вид лица CGI, ни личность, изображенная на нем, не просвечиваются:

С новым методом вам не нужно искать три отдельных реальных исходных изображения, чтобы воспроизвести дипфейк с разных ракурсов — вы можете просто повернуть голову компьютерной графики, чьи высокоуровневые абстрактные черты накладываются на личность без утечки какого-либо идентификатора. информация.

С новым методом вам не нужно искать три отдельных реальных исходных изображения, чтобы воспроизвести дипфейк с разных ракурсов — вы можете просто повернуть голову компьютерной графики, чьи высокоуровневые абстрактные черты накладываются на личность без утечки какого-либо идентификатора. информация.

Дельта-GAN-энкодер. Верхняя левая группа: угол исходного изображения можно изменить за секунду, чтобы отобразить новое исходное изображение, которое отражается на выходе; верхняя правая группа: освещение также отделено от индивидуальности, что позволяет накладывать стили освещения; нижняя левая группа: несколько деталей лица изменены, чтобы создать «грустное» выражение; нижняя правая группа: одна единственная деталь выражения лица изменена, так что глаза прищурены.

Дельта-GAN-энкодер. Верхняя левая группа: угол исходного изображения можно изменить за секунду, чтобы отобразить новое исходное изображение, которое отражается на выходе; верхняя правая группа: освещение также отделено от индивидуальности, что позволяет накладывать стили освещения; нижняя левая группа: несколько деталей лица изменены, чтобы создать «грустное» выражение; нижняя правая группа: одна единственная деталь выражения лица изменена, так что глаза прищурены.

Это разделение идентичности и контекста достигается на этапе обучения. Конвейер для новой архитектуры дипфейков ищет скрытый вектор в предварительно обученной генеративно-состязательной сети (GAN), которая соответствует изображению, которое нужно преобразовать — методология Sim2Real, основанная на методологии 2018 года. Проект из отдела исследований искусственного интеллекта IBM.

Исследователи отмечают:

«С помощью всего лишь нескольких образцов, которые отличаются определенным атрибутом, можно изучить распутанное поведение предварительно обученной запутанной генеративной модели. Для достижения этой цели нет необходимости в точных образцах из реального мира, что не всегда возможно.

«Используя нереалистичные выборки данных, та же цель может быть достигнута благодаря использованию семантики закодированных скрытых векторов. Применение желаемых изменений к существующим образцам данных может быть выполнено без явного исследования поведения скрытого пространства».

Исследователи ожидают, что основные принципы распутывания, изученные в проекте, могут быть перенесены в другие области, такие как моделирование внутренней архитектуры, и что метод Sim2Real, принятый для Delta-GAN-Encoder, может в конечном итоге обеспечить инструментарий дипфейков на основе простых эскизов, а не Ввод в стиле CGI.

Можно утверждать, что степень, в которой новая израильская система может или не может синтезировать дипфейк-видео, гораздо менее значительна, чем прогресс, достигнутый исследователями в отделении контекста от идентичности, в процессе получения большего контроля над скрытым пространством. ГАН.

Распутывание - это активная область исследований в области синтеза изображений; в январе 2021 года исследование под руководством Amazon бумаги продемонстрировал аналогичный контроль позы и распутывание, а в 2018 г. бумаги из Шэньчжэньского института передовых технологий Китайской академии наук добились прогресса в создании произвольных точек зрения в GAN.