заглушки Изменение эмоций в видеоматериалах с помощью ИИ - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Изменение эмоций в видеоматериалах с помощью ИИ

mm
обновленный on

Исследователи из Греции и Великобритании разработали новый подход к глубокому обучению для изменения выражений и кажущегося настроения людей в видеозаписях, сохраняя при этом точность движения их губ в исходном звуке, чего не удавалось добиться в предыдущих попытках. .

Из видео, сопровождающего документ (вставленного в конце этой статьи), короткий клип актера Аль Пачино, выражение лица которого слегка изменено NED на основе семантических концепций высокого уровня. Источник: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Из видео, сопровождающего документ (вставленного в конце этой статьи), короткий клип актера Аль Пачино, выражение лица которого слегка изменено NED, на основе семантических концепций высокого уровня, определяющих отдельные выражения лица и связанные с ними эмоции. Метод «Reference-Driven» справа берет интерпретированные эмоции исходного видео и применяет их ко всей видеопоследовательности. Источник: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Эта конкретная область попадает в растущую категорию поддельные эмоции, где личность оригинального говорящего сохраняется, но его выражения и микровыражения изменяются. По мере развития этой конкретной технологии искусственного интеллекта она дает возможность кино- и телепроизводству вносить тонкие изменения в выражения лиц актеров, но также открывает довольно новую категорию «измененных эмоций» видео-дипфейков.

Меняющиеся лица

Выражение лица общественных деятелей, таких как политики, тщательно контролируется; в 2016 году выражение лица Хиллари Клинтон стало под пристальным вниманием СМИ за их потенциальное негативное влияние на ее электоральные перспективы; мимика, оказывается, тоже интересующая тема в ФБР; и они критический показатель на собеседованиях при приеме на работу, что делает (далекую) перспективу живого фильтра «контроля выражения» желательным развитием для соискателей, пытающихся пройти предварительный просмотр в Zoom.

Исследование 2005 года, проведенное в Великобритании, показало, что внешний вид лица влияет на решения голосования, в то время как статья Washington Post 2019 года исследовала использование обмена видеоклипами «вне контекста», что в настоящее время является ближайшей вещью, которую сторонники фейковых новостей действительно могут изменить, как публичная фигура выглядит, как ведет себя, реагирует или чувствует.

На пути к манипулированию нейронными выражениями

В настоящее время состояние искусства манипулирования лицевым аффектом находится в зачаточном состоянии, поскольку оно включает в себя решение распутывание концепций высокого уровня (таких как грустный, сердитый, счастливый, улыбаться) из фактического видеоконтента. Хотя традиционные архитектуры дипфейков, по-видимому, достаточно хорошо достигают этого распутывания, отражение эмоций разных личностей по-прежнему требует, чтобы два обучающих набора лиц содержали совпадающие выражения для каждой личности.

Поскольку характеристики лицевого идентификатора и позы в настоящее время настолько переплетены, для обучения эффективной модели дипфейка в таких системах, как DeepFaceLab, необходимо широкое соотношение выражения, позы головы и (в меньшей степени) освещения в двух наборах лицевых данных. Чем меньше конкретная конфигурация (например, «вид сбоку/улыбка/освещенный солнцем») присутствует в обоих наборах лиц, тем менее точно она будет отображаться в дипфейковом видео, если это необходимо.

Типичные примеры изображений лиц в наборах данных, используемых для обучения дипфейков. В настоящее время вы можете манипулировать выражением лица человека только путем создания специфичных для идентификатора путей выражения <> выражения в нейронной сети дипфейка. Программное обеспечение для дипфейков 2017 года не имеет внутреннего семантического понимания «улыбки» — оно просто отображает и сопоставляет воспринимаемые изменения в геометрии лица двух субъектов.

Желательным и еще не полностью достигнутым является распознавание того, как субъект Б (например) улыбается, и просто создание 'улыбка' переключаться в архитектуре без необходимости сопоставлять ее с эквивалентным изображением улыбающегося субъекта А.

Ассоциация Новый документ называется Neural Emotion Director: семантический контроль мимики с сохранением речи в видео «в дикой природе», и исходит от исследователей из Школы электротехники и вычислительной техники Афинского национального технического университета, Института компьютерных наук Фонда исследований и технологий Hellas (FORTH) и Колледжа инженерии, математики и физических наук в Афинах. Университет Эксетера в Великобритании.

Команда разработала фреймворк под названием Директор по нейронным эмоциям (NED), включающая сеть перевода эмоций на основе 3D, Трехмерный манипулятор эмоций.

NED берет полученную последовательность параметров экспрессии и транслирует их в целевой домен. Он обучается на непараллельных данных, а это означает, что нет необходимости обучаться на наборах данных, где каждая личность имеет соответствующие выражения лица.

Видео, показанное в конце этой статьи, проходит через серию тестов, в которых NED накладывает очевидное эмоциональное состояние на кадры из набора данных YouTube.

Видео, показанное в конце этой статьи, проходит через серию тестов, в которых NED накладывает очевидное эмоциональное состояние на кадры из набора данных YouTube.

Авторы заявляют, что NED — это первый основанный на видео метод «управления» актерами в случайных и непредсказуемых ситуациях, и сделали код доступным на NED. Проект страницу.

Метод и архитектура

Система обучается на двух больших наборах видеоданных, аннотированных метками «эмоции».

Вывод осуществляется с помощью видеорендерера лиц, который преобразует желаемые эмоции в видео, используя традиционные методы синтеза изображения лица, включая сегментацию лица, выравнивание лицевых ориентиров и смешивание, при котором синтезируется только область лица, а затем накладывается на исходный материал.

Архитектура конвейера нейронного детектора эмоций (NED). Источник: https://arxiv.org/pdf/2112.00585.pdf

Архитектура конвейера нейронного детектора эмоций (NED). Источник: https://arxiv.org/pdf/2112.00585.pdf

Первоначально система получает трехмерное восстановление лица и накладывает выравнивание ориентиров лица на входные кадры, чтобы идентифицировать выражение. После этого эти восстановленные параметры выражения передаются трехмерному манипулятору эмоций, а вектор стиля вычисляется либо с помощью семантической метки (например, «счастливый»), либо с помощью эталонного файла.

Эталонный файл — это видео, изображающее конкретное распознанное выражение/эмоцию, которое затем накладывается на все целевое видео, заменяя исходное выражение.

Этапы конвейера передачи эмоций с участием различных актеров, взятых из видео на YouTube.

Этапы конвейера передачи эмоций с участием различных актеров, взятых из видео на YouTube.

Окончательная сгенерированная 3D-форма лица затем объединяется с нормализованной средней координатой лица (NMFC) и изображениями глаз (красные точки на изображении выше) и передается нейронному рендереру, который выполняет окончательную манипуляцию.

Итоги

Исследователи провели обширные исследования, в том числе исследования пользователей и абляции, чтобы оценить эффективность метода по сравнению с предыдущими работами, и обнаружили, что в большинстве категорий NED превосходит текущий уровень техники в этом подсекторе нейронных манипуляций с лицом.

Авторы документа предполагают, что более поздние реализации этой работы и инструменты аналогичного характера будут полезны в первую очередь в индустрии телевидения и кино, заявляя:

«Наш метод открывает множество новых возможностей для полезного применения технологий нейронного рендеринга, начиная от постпродакшна фильмов и видеоигр и заканчивая фотореалистичными эмоциональными аватарами».

Это ранняя работа в этой области, но одна из первых попыток реконструкции лица с помощью видео, а не неподвижных изображений. Хотя видео, по сути, представляет собой множество неподвижных изображений, которые очень быстро воспроизводятся вместе, существуют временные соображения, которые делают предыдущие приложения передачи эмоций менее эффективными. В сопроводительном видео и примерах в документе авторы включают визуальное сравнение выходных данных NED с другими сопоставимыми недавними методами.

Более подробные сравнения и многие другие примеры NED можно найти в полном видео ниже:

[CVPR 2022] NED: семантический контроль выражения лица с сохранением речи в видео «в дикой природе»

 

3 декабря 2021 г., 18:30 GMT+2 — По просьбе одного из авторов статьи были внесены исправления в отношении «эталонного файла», который я ошибочно назвал неподвижным фото (хотя на самом деле это видеоклип). Также изменено название Института компьютерных наук при Фонде исследований и технологий.
3 декабря 2021 г., 20:50 GMT+2 — Второй запрос от одного из авторов документа о внесении дополнительных изменений в название вышеупомянутого учреждения.