Artificial Intelligence
Изменение эмоций в видеоматериалах с помощью ИИ
Исследователи из Греции и Великобритании разработали новый подход к глубокому обучению для изменения выражений и кажущегося настроения людей в видеозаписях, сохраняя при этом точность движения их губ в исходном звуке, чего не удавалось добиться в предыдущих попытках. .
Эта конкретная область попадает в растущую категорию поддельные эмоции, где личность оригинального говорящего сохраняется, но его выражения и микровыражения изменяются. По мере развития этой конкретной технологии искусственного интеллекта она дает возможность кино- и телепроизводству вносить тонкие изменения в выражения лиц актеров, но также открывает довольно новую категорию «измененных эмоций» видео-дипфейков.
Меняющиеся лица
Выражение лица общественных деятелей, таких как политики, тщательно контролируется; в 2016 году выражение лица Хиллари Клинтон стало под пристальным вниманием СМИ за их потенциальное негативное влияние на ее электоральные перспективы; мимика, оказывается, тоже интересующая тема в ФБР; и они критический показатель на собеседованиях при приеме на работу, что делает (далекую) перспективу живого фильтра «контроля выражения» желательным развитием для соискателей, пытающихся пройти предварительный просмотр в Zoom.
Исследование 2005 года, проведенное в Великобритании, показало, что внешний вид лица влияет на решения голосования, в то время как статья Washington Post 2019 года исследовала использование обмена видеоклипами «вне контекста», что в настоящее время является ближайшей вещью, которую сторонники фейковых новостей действительно могут изменить, как публичная фигура выглядит, как ведет себя, реагирует или чувствует.
На пути к манипулированию нейронными выражениями
В настоящее время состояние искусства манипулирования лицевым аффектом находится в зачаточном состоянии, поскольку оно включает в себя решение распутывание концепций высокого уровня (таких как грустный, сердитый, счастливый, улыбаться) из фактического видеоконтента. Хотя традиционные архитектуры дипфейков, по-видимому, достаточно хорошо достигают этого распутывания, отражение эмоций разных личностей по-прежнему требует, чтобы два обучающих набора лиц содержали совпадающие выражения для каждой личности.
Желательным и еще не полностью достигнутым является распознавание того, как субъект Б (например) улыбается, и просто создание 'улыбка' переключаться в архитектуре без необходимости сопоставлять ее с эквивалентным изображением улыбающегося субъекта А.
Ассоциация Новый документ называется Neural Emotion Director: семантический контроль мимики с сохранением речи в видео «в дикой природе», и исходит от исследователей из Школы электротехники и вычислительной техники Афинского национального технического университета, Института компьютерных наук Фонда исследований и технологий Hellas (FORTH) и Колледжа инженерии, математики и физических наук в Афинах. Университет Эксетера в Великобритании.
Команда разработала фреймворк под названием Директор по нейронным эмоциям (NED), включающая сеть перевода эмоций на основе 3D, Трехмерный манипулятор эмоций.
NED берет полученную последовательность параметров экспрессии и транслирует их в целевой домен. Он обучается на непараллельных данных, а это означает, что нет необходимости обучаться на наборах данных, где каждая личность имеет соответствующие выражения лица.
Авторы заявляют, что NED — это первый основанный на видео метод «управления» актерами в случайных и непредсказуемых ситуациях, и сделали код доступным на NED. Проект страницу.
Метод и архитектура
Система обучается на двух больших наборах видеоданных, аннотированных метками «эмоции».
Вывод осуществляется с помощью видеорендерера лиц, который преобразует желаемые эмоции в видео, используя традиционные методы синтеза изображения лица, включая сегментацию лица, выравнивание лицевых ориентиров и смешивание, при котором синтезируется только область лица, а затем накладывается на исходный материал.
Первоначально система получает трехмерное восстановление лица и накладывает выравнивание ориентиров лица на входные кадры, чтобы идентифицировать выражение. После этого эти восстановленные параметры выражения передаются трехмерному манипулятору эмоций, а вектор стиля вычисляется либо с помощью семантической метки (например, «счастливый»), либо с помощью эталонного файла.
Эталонный файл — это видео, изображающее конкретное распознанное выражение/эмоцию, которое затем накладывается на все целевое видео, заменяя исходное выражение.
Окончательная сгенерированная 3D-форма лица затем объединяется с нормализованной средней координатой лица (NMFC) и изображениями глаз (красные точки на изображении выше) и передается нейронному рендереру, который выполняет окончательную манипуляцию.
Итоги
Исследователи провели обширные исследования, в том числе исследования пользователей и абляции, чтобы оценить эффективность метода по сравнению с предыдущими работами, и обнаружили, что в большинстве категорий NED превосходит текущий уровень техники в этом подсекторе нейронных манипуляций с лицом.
Авторы документа предполагают, что более поздние реализации этой работы и инструменты аналогичного характера будут полезны в первую очередь в индустрии телевидения и кино, заявляя:
«Наш метод открывает множество новых возможностей для полезного применения технологий нейронного рендеринга, начиная от постпродакшна фильмов и видеоигр и заканчивая фотореалистичными эмоциональными аватарами».
Это ранняя работа в этой области, но одна из первых попыток реконструкции лица с помощью видео, а не неподвижных изображений. Хотя видео, по сути, представляет собой множество неподвижных изображений, которые очень быстро воспроизводятся вместе, существуют временные соображения, которые делают предыдущие приложения передачи эмоций менее эффективными. В сопроводительном видео и примерах в документе авторы включают визуальное сравнение выходных данных NED с другими сопоставимыми недавними методами.
Более подробные сравнения и многие другие примеры NED можно найти в полном видео ниже:
3 декабря 2021 г., 18:30 GMT+2 — По просьбе одного из авторов статьи были внесены исправления в отношении «эталонного файла», который я ошибочно назвал неподвижным фото (хотя на самом деле это видеоклип). Также изменено название Института компьютерных наук при Фонде исследований и технологий.
3 декабря 2021 г., 20:50 GMT+2 — Второй запрос от одного из авторов документа о внесении дополнительных изменений в название вышеупомянутого учреждения.