Artificial Intelligence

Рассвет дипфальсифицированных эмоций

обновленный on 9 декабря 2022

Исследователи разработали новую технику машинного обучения, позволяющую произвольно навязывать новые эмоции лицам в видео, адаптируя существующие технологии, которые недавно появились в качестве решений для сопоставления движений губ с дубляжом на иностранном языке.

Исследование представляет собой равноправное сотрудничество между Северо-восточным университетом в Бостоне и Медиа-лабораторией Массачусетского технологического института и называется Invertable Frowns: перевод эмоций лица из видео в видео. Хотя исследователи признают, что начальное качество результатов должно быть улучшено в ходе дальнейших исследований, они утверждают, что метод, названный Wav2Lip-Emotion, является первым в своем роде, который напрямую обращается к модификации полного выражения видео с помощью методов нейронной сети.

Базовый код был выпустил на GitHub, хотя контрольные точки модели будут добавлены в репозиторий с открытым исходным кодом позже, обещают авторы.

Слева «грустный» кадр исходного видео. Справа «счастливый» кадр. В центре два зарождающихся подхода к синтезу альтернативных эмоций — верхний ряд: полностью замаскированное лицо, на котором полностью заменена поверхность выражения; нижний ряд: более традиционный метод Wav2Lip, который заменяет только нижнюю часть лица. Источник: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Одно видео как исходные данные

Теоретически, такие манипуляции теперь можно получить путем полноценного обучения традиционным репозиториям дипфейков, таким как DeepFaceLab или FaceSwap. Однако стандартный рабочий процесс будет включать использование альтернативной идентичности для «целевой» идентичности, например, актера, выдающего себя за цель, чьи собственные выражения будут переданы другому человеку вместе с остальной частью выступления. Кроме того, для завершения иллюзии обычно необходимы методы глубокого клонирования голоса.

Далее, фактически изменяя выражение цель1>цель1 в видео с единственным источником в этих популярных фреймворках потребовало бы изменения выравнивание лица векторных изображений способом, который эти архитектуры в настоящее время не облегчают.

Wav2Lip-Emotion поддерживает синхронизацию губ исходного видео-аудио-диалога, преобразовывая связанные выражения..

Вместо этого Wav2Lip-Emotion эффективно стремится «скопировать и вставить» выражения, связанные с эмоциями, из одной части видео и подставить их в другие точки с добровольной бережливостью исходных данных, которая в конечном итоге предназначена для того, чтобы предложить метод с меньшими усилиями для манипулирование выражениями.

Позже могут быть разработаны автономные модели, которые обучаются на альтернативных видео говорящего, что устраняет необходимость в том, чтобы какое-либо одно видео содержало «палитру» состояний выражения, с помощью которых можно манипулировать видео.

Возможные цели

Авторы предлагают ряд приложений для модификации выражения лица, в том числе фильтр видео в реальном времени для компенсации эффектов посттравматического стрессового расстройства и паралича лицевого нерва. В документе отмечается:

«Люди с заторможенными выражениями лица или без них могут извлечь пользу из настройки своих собственных выражений, чтобы они лучше соответствовали их социальным обстоятельствам. Кто-то может захотеть изменить выражение лица в видео, которое им показывают. Спикеры могут кричать друг на друга во время видеоконференции, но, тем не менее, хотят собрать воедино контент без неприятных выражений. Или режиссер может захотеть увеличить или уменьшить выразительность актера».

Поскольку выражение лица является ключевой и основной показатель намерения, даже если это может противоречить произносимым словам, способность изменять выражение также в некоторой степени дает возможность изменить способ коммуникации. получила.

Предыдущие работы

Интерес к изменению выражения машинного обучения восходит как минимум к 2012 году, когда сотрудничество между Adobe, Facebook и Университетом Рутгерса предложили метод изменения выражений с использованием подхода реконструкции трехмерной геометрии на основе тензора, который кропотливо накладывал сетку CGI на каждый кадр целевого видео, чтобы произвести изменение.

Исследование Adobe/Facebook, проведенное в 2012 году, манипулировало выражением лица, накладывая традиционные изменения, основанные на компьютерной графике, на видеоматериалы. Выражения могут быть дополнены или подавлены. Источник: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Хотя результаты были многообещающими, метод был обременительным, а необходимые ресурсы были значительными. На этом этапе CGI намного опередила подходы, основанные на компьютерном зрении, для управления пространством объектов и манипулирования пикселями.

Более тесно связана с новым документом MEAD, модель набора данных и генерации выражений, выпущенная в 2020 году и способная генерировать видео «говорящей головы», хотя и без того уровня сложности, который потенциально можно получить, напрямую изменяя фактическое исходное видео.

Генерация экспрессии с помощью MEAD 2020 года, совместной работы SenseTime Research, Carnegie Mellon и трех китайских университетов. Источник: https://wywu.github.io/projects/MEAD/MEAD.html.

В 2018 году вышла еще одна статья под названием GANimation: анимация лица с учетом анатомии из одного изображения, возникший в результате сотрудничества академических исследований США и Испании, и использовал генеративно-состязательные сети для увеличения или изменения выражений только в неподвижных изображениях.

Изменение выражений на неподвижных изображениях с помощью GANimation. Источник: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Эмоция

Вместо этого новый проект основан на Wav2Lip, который получил огласку в 2020 году, предложив потенциальный метод повторной синхронизации движения губ, чтобы приспособиться к новой речи (или песня), которые никогда не использовались в исходном видео.

Оригинальный Архитектура Wav2Lip обучался на корпусе устных предложений из архивов BBC. Чтобы адаптировать Wav2Lip к задаче изменения выражения лица, исследователи «точно настроили» архитектуру на вышеупомянутом наборе данных MEAD.

MEAD состоит из 40 часов видео, в котором 60 актеров читают одно и то же предложение, демонстрируя различные выражения лица. Актеры родом из 15 разных стран и предлагают ряд международных характеристик, направленных на то, чтобы помочь проекту (и производным проектам) произвести применимый и хорошо обобщенный синтез выражений.

На момент исследования MEAD выпустила только первую часть набора данных, в которой 47 человек использовали такие выражения, как «сердитый», «отвращение», «страх», «презрение», «счастливый», «грустный» и «удивление». '. В этом первоначальном знакомстве с новым подходом исследователи ограничили масштаб проекта наложением или иным изменением воспринимаемых эмоций «счастливых» и «печальных», поскольку они наиболее легко распознаются.

Метод и результаты

Первоначальная архитектура Wav2Lip заменяет только нижнюю часть лица, тогда как Wav2Lip-Emotion также экспериментирует с полной маской замены лица и синтезом выражения. Таким образом, исследователям пришлось дополнительно модифицировать встроенные методы оценки, так как они не были предназначены для полнолицевой конфигурации.

Авторы улучшают исходный код, сохраняя исходный аудиовход, сохраняя согласованность движения губ.

Элемент генератора включает кодировщик идентификации, кодировщик речи и декодер лица в соответствии с более ранней работой. Речевой элемент дополнительно кодируется как сложенные двумерные свертки, которые впоследствии соединяются с соответствующими им кадрами.

Помимо генеративного элемента, модифицированная архитектура включает три основных компонента дискриминатора, нацеленных на качество синхронизации губ, эмоциональный объективный элемент и визуально обученный объектив качества.

Для полной реконструкции лица оригинальная работа Wav2Lip не содержала прецедентов, поэтому модель обучалась с нуля. Для тренировки нижней части лица (полумаска) исследователи исходили из контрольных точек, включенных в исходный код Wav2Lip.

Помимо автоматической оценки, исследователи использовали мнение краудсорсинга, предоставленное полуавтоматической сервисной платформой. Рабочие обычно высоко оценивали результат с точки зрения распознавания наложенных эмоций, сообщая только «умеренные» оценки качества изображения.

Авторы предполагают, что, помимо улучшения качества сгенерированного видео с дальнейшими уточнениями, будущие итерации работы могут охватывать более широкий спектр эмоций, и что работа может быть в равной степени применена в будущем к помеченным или автоматически выведенным исходным данным и наборам данных, что в конечном итоге приведет к , в аутентичную систему, в которой эмоции могут увеличиваться или уменьшаться по прихоти пользователя или в конечном итоге заменяться эмоциями, контрастирующими с оригинальным исходным видео.

Решение проблемы артефактов JPEG в наборах данных компьютерного зрения

Не пропустите

Исследователи имитируют стратегии морских слизней в квантовом материале

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Рассвет дипфальсифицированных эмоций

Artificial Intelligence