Свяжитесь с нами:

Рассвет дипфальсифицированных эмоций

Искусственный интеллект

Рассвет дипфальсифицированных эмоций

mm

Исследователи разработали новую технику машинного обучения, позволяющую произвольно навязывать новые эмоции лицам в видео, адаптируя существующие технологии, которые недавно появились в качестве решений для сопоставления движений губ с дубляжом на иностранном языке.

Исследование представляет собой равноправное сотрудничество между Северо-восточным университетом в Бостоне и Медиа-лабораторией Массачусетского технологического института и называется Invertable Frowns: перевод эмоций лица из видео в видео. Хотя исследователи признают, что начальное качество результатов должно быть улучшено в ходе дальнейших исследований, они утверждают, что метод, названный Wav2Lip-Emotion, является первым в своем роде, который напрямую обращается к модификации полного выражения видео с помощью методов нейронной сети.

Базовый код был освобожден на GitHub, хотя контрольные точки модели будут добавлены в репозиторий с открытым исходным кодом позже, обещают авторы.

Слева «грустный» кадр исходного видео. Справа «счастливый» кадр. В центре два зарождающихся подхода к синтезу альтернативных эмоций — верхний ряд: полностью замаскированное лицо, на котором полностью заменена поверхность выражения; нижний ряд: более традиционный метод Wav2Lip, который заменяет только нижнюю часть лица. Источник: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Слева — «грустный» кадр исходного видео. Справа — «счастливый» кадр. В центре представлены два новых подхода к синтезу альтернативных эмоций: верхний ряд: полностью замаскированное лицо, где заменяется вся мимическая поверхность; нижний ряд: более традиционный метод Wav2Lip, заменяющий только нижнюю часть лица. Источник: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Одно видео как исходные данные

Теоретически, такие манипуляции теперь можно получить путем полноценного обучения традиционным репозиториям дипфейков, таким как DeepFaceLab или FaceSwapОднако стандартный рабочий процесс подразумевает использование альтернативной личности, например, актёра, изображающего цель, чьи эмоции и эмоции будут передаваться другому человеку вместе с остальным представлением. Кроме того, для завершения иллюзии обычно требуются методы глубокого клонирования голоса.

Далее, фактически изменяя выражение цель1>цель1 в видео с единственным источником в этих популярных фреймворках потребовало бы изменения выравнивание лица векторных изображений способом, который эти архитектуры в настоящее время не облегчают.

Wav2Lip-Emotion поддерживает синхронизацию губ исходного видео-аудиодиалога, преобразовывая связанные выражения.

Wav2Lip-Emotion поддерживает синхронизацию губ исходного видео-аудио-диалога, преобразовывая связанные выражения..

Вместо этого Wav2Lip-Emotion фактически пытается «скопировать и вставить» выражения, связанные с эмоциями, из одной части видео и подставить их в другие моменты, с намеренной бережливостью исходных данных, которая в конечном итоге должна предложить менее трудоемкий метод манипулирования выражениями.

В дальнейшем можно будет разработать автономные модели, обучающиеся на альтернативных видеороликах говорящего, что устранит необходимость в том, чтобы каждое видео содержало «палитру» состояний выражения, с помощью которых можно было бы манипулировать видео.

Возможные цели

Авторы предлагают ряд приложений для модификации выражения лица, в том числе фильтр видео в реальном времени для компенсации эффектов посттравматического стрессового расстройства и паралича лицевого нерва. В документе отмечается:

«Людям с подавленной мимикой или без неё может быть полезно настроить свою мимику в соответствии с социальными условиями. Возможно, кто-то захочет изменить выражение лица в видеороликах, которые им показывают. Участники видеоконференции могут кричать друг на друга, но при этом стремиться к осмыслению своего диалога без неприятных выражений. Или режиссёр может захотеть усилить или ослабить мимику актёра».

Поскольку выражение лица является ключевой и основной показатель намерения, даже если это может противоречить произносимым словам, способность изменять выражение также в некоторой степени дает возможность изменить способ коммуникации. получила.

Предыдущие работы

Интерес к изменению выражения машинного обучения восходит как минимум к 2012 году, когда сотрудничества между Adobe, Facebook и Университетом Рутгерса предложили метод изменения выражений с использованием подхода реконструкции трехмерной геометрии на основе тензора, который кропотливо накладывал сетку CGI на каждый кадр целевого видео, чтобы произвести изменение.

Исследование Adobe/Facebook, проведенное в 2012 году, манипулировало выражением лица, накладывая традиционные изменения, основанные на компьютерной графике, на видеоматериалы. Выражения могут быть дополнены или подавлены. Источник: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Исследование Adobe/Facebook, проведенное в 2012 году, манипулировало выражением лица, накладывая традиционные изменения, основанные на компьютерной графике, на видеоматериалы. Выражения могут быть дополнены или подавлены. Источник: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Хотя результаты были многообещающими, метод был обременительным, а необходимые ресурсы были значительными. На этом этапе CGI намного опередила подходы, основанные на компьютерном зрении, для управления пространством объектов и манипулирования пикселями.

Более тесно с новой статьей связана MEAD — модель набора данных и генерации выражений, выпущенная в 2020 году, способная генерировать видеоролики с «говорящими головами», хотя и без того уровня сложности, который потенциально можно получить путем прямого изменения исходного видео.

Генерация экспрессии с помощью MEAD 2020 года, совместной работы SenseTime Research, Carnegie Mellon и трех китайских университетов. Источник: https://wywu.github.io/projects/MEAD/MEAD.html.

Генерация выражений с помощью MEAD 2020 года — совместного проекта SenseTime Research, Carnegie Mellon и трех китайских университетов. Источник: https://wywu.github.io/projects/MEAD/MEAD.html.

В 2018 году вышла еще одна статья под названием GANimation: анимация лица с учетом анатомии из одного изображения, возникший в результате сотрудничества академических исследований США и Испании, и использовал генеративно-состязательные сети для увеличения или изменения выражений только в неподвижных изображениях.

Изменение выражений на неподвижных изображениях с помощью GANimation. Источник: https://arxiv.org/pdf/1807.09251.pdf

Изменение выражений на неподвижных изображениях с помощью GANimation. Источник: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Эмоция

Вместо этого новый проект основан на Wav2Lip, который получил огласку в 2020 году, предложив потенциальный метод повторной синхронизации движения губ, чтобы приспособиться к новой речи (или песня), которые никогда не использовались в исходном видео.

Оригинальный Архитектура Wav2Lip Был обучен на корпусе устных предложений из архивов BBC. Чтобы адаптировать Wav2Lip к задаче изменения выражений, исследователи «тонко настроили» архитектуру на вышеупомянутом наборе данных MEAD.

MEAD состоит из 40 часов видео, в котором 60 актеров читают одно и то же предложение, демонстрируя различные выражения лица. Актеры родом из 15 разных стран и предлагают ряд международных характеристик, направленных на то, чтобы помочь проекту (и производным проектам) произвести применимый и хорошо обобщенный синтез выражений.

На момент исследования MEAD опубликовала только первую часть набора данных, включающую 47 человек, выражающих такие эмоции, как «злость», «отвращение», «страх», «презрение», «радость», «грусть» и «удивленность». В этом первом опыте нового подхода исследователи ограничили область проекта наложением или иным изменением воспринимаемых эмоций «радость» и «грусть», поскольку они наиболее легко распознаются.

Метод и результаты

Первоначальная архитектура Wav2Lip заменяет только нижнюю часть лица, тогда как Wav2Lip-Emotion также экспериментирует с полной маской замены лица и синтезом выражения. Таким образом, исследователям пришлось дополнительно модифицировать встроенные методы оценки, так как они не были предназначены для полнолицевой конфигурации.

Авторы улучшают исходный код, сохраняя исходный аудиовход, сохраняя согласованность движения губ.

Элемент генератора включает кодировщик идентификации, кодировщик речи и декодер лица в соответствии с более ранней работой. Речевой элемент дополнительно кодируется как сложенные двумерные свертки, которые впоследствии соединяются с соответствующими им кадрами.

Помимо генеративного элемента, модифицированная архитектура включает три основных компонента дискриминатора, нацеленных на качество синхронизации губ, эмоциональный объективный элемент и визуально обученный объектив качества.

Для полной реконструкции лица оригинальная работа Wav2Lip не содержала прецедентов, поэтому модель обучалась с нуля. Для тренировки нижней части лица (полумаска) исследователи исходили из контрольных точек, включенных в исходный код Wav2Lip.

Помимо автоматической оценки, исследователи использовали краудсорсинговые мнения, полученные с помощью полуавтоматической сервисной платформы. Сотрудники в целом высоко оценили результаты с точки зрения распознавания наложенных эмоций, но при этом дали лишь «средние» оценки качеству изображения.

Авторы предполагают, что, помимо улучшения качества сгенерированного видео с дальнейшими уточнениями, будущие итерации работы могут охватывать более широкий спектр эмоций, и что работа может быть в равной степени применена в будущем к помеченным или автоматически выведенным исходным данным и наборам данных, что в конечном итоге приведет к , в аутентичную систему, в которой эмоции могут увеличиваться или уменьшаться по прихоти пользователя или в конечном итоге заменяться эмоциями, контрастирующими с оригинальным исходным видео.

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai