Зв'язатися з нами

Світанок глибинних емоцій

Штучний Інтелект

Світанок глибинних емоцій

mm

Дослідники розробили нову техніку машинного навчання, щоб довільно накладати нові емоції на обличчя у відео, адаптувавши існуючі технології, які нещодавно з’явилися як рішення, щоб узгодити рухи губ із дубляжем іноземною мовою.

Дослідження є рівноправним співробітництвом між Північно-східним університетом у Бостоні та Media Lab в MIT і називається Invertable Frowns: Video-to-Video Facial Emotion Translation. Хоча дослідники визнають, що початкова якість результатів має бути вдосконалена шляхом подальших досліджень, вони стверджують, що техніка, яка називається Wav2Lip-Emotion, є першою у своєму роді, яка безпосередньо стосується модифікації повного відеовиразу за допомогою методів нейронної мережі.

Базовий код був випущений на GitHub, хоча контрольні точки моделі будуть додані до відкритого репозиторію пізніше, обіцяють автори.

Ліворуч «сумний» кадр вихідного відео. Праворуч «щаслива» рамка. У центрі є два підходи до синтезу альтернативних емоцій, що зароджуються – верхній ряд: повністю замасковане обличчя, де вся поверхня виразу була замінена; нижній ряд: більш традиційний метод Wav2Lip, який замінює лише нижню частину обличчя. Джерело: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Ліворуч – «сумний» кадр вихідного відео. Праворуч – «щасливий» кадр. У центрі – два нові підходи до синтезу альтернативних емоцій – верхній ряд: повністю замасковане обличчя, де замінено всю поверхню виразу обличчя; нижній ряд: більш традиційний метод Wav2Lip, який замінює лише нижню частину обличчя. Джерело: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Одне відео як вихідні дані

Теоретично такі маніпуляції тепер доступні через повноцінне навчання на традиційних репозиторіях deepfake, таких як DeepFaceLab або FaceSwapОднак стандартний робочий процес передбачав би використання альтернативної ідентичності до «цільової» ідентичності, наприклад, актора, який видає себе за ціль, чиї власні вирази обличчя передавалися б іншій особі разом з рештою виступу. Крім того, для завершення ілюзії зазвичай були б необхідні методи клонування голосу з використанням глибоких фейків.

Далі, фактично змінюючи вираження ціль1>ціль1 у відео з єдиного джерела за цими популярними рамками передбачатиме зміну вектори вирівнювання обличчя таким чином, що ці архітектури зараз не сприяють.

Wav2Lip-Emotion підтримує синхронізацію оригінального відео-аудіо-діалогу під час трансформації пов’язаних виразів.

Wav2Lip-Emotion підтримує синхронізацію губ оригінального відео-аудіо-діалогу, одночасно трансформуючи пов’язані вирази.

Натомість, Wav2Lip-Emotion фактично прагне «скопіювати та вставити» вирази, пов’язані з емоціями, з однієї частини відео та замінити їх в інші моменти, з самонав’язаною економією вихідних даних, яка зрештою має на меті запропонувати менш затратний метод маніпулювання виразами.

Пізніше можна було б розробити офлайн-моделі, які навчалися б на альтернативних відео мовця, що усуває необхідність того, щоб будь-яке відео містило «палітру» станів вираження, за допомогою яких можна було б маніпулювати відео.

Потенційні цілі

Автори пропонують низку додатків для модифікації експресії, включаючи фільтр живого відео для компенсації наслідків посттравматичного стресового розладу та страждаючих лицьовим паралічем. Газета зауважує:

«Люди зі стриманою мімікою або без неї можуть отримати користь від налаштування власних виразів обличчя, щоб вони краще відповідали їхнім соціальним обставинам. Можливо, хтось захоче змінити вирази обличчя у відео, що їм показують. Спікери можуть кричати один на одного під час відеоконференції, але тим не менш хочуть зібрати зміст свого обміну без неприємних виразів обличчя. Або режисер може захотіти підкреслити або зменшити вираз обличчя актора».

Оскільки вираз обличчя - це а ключовий і основний показник намірів, навіть якщо це може завдати шкоди сказаним словам, здатність змінювати вираз також пропонує певною мірою можливість змінити спосіб спілкування отримано.

Попередня робота

Інтерес до зміни виразів машинного навчання сягає принаймні 2012 року, коли a співробітництво між Adobe, Facebook і Rutgers University запропонували метод зміни виразів за допомогою підходу реконструкції 3D-геометрії на основі Tensor, який кропітко накладав сітку CGI на кожен кадр цільового відео, щоб здійснити зміни.

Дослідження Adobe/Facebook у 2012 році маніпулювало виразами, накладаючи на відеозапис традиційні зміни, керовані CGI. Вирази можуть бути доповнені або придушені. Джерело: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Дослідження Adobe/Facebook у 2012 році маніпулювало виразами, накладаючи на відеозапис традиційні зміни, керовані CGI. Вирази можуть бути доповнені або придушені. Джерело: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Хоча результати були багатообіцяючими, техніка була обтяжливою, а необхідні ресурси були значними. На цьому етапі CGI був набагато попереду підходів на основі комп’ютерного зору до прямого простору функцій і маніпулювання пікселями.

Більш тісно пов'язана з новою статтею MEAD, модель генерації наборів даних та виразів, випущена у 2020 році, здатна генерувати відео з «розмовними головами», хоча й без того рівня складності, який потенційно можна отримати, змінюючи фактичне вихідне відео безпосередньо.

Генерація експресії за допомогою MEAD 2020 року, співпраці SenseTime Research, Carnegie Mellon і трьох китайських університетів. Джерело: https://wywu.github.io/projects/MEAD/MEAD.html

Генерація експресії за допомогою MEAD 2020 року, спільного проекту SenseTime Research, Carnegie Mellon та трьох китайських університетів. Джерело: https://wywu.github.io/projects/MEAD/MEAD.html

У 2018 році ще один документ під назвою GANimation: анатомічна анімація обличчя з одного зображення, що виникла як американсько-іспанська академічна дослідницька співпраця, і використовувала Generative Adversarial Networks для доповнення або зміни виразів лише в нерухомих зображеннях.

Зміна виразів на нерухомих зображеннях за допомогою GANimation. Джерело: https://arxiv.org/pdf/1807.09251.pdf

Зміна виразів на нерухомих зображеннях за допомогою GANimation. Джерело: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Емоція

Натомість новий проект базується на Wav2Lip, який отримав розголос у 2020 році, запропонувавши потенційний метод повторної синхронізації рухів губ для адаптації нової мови (або пісня) введення, яке ніколи не було в оригінальному відео.

Оригінальний Архітектура Wav2Lip було навчено на корпусі розмовних речень з архівів BBC. Щоб адаптувати Wav2Lip до завдання зміни виразів, дослідники «допрацювали» архітектуру вищезгаданого набору даних MEAD.

MEAD складається з 40 годин відео, у якому 60 акторів читають одне й те саме речення, виконуючи різні вирази обличчя. Актори походять із 15 різних країн і пропонують низку міжнародних характеристик, спрямованих на те, щоб допомогти проекту (і похідним проектам) створювати застосовний і добре узагальнений синтез експресії.

На момент дослідження MEAD опублікував лише першу частину набору даних, що включала 47 осіб, які використовували такі вирази, як «злість», «огида», «страх», «презирство», «щастя», «сум» та «здивування». У цьому початковому досвіді нового підходу дослідники обмежили обсяг проєкту накладанням або іншим чином зміною сприйнятих емоцій «щастя» та «суму», оскільки вони найлегше розпізнаються.

Метод і результати

Оригінальна архітектура Wav2Lip замінює лише нижню частину обличчя, тоді як Wav2Lip-Emotion також експериментує з повною маскою заміни обличчя та синтезом виразу. Таким чином, дослідникам необхідно було додатково модифікувати вбудовані методи оцінки, оскільки вони не були розроблені для конфігурації повного обличчя.

Автори вдосконалюють оригінальний код, зберігаючи оригінальний аудіовхід, зберігаючи послідовність руху губ.

Елемент генератора містить ідентифікаційний кодер, кодер мови та декодер обличчя відповідно до попередньої роботи. Мовний елемент кодується додатково як складені двовимірні згортки, які згодом з’єднуються з відповідними кадрами.

Крім генеративного елемента, модифікована архітектура містить три основні дискримінаційні компоненти, націлені на якість синхронізації губ, об’єктивний елемент емоцій і об’єктивний об’єкт візуальної якості, навчений супротивником.

Для повної реконструкції обличчя оригінальна робота Wav2Lip не містила прецедентів, тому модель навчали з нуля. Для навчання нижній частині обличчя (напівмаска) дослідники виходили з контрольних точок, включених до вихідного коду Wav2Lip.

Окрім автоматичної оцінки, дослідники використовували краудсорсингові відгуки, надані напівавтоматизованою сервісною платформою. Працівники загалом високо оцінювали результат з точки зору розпізнавання накладених емоцій, водночас повідомляючи лише про «помірні» оцінки якості зображення.

Автори припускають, що, окрім покращення якості створеного відео за допомогою подальших уточнень, майбутні ітерації роботи можуть охоплювати ширший спектр емоцій, і що робота може бути однаково застосована в майбутньому до позначених або автоматично виведених вихідних даних і наборів даних, призводячи, зрештою, , до автентичної системи, у якій емоції можна підвищувати чи зменшувати за бажанням користувача або зрештою замінювати емоціями, що контрастують з вихідним відео.