Штучний інтелект

Світанок глибоко підроблених емоцій

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Дослідники розробили новий метод машинного навчання для довільного накладення нових емоцій на обличчя в відео, адаптуючи існуючі технології, які нещодавно з’явилися як рішення для синхронізації руху губ з дублюванням іноземною мовою.

Дослідження є рівноправним співробітництвом між Університетом Норtheastern у Бостоні та Медіа-лабораторією Массачусетського технологічного інституту, і називається Інвертовані похмурі обличчя: переклад емоцій відео у відео. Хоча дослідники визнають, що початкова якість результатів повинна бути вдосконалена через подальші дослідження, вони стверджують, що метод, названий Wav2Lip-Emotion, є першим у своєму роді, який безпосередньо звертається до зміни виразу обличчя у повному відео через техніки нейронних мереж.

Базовий код був опублікований на GitHub, хоча перевірки моделі будуть додані до відкритого джерельного репозиторію пізніше, обіцяють автори.

Зліва, ‘сумний’ кадр вихідного відео. Справа, ‘щасливий’ кадр. По центру дві нові підходи до синтезу альтернативних емоцій – верхній ряд: повністю закрите обличчя, де вся поверхня виразу була замінена; нижній ряд: традиційний метод Wav2Lip, який замінює лише нижню частину обличчя. Джерело: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Одне відео як джерельні дані

У теорії, такі маніпуляції можна здійснити зараз через повне навчання на традиційних репозиторіях глибоких підробок, таких як DeepFaceLab або FaceSwap. Однак стандартний робочий процес涉ував би використання альтернативної ідентичності до ‘цільової’ ідентичності, наприклад, актора, який імітує ціль, чий власний вираз обличчя буде перенесено на іншу особу, разом з рештою виконання. Крім того, техніки підробки голосу глибоких підробок зазвичай були б необхідні для завершення ілюзії.

Крім того, фактичне зміна виразу цілі1>цілі1 в одному джерельному відео під цією популярною рамкою涉увала б зміну векторів виравнювання обличчя таким чином, що ці архітектури зараз не забезпечують.

Wav2Lip-Emotion підтримує синхронізацію губ оригінального відео аудіо діалогу під час перетворення асоційованих виразів.

Натомість Wav2Lip-Emotion фактично намагається ‘скопіювати і вставити’ вирази, пов’язані з емоціями, з однієї частини відео і замінити їх в інші точки, з самозаданим обмеженням джерельних даних, яке в кінцевому підсумку повинно запропонувати нижчий зусилля метод для маніпуляції виразом.

Офлайн-моделі могли б бути розроблені пізніше, які будуть навчені на альтернативних відео доповідача, усуваючи необхідність будь-якого одного відео містити ‘палітру’ станів виразу, з яким можна маніпулювати відео.

Потенційні цілі

Автори пропонують ряд застосувань для модифікації виразу, включаючи живий відео фільтр для компенсації ефектів ПТСР і хвороб обличчя. У статті зазначається:

‘Особи з або без обмежених виразів обличчя можуть виграти від налаштування своїх власних виразів, щоб краще відповідати їхнім соціальним обставинам. Одне може бажати змінити вирази у відео, показаних їм. Доповідачі можуть кричати один на одного під час відеоконференції, але тим не менше бажають отримати вміст у їхньому обміні без неприємних виразів. Або кінорежисер може бажати збільшити або зменшити вирази актора.’

Оскільки вираз обличчя є ключовим і основним індикатором наміру, навіть якщо це може суперечити словам, які вимовляються, можливість змінити вираз також пропонує, до певної міри, можливість змінити, як спілкування сприймається.

Попередня робота

Інтерес до зміни виразу машинного навчання сходить щонайменше до 2012 року, коли співробітництво між Adobe, Facebook і Університетом Рутгерса запропонувало метод змінити вирази, використовуючи підхід 3D геометричної реконструкції на основі тензорів, який трудомістко накладав CGI-сітку на кожний кадр цільового відео, щоб здійснити зміну.

Дослідження Adobe/Facebook 2012 року маніпулювали виразами, накладаючи традиційні зміни CGI на відео кадри. Вирази можна було збільшити або приглушити. Джерело: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Хоча результати були перспективними, техніка була трудомісткою, а необхідні ресурси були суттєвими. На той час CGI значно випереджав підходи комп’ютерного зору до прямої маніпуляції простором функцій і пікселями.

Більш тісно пов’язана з новою статтею є MEAD, набір даних і модель генерації виразу, випущені в 2020 році, здатні генерувати відео ‘говорячої голови’, хоча без рівня складності, який потенційно можна досягти шляхом модифікації фактичного джерельного відео безпосередньо.

Генерація виразу з MEAD, співробітництво між SenseTime Research, Carnegie Mellon і трьома китайськими університетами. Джерело: https://wywu.github.io/projects/MEAD/MEAD.html

У 2018 році інша стаття, озаглавлена GANimation: Анатомічно-інформована анімація обличчя з одного зображення, виникла як співробітництво між американськими та іспанськими академічними дослідженнями, і використовувала Генеративні суперницькі мережі для збільшення або зміни виразів на статичних зображеннях лише.

Зміна виразів на статичних зображеннях з GANimation. Джерело: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Натомість новий проєкт заснований на Wav2Lip, який отримав публічність у 2020 році, пропонуючи потенційний метод для повторної синхронізації руху губ для розміщення нового входу мови (або пісні), який ніколи не з’являвся в оригінальному відео.

Оригінальна архітектура Wav2Lip була навчена на корпусі розмовних речень з архівів BBC. Для адаптації Wav2Lip до завдання зміни виразу дослідники ‘тонко налаштували’ архітектуру на вищезгаданому наборі даних MEAD.

MEAD складається з 40 годин відео, що містить 60 акторів, які читають одне й те саме речення, виконуючи різноманітні вирази обличчя. Актори походять з 15 різних країн і пропонують ряд міжнародних характеристик, спрямованих на допомогу проєкту (і похідним проєктам) у створенні застосовних і добре узагальнених синтезів виразу.

На час дослідження MEAD випустив лише першу частину набору даних, що містить 47 осіб, які виконують вирази, такі як ‘сердитий’, ‘відраза’, ‘страх’, ‘зневага’, ‘щасливий’, ‘сумний’ і ‘подив’. У цьому першому виході в новий підхід дослідники обмежили сферу проєкту суперпозицією або іншою зміною сприйнятих емоцій ‘щасливий’ і ‘сумний’, оскільки ці є найбільш легко розпізнаваними.

Метод і результати

Оригінальна архітектура Wav2Lip замінює лише нижню частину обличчя, тоді як Wav2Lip-Emotion також експериментує з повною маскою заміни обличчя і синтезу виразу. Отже, було необхідно для дослідників додатково змінити вбудовані методи оцінки, оскільки вони не були призначені для повної конфігурації обличчя.

Автори покращують оригінальний код, зберігаючи оригінальний аудіо-вхід, підтримуючи узгодженість руху губ.

Генератор містить ідентифікатор кодувальника, кодувальник мови і декодувальник обличчя, згідно з попередньою роботою. Елемент мови кодується додатково як стекові 2D-конволюції, які потім конкатенуються з їхнім асоційованим кадром.

Крім генеративного елемента, модифікована архітектура містить три основні компоненти дискримінатора, спрямовані на якість синхронізації губ, елемент цілей емоції та візуально об’єкт, навчений суперницьким чином.

Для повної реконструкції обличчя оригінальна робота Wav2Lip не містила жодного попередника, і тому модель була навчена з нуля. Для навчання нижньої частини обличчя (півмаски) дослідники продовжили роботу з контрольних точок, включених до оригінального коду Wav2Lip.

Поруч з автоматичною оцінкою дослідники використовували напівавтоматизовану службу громадської думки. Працівники загалом оцінили вихід високим за розпізнаванням надкладених емоцій, тоді як тільки повідомили про ‘помірну’ оцінку якості зображення.

Автори пропонують, що, крім покращення якості згенерованого відео з подальшими вдосконаленнями, майбутні ітерації роботи могли б охоплювати ширший діапазон емоцій, і що робота могла б бути застосована в майбутньому до позначених або автоматично витягнутих джерельних даних і наборів даних, що в кінцевому підсумку приведе до справжньої системи, в якій емоції можна буде збільшувати або зменшувати за бажанням користувача, або в кінцевому підсумку замінювати протилежними емоціями щодо джерельного відео.