Штучний Інтелект

Зміна емоцій у відеоматеріалах за допомогою ШІ

оновлений on 9 Грудня, 2022

Дослідники з Греції та Великої Британії розробили новий підхід глибокого навчання до зміни виразів обличчя та видимого настрою людей у відеоматеріалі, зберігаючи при цьому точність рухів їхніх губ до оригінального аудіо таким чином, який попередні спроби не змогли порівняти. .

З відео, яке супроводжує статтю (вбудоване в кінці цієї статті), короткий ролик актора Аль Пачіно, де NED дещо змінив вираз обличчя на основі семантичних концепцій високого рівня. Джерело: https://www.youtube.com/watch?v=Li6W8pRDMJQ

З відео, що супроводжує статтю (вбудоване в кінці цієї статті), короткий кліп актора Аль Пачіно, де NED дещо змінює вираз обличчя на основі семантичних концепцій високого рівня, що визначають індивідуальні вирази обличчя та пов’язані з ними емоції. Метод «Керований посиланням» праворуч бере інтерпретовані емоції вихідного відео та застосовує їх до всієї відеопослідовності. Джерело: https://www.youtube.com/watch?v=Li6W8pRDMJQ

Ця конкретна сфера відноситься до категорії, що розвивається глибокі підроблені емоції, де ідентичність оригінального мовця збережена, але їхні вирази та мікровирази змінені. Оскільки ця конкретна технологія штучного інтелекту розвивається, вона дає можливість кіно- та телепродукції вносити тонкі зміни у вирази акторів, але також відкриває досить нову категорію «емоційно-змінених» глибоких фейків відео.

Зміна обличчя

Міміка публічних діячів, наприклад політиків, ретельно контролюється; у 2016 році прийшла міміка Гілларі Клінтон під пильною увагою ЗМІ за їхній потенційний негативний вплив на її виборчі перспективи; Вирази обличчя, як виявляється, також є a тема інтересу до ФБР; і вони є критичний показник під час співбесід при прийомі на роботу, що робить (далеку) перспективу живого фільтра «контролю експресії» бажаною розвитком для шукачів роботи, які намагаються пройти попередній відбір у Zoom.

Дослідження 2005 року, проведене у Великобританії, стверджувало, що зовнішній вигляд обличчя впливає на рішення голосування, тоді як у статті Washington Post за 2019 рік розглядалося використання обміну відеокліпами «поза контекстом»., що зараз є найближчим до того, що мають прихильники фейкових новин, — це можливість змінити те, як публічна особа, здається, поводиться, реагує чи відчуває себе.

До маніпуляції нейронним експресією

На даний момент сучасний рівень маніпулювання афектом обличчя є досить рудиментарним, оскільки він передбачає боротьбу з розплутування концепцій високого рівня (таких як сумний, сердитий, щасливий, посміхатися) із реального відеовмісту. Хоча традиційні архітектури глибоких фейків, здається, досить добре досягають цього розплутування, віддзеркалення емоцій між різними особами все одно вимагає, щоб два набори обличчя для навчання містили відповідні вирази для кожної особистості.

Оскільки ідентифікація обличчя та характеристики пози наразі настільки переплетені, необхідна широка паритетність виразів, пози голови та (меншою мірою) освітлення в двох наборах даних обличчя, щоб навчити ефективну модель deepfake на таких системах, як DeepFaceLab. Чим менше конкретна конфігурація (наприклад, «вид збоку/усміхнений/освітлений сонцем») представлена в обох наборах обличчя, тим менш точно вона відтворюватиметься у відео підробки, якщо це необхідно.

Типові приклади зображень облич у наборах даних, які використовуються для навчання дипфейків. Наразі ви можете маніпулювати виразом обличчя людини, лише створивши шляхи виразу<>специфічного вираження ідентифікатора в нейронній мережі deepfake. Програмне забезпечення deepfake епохи 2017 року не має внутрішнього семантичного розуміння «посмішки» – воно просто відображає та зіставляє сприйняті зміни в геометрії обличчя двох суб’єктів.

Те, що бажано, але ще не повністю досягнуто, це розпізнати, як суб’єкт Б (наприклад) посміхається, і просто створити 'усмішка' перемикання в архітектурі, без потреби зіставляти її з еквівалентним зображенням суб’єкта А, що посміхається.

Команда новий папір має титул Neural Emotion Director: семантичний контроль виразів обличчя, що зберігає мову, у відео «в дикій природі», і походить від дослідників Школи електротехніки та комп’ютерної інженерії Національного технічного університету Афін, Інституту комп’ютерних наук Фонду досліджень і технологій Hellas (FORTH) і Коледжу інженерії, математики та фізичних наук при Ексетерський університет у Великобританії.

Команда розробила структуру під назвою Директор нейронних емоцій (NED), що включає мережу трансляції емоцій на основі 3D, Тривимірний маніпулятор емоцій.

NED приймає отриману послідовність параметрів виразу та перекладає їх у цільовий домен. Він навчається на непаралельних даних, що означає, що немає необхідності тренуватися на наборах даних, де кожна особа має відповідний вираз обличчя.

Відео, показане в кінці цієї статті, проходить серію тестів, під час яких NED накладає очевидний емоційний стан на кадри з набору даних YouTube.

Автори стверджують, що NED є першим методом на основі відео для «режисури» акторів у випадкових і непередбачуваних ситуаціях, і зробили код доступним на NED Сторінка проекту.

Метод і архітектура

Система навчена на двох великих наборах відеоданих, які були анотовані мітками «емоції».

Вихід забезпечується за допомогою відеорендерера обличчя, який передає бажану емоцію у відео за допомогою традиційних методів синтезу зображення обличчя, включаючи сегментацію обличчя, вирівнювання орієнтирів обличчя та змішування, де синтезується лише область обличчя, а потім накладається на вихідний матеріал.

Архітектура конвеєра нейронного детектора емоцій (NED). Джерело: https://arxiv.org/pdf/2112.00585.pdf

Спочатку система отримує 3D-відновлення обличчя та накладає орієнтири обличчя на вхідні кадри, щоб ідентифікувати вираз обличчя. Після цього ці відновлені параметри виразу передаються до тривимірного маніпулятора емоцій, а вектор стилю обчислюється за допомогою семантичної мітки (наприклад, «щасливий») або еталонного файлу.

Еталонний файл — це відео, яке відображає певний розпізнаний вираз/емоцію, який потім накладається на все цільове відео, замінюючи вихідний вираз.

Етапи процесу передачі емоцій із різними акторами, вибраними з відео YouTube.

Остаточна згенерована 3D-форма обличчя потім об’єднується з нормалізованою середньою координатою обличчя (NMFC) і зображеннями очей (червоні крапки на зображенні вище) і передається нейронному рендереру, який виконує остаточну маніпуляцію.

результати

Дослідники провели широкі дослідження, включаючи дослідження користувачів і абляції, щоб оцінити ефективність методу порівняно з попередньою роботою, і виявили, що в більшості категорій NED перевершує поточний рівень техніки в цьому підсекторі нейронних маніпуляцій обличчя.

Автори статті передбачають, що подальші реалізації цієї роботи та інструменти подібного характеру будуть корисними насамперед у телевізійній та кіноіндустрії, заявляючи:

«Наш метод відкриває безліч нових можливостей для корисних застосувань технологій нейронної візуалізації, починаючи від постпродакшну фільмів і відеоігор і закінчуючи фотореалістичними емоційними аватарами».

Це рання робота в цій галузі, але одна з перших, де спробували відтворити обличчя за допомогою відео, а не нерухомих зображень. Хоча відео, по суті, є великою кількістю нерухомих зображень, які збігаються разом дуже швидко, існують часові міркування, які роблять попередні застосування передачі емоцій менш ефективними. У супровідному відео та прикладах у статті автори включають візуальне порівняння результатів NED з іншими порівнянними недавніми методами.

Детальніші порівняння та багато інших прикладів NED можна знайти в повному відео нижче:

[CVPR 2022] NED: семантичний контроль виразу обличчя, що зберігає мову, у відео «в дикій природі»

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3 грудня 2021 р., 18:30 GMT+2 – На прохання одного з авторів статті було внесено виправлення щодо «довідкового файлу», який я помилково вказав як фотографію (тоді як насправді це відеоролик). Також внесено зміни до назви Інститут комп’ютерних наук при Фонді досліджень і технологій.
3 грудня 2021 р., 20:50 GMT+2 – другий запит від одного з авторів статті щодо подальшої поправки до назви вищезгаданої установи.

Схожі теми:впливають на розпізнавання DeepFakes розпізнавання емоцій емоції дослідження

Вгору Далі

Непередбачені переваги відображення латентного простору GAN

Не пропустіть

Дісней поєднує CGI з нейронним рендерингом, щоб розібратися в «Тагідній долині»

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Зміна емоцій у відеоматеріалах за допомогою ШІ

Штучний Інтелект