Штучний Інтелект
Зміна емоцій у відеоматеріалах за допомогою ШІ
Дослідники з Греції та Великої Британії розробили новий підхід глибокого навчання до зміни виразів обличчя та видимого настрою людей у відеоматеріалі, зберігаючи при цьому точність рухів їхніх губ до оригінального аудіо таким чином, який попередні спроби не змогли порівняти. .
Ця конкретна сфера відноситься до категорії, що розвивається глибокі підроблені емоції, де ідентичність оригінального мовця збережена, але їхні вирази та мікровирази змінені. Оскільки ця конкретна технологія штучного інтелекту розвивається, вона дає можливість кіно- та телепродукції вносити тонкі зміни у вирази акторів, але також відкриває досить нову категорію «емоційно-змінених» глибоких фейків відео.
Зміна обличчя
Міміка публічних діячів, наприклад політиків, ретельно контролюється; у 2016 році прийшла міміка Гілларі Клінтон під пильною увагою ЗМІ за їхній потенційний негативний вплив на її виборчі перспективи; Вирази обличчя, як виявляється, також є a тема інтересу до ФБР; і вони є критичний показник під час співбесід при прийомі на роботу, що робить (далеку) перспективу живого фільтра «контролю експресії» бажаною розвитком для шукачів роботи, які намагаються пройти попередній відбір у Zoom.
Дослідження 2005 року, проведене у Великобританії, стверджувало, що зовнішній вигляд обличчя впливає на рішення голосування, тоді як у статті Washington Post за 2019 рік розглядалося використання обміну відеокліпами «поза контекстом»., що зараз є найближчим до того, що мають прихильники фейкових новин, — це можливість змінити те, як публічна особа, здається, поводиться, реагує чи відчуває себе.
До маніпуляції нейронним експресією
На даний момент сучасний рівень маніпулювання афектом обличчя є досить рудиментарним, оскільки він передбачає боротьбу з розплутування концепцій високого рівня (таких як сумний, сердитий, щасливий, посміхатися) із реального відеовмісту. Хоча традиційні архітектури глибоких фейків, здається, досить добре досягають цього розплутування, віддзеркалення емоцій між різними особами все одно вимагає, щоб два набори обличчя для навчання містили відповідні вирази для кожної особистості.
Те, що бажано, але ще не повністю досягнуто, це розпізнати, як суб’єкт Б (наприклад) посміхається, і просто створити 'усмішка' перемикання в архітектурі, без потреби зіставляти її з еквівалентним зображенням суб’єкта А, що посміхається.
Команда новий папір має титул Neural Emotion Director: семантичний контроль виразів обличчя, що зберігає мову, у відео «в дикій природі», і походить від дослідників Школи електротехніки та комп’ютерної інженерії Національного технічного університету Афін, Інституту комп’ютерних наук Фонду досліджень і технологій Hellas (FORTH) і Коледжу інженерії, математики та фізичних наук при Ексетерський університет у Великобританії.
Команда розробила структуру під назвою Директор нейронних емоцій (NED), що включає мережу трансляції емоцій на основі 3D, Тривимірний маніпулятор емоцій.
NED приймає отриману послідовність параметрів виразу та перекладає їх у цільовий домен. Він навчається на непаралельних даних, що означає, що немає необхідності тренуватися на наборах даних, де кожна особа має відповідний вираз обличчя.
Автори стверджують, що NED є першим методом на основі відео для «режисури» акторів у випадкових і непередбачуваних ситуаціях, і зробили код доступним на NED Сторінка проекту.
Метод і архітектура
Система навчена на двох великих наборах відеоданих, які були анотовані мітками «емоції».
Вихід забезпечується за допомогою відеорендерера обличчя, який передає бажану емоцію у відео за допомогою традиційних методів синтезу зображення обличчя, включаючи сегментацію обличчя, вирівнювання орієнтирів обличчя та змішування, де синтезується лише область обличчя, а потім накладається на вихідний матеріал.
Спочатку система отримує 3D-відновлення обличчя та накладає орієнтири обличчя на вхідні кадри, щоб ідентифікувати вираз обличчя. Після цього ці відновлені параметри виразу передаються до тривимірного маніпулятора емоцій, а вектор стилю обчислюється за допомогою семантичної мітки (наприклад, «щасливий») або еталонного файлу.
Еталонний файл — це відео, яке відображає певний розпізнаний вираз/емоцію, який потім накладається на все цільове відео, замінюючи вихідний вираз.
Остаточна згенерована 3D-форма обличчя потім об’єднується з нормалізованою середньою координатою обличчя (NMFC) і зображеннями очей (червоні крапки на зображенні вище) і передається нейронному рендереру, який виконує остаточну маніпуляцію.
результати
Дослідники провели широкі дослідження, включаючи дослідження користувачів і абляції, щоб оцінити ефективність методу порівняно з попередньою роботою, і виявили, що в більшості категорій NED перевершує поточний рівень техніки в цьому підсекторі нейронних маніпуляцій обличчя.
Автори статті передбачають, що подальші реалізації цієї роботи та інструменти подібного характеру будуть корисними насамперед у телевізійній та кіноіндустрії, заявляючи:
«Наш метод відкриває безліч нових можливостей для корисних застосувань технологій нейронної візуалізації, починаючи від постпродакшну фільмів і відеоігор і закінчуючи фотореалістичними емоційними аватарами».
Це рання робота в цій галузі, але одна з перших, де спробували відтворити обличчя за допомогою відео, а не нерухомих зображень. Хоча відео, по суті, є великою кількістю нерухомих зображень, які збігаються разом дуже швидко, існують часові міркування, які роблять попередні застосування передачі емоцій менш ефективними. У супровідному відео та прикладах у статті автори включають візуальне порівняння результатів NED з іншими порівнянними недавніми методами.
Детальніші порівняння та багато інших прикладів NED можна знайти в повному відео нижче:
3 грудня 2021 р., 18:30 GMT+2 – На прохання одного з авторів статті було внесено виправлення щодо «довідкового файлу», який я помилково вказав як фотографію (тоді як насправді це відеоролик). Також внесено зміни до назви Інститут комп’ютерних наук при Фонді досліджень і технологій.
3 грудня 2021 р., 20:50 GMT+2 – другий запит від одного з авторів статті щодо подальшої поправки до назви вищезгаданої установи.