Штучний Інтелект

Новий метод Deepfake вирішує проблему «Face Host».

оновлений on 9 Грудня, 2022

Незважаючи на кілька років гіперболізації засобів масової інформації щодо потенціалу підроблених зображень підірвати нашу давню віру в автентичність відеоматеріалів, усі популярні наразі методи покладаються на пошук «хозяїв облич», які за своєю формою схожі на цільове обличчя.

Якщо на оригінальному кадрі зображено широке обличчя, а цільовий об’єкт має вузьке, результати завжди були проблематичними, оскільки таке перенесення передбачає вирізання частини оригінального обличчя та реконструкцію експонованого фону. Поточні пакети, такі як DeepFaceLab і FaceSwap, здатні давати обмежені результати, коли конфігурація зворотна (вузька>широка), але не мають засобів для переконливого вирішення цього сценарію.

Тепер співпраця між Tencent і китайським університетом Сямень розробила новий підхід, під назвою HifiFace, призначений для усунення цього недоліку.

Дві глибокі підробки HifiFace, перша Енн Хетевей, де гарна схожість отримана, незважаючи на несумісну форму обличчя хоста. HifiFace також добре справляється з цілями в окулярах, що традиційно є каменем спотикання у deepfakes. Джерело: https://arxiv.org/pdf/2106.09965.pdf

Ремоделювання Deepfake Face

Попередні підходи, наприклад 2019 року Суб’єктна агностична зміна обличчя та відтворення (ФСГАН), залежали від Фітинг 3DMM (3D Morphable Models) або інші методології, засновані на розпізнаванні орієнтирів обличчя або трансформації, де контури обличчя, які потрібно «перезаписати», значною мірою визначають межі заміни:

Виявлення орієнтирів обличчя 3DMM. Джерело: https://github.com/Yinghao-Li/3DMM-fitting

Хоча конкуруючі методи спираються на особливості, отримані від мереж розпізнавання обличчя, вони в основному спрямовані на відновлення текстури, а не структури, і так само створюють ефект «маски» у випадках, коли головне обличчя не є повністю сумісним (тобто межі та форма лінії волосся, щелепи та вилиць).

Щоб вирішити ці проблеми, китайські дослідники з лабораторії медіааналітики та обчислювальної техніки на факультеті штучного інтелекту університету розробили наскрізну мережу, яка регресує коефіцієнти цільового та вихідного обличчя за допомогою моделі 3D-реконструкції, який потім повторно об’єднується як інформація про форму та об’єднується з інформацією вектора ідентифікації з мережі розпізнавання обличчя.

Потім ці геометричні дані вводяться в модель кодера-декодера як структурна інформація, яка змішується з виразом і розташуванням цільового обличчя, які використовуються як допоміжні джерела для точної передачі.

Семантичне злиття обличчя

Крім того, HifiFace містить компонент Semantic Facial Fusion (SFF), який використовує функцію низького рівня в кодері для збереження просторової та текстурної інформації без шкоди для ідентичності цільового зображення. Функції кодера та декодера інтегруються в навчену адаптивну маску, а фонова інформація змішується з виводом за допомогою навченої маски обличчя.

HifiFace в дії. Джерело: https://johann.wang/HifiFace/

Таким чином, HifiFace відходить від використання меж обличчя оригінального матеріалу як жорсткого обмеження, використовуючи розширену семантичну сегментацію обличчя, за якої модель може виконувати краще адаптивне злиття на межах меж обличчя.

Два попередніх підходи (верхній і нижній ліворуч) і нова архітектура HifiFace, яка складається з кодера, декодера, тривимірного екстрактора ідентичності з урахуванням форми та модуля SFF.

У порівнянні з колишніми методами ФСГАН, SimSwap та FaceShifter, HifiFace демонструє чудову реконструкцію форми обличчя, оскільки він не апроксимує «примарні» елементи, де межі обличчя перешкоджають відображенню ідентичності>ідентичності, а остаточно реконструює їх.

Тестування

Дослідники реалізували систему за допомогою VGGFace2 і DeepGlint Азійська знаменитість набори даних. Обличчя були вирівняні за 5 зовнішніми орієнтирами та повторно обрізані до 256×256 пікселів. Для створення версії 512 × 512 пікселів для додаткової моделі з вищою роздільною здатністю також використовувалася мережа покращення портрета. Модель пройшла навчання під Адам.

Хоча FaceShifter добре зберігає ідентичність, він не може вирішувати такі проблеми, як експресія, колір і оклюзія, так само ефективно, як HifiFace, і має складнішу структуру мережі. FSGAN має проблеми з перенесенням освітлення від джерела до цілі.

Дослідники використовують FaceForensics ++ для кількісного порівняння, вибірки кожного з десяти кадрів у пакеті перетворених відео за допомогою конкуруючих методів і виявлення того, що HifiFace досяг кращого результату отримання ідентифікатора. Під час тестування ряду інших факторів, таких як якість зображення, дослідники також виявили, що їхній метод перевершує конкуруючі методики.

Лінії обличчя Бенедикта Камбербетча точно відтворені.

Робота є подальшим кроком до абстрагування вихідного матеріалу, щоб він був лише грубим шаблоном, у який можна перенести точні ідентичності. Деякі з поточних пакетів FOSS, у тому числі DeepFaceLab, мають нову функцію для повної заміни голови, але, як і HifiFace, вони не враховують волосся, і вони більш ефективні в «нарощуванні» обличчя, ніж у виточуванні його відповідно до відповідності. бажане цільове джерело.

Вгору Далі

Нейронні частини: розбиття примітивів для значущої виведеної геометрії

Не пропустіть

Синтетичні дані: подолання розриву оклюзії за допомогою Grand Theft Auto

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Новий метод Deepfake вирішує проблему «Face Host».

Штучний Інтелект