Штучний Інтелект
Новий і простіший метод Deepfake, який перевершує попередні підходи
Завдяки співпраці між китайською дослідницькою групою штучного інтелекту та американськими дослідниками було розроблено те, що може бути першою справжньою інновацією в технології глибоких фейків з моменту появи цього явища чотири роки тому.
Новий метод може виконувати заміни облич, які перевершують усі інші існуючі фреймворки за стандартними тестами на сприйняття, без необхідності ретельного збору й контролю великих спеціалізованих наборів даних і навчання їх протягом тижня лише для однієї особи. Для прикладів, наведених у новій статті, моделі були навчені на цілісність двох популярних наборів даних знаменитостей на одному графічному процесорі NVIDIA Tesla P40 протягом приблизно трьох днів.
Новий підхід усуває необхідність грубо «вставляти» трансплантовану ідентичність у цільове відео, що часто призводить до сигналізації артефакти які з’являються там, де закінчується фальшиве обличчя та починається справжнє обличчя, що лежить в основі. Натомість «карти галюцинацій» використовуються для глибшого змішування візуальних аспектів, оскільки система відокремлює ідентичність від контексту набагато ефективніше, ніж сучасні методи, і тому може змішувати цільову ідентичність на більш глибокому рівні.
По суті, нова карта галюцинацій забезпечує повніший контекст для обміну, на відміну від жорстких масок, які часто вимагають ретельного контролю (а у випадку DeepFaceLab, окреме навчання), водночас забезпечуючи обмежену гнучкість щодо реального включення двох ідентичностей.
Команда папір, Під назвою Одноетапна мережа галюцинацій контексту та ідентифікації, створено дослідниками, пов’язаними з JD AI Research і Університетом Массачусетса Амхерста, і було підтримано Національною ключовою програмою досліджень і розробок Китаю за грантом № 2020AAA0103800. Він був представлений на 29-й міжнародній конференції ACM з мультимедіа, яка відбулася 20-24 жовтня в Ченду, Китай.
Немає потреби в паритеті «обличчям до обличчя».
І найпопулярніше поточне програмне забезпечення deepfake, DeepFaceLab, і конкуруючий форк FaceSwap, виконують звивисті та часто керовані вручну робочі процеси, щоб визначити, у який бік нахилено обличчя, які перешкоди на шляху, які потрібно враховувати (знову ж таки, вручну). , і повинні справлятися з багатьма іншими дратівливими перешкодами (включно з освітленням), які роблять їх використання далеким від досвіду «вкажи та клацни», неточно зображуваного в ЗМІ з моменту появи deepfakes.
Навпаки, CihaNet не вимагає, щоб два зображення були звернені безпосередньо до камери, щоб витягнути та використати корисну ідентифікаційну інформацію з одного зображення.
архітектура
Проект CihaNet, за словами авторів, був натхненний співпрацею 2019 року між Microsoft Research і Пекінським університетом під назвою FaceShifter, хоча він вносить деякі помітні та критичні зміни в основну архітектуру старішого методу.
FaceShifter використовує дві адаптивні нормалізації екземплярів (AdaIN) мережі для обробки ідентифікаційної інформації, дані якої потім транспонуються в цільове зображення через маску, подібно до поточного популярного програмного забезпечення deepfake (і з усіма пов’язаними з ним обмеженнями), використовуючи додаткові HEAR-Net (що включає окремо навчену підмережу, навчену на перешкодах оклюзії – додатковий рівень складності).
Натомість нова архітектура безпосередньо використовує цю «контекстуальну» інформацію для самого процесу трансформації за допомогою двоетапної операції каскадної адаптивної нормалізації екземплярів (C-AdaIN), яка забезпечує узгодженість контексту (тобто шкіри обличчя та оклюзій) ID- відповідні сфери.
Друга підмережа, важлива для системи, називається Swapping Block (SwapBlk), яка генерує інтегровану функцію з контексту еталонного зображення та вбудованої «ідентифікаційної» інформації з вихідного зображення, минаючи кілька етапів, необхідних для досягнення цього шляхом звичайні поточні засоби.
Щоб допомогти розрізнити контекст та ідентичність, a карта галюцинацій генерується для кожного рівня, замінюючи маску м’якої сегментації та впливаючи на ширший діапазон функцій для цієї критичної частини процесу deepfake.
Таким чином, весь процес заміни виконується в один етап і без додаткової обробки.
Дані та тестування
Щоб випробувати систему, дослідники навчили чотири моделі на двох дуже популярних і різноманітних відкритих наборах даних зображень – CelebA-HQ і набір даних Flickr-Faces-HQ NVIDIA (FFHQ), кожна з яких містить 30,000 70,000 і XNUMX XNUMX зображень відповідно.
Ці базові набори даних не обрізали чи фільтрували. У кожному випадку дослідники навчали весь набір даних на одному GPU Tesla протягом трьох днів із швидкістю навчання 0.0002 за оптимізацією Adam.
Потім вони відтворили серію випадкових змін серед тисяч особистостей, представлених у наборах даних, незалежно від того, чи були обличчя схожими чи навіть гендерно відповідними, і порівняли результати CihaNet з результатами чотирьох провідних фреймворків deepfake: Заміна обличчя (який замінює більш популярний DeepFaceLab, оскільки він використовує кореневу кодову базу в оригінальний репозиторій 2017 року який приніс у світ дипфейки); вищезгаданий FaceShifter; ФСГАНІ SimSwap.
При порівнянні результатів через VGG-Обличчя, FFHQ, CelebA-HQ і FaceForensics ++, автори виявили, що їх нова модель перевершила всі попередні моделі, як зазначено в таблиці нижче.
Трьома показниками, використаними для оцінки результатів, були структурна подібність (SSIM), помилка оцінки пози та Точність пошуку ідентифікатора, який обчислюється на основі відсотка успішно отриманих пар.
Дослідники стверджують, що CihaNet представляє кращий підхід з точки зору якісних результатів і помітний прогрес у порівнянні з сучасними технологіями глибоких фейків, усунувши тягар великих і трудомістких архітектур і методологій маскування, і досягнувши більш корисного і дієве відокремлення ідентичності від контексту.
Подивіться нижче, щоб переглянути інші відеоприклади нової техніки. Ви можете знайти повне відео тут.
З додаткових матеріалів для нової газети CihaNet виконує зміну облич різних ідентичностей. Джерело: https://mitchellx.github.io/#video