заглушки Новий і простіший метод Deepfake, який перевершує попередні підходи - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Новий і простіший метод Deepfake, який перевершує попередні підходи

mm
оновлений on

Завдяки співпраці між китайською дослідницькою групою штучного інтелекту та американськими дослідниками було розроблено те, що може бути першою справжньою інновацією в технології глибоких фейків з моменту появи цього явища чотири роки тому.

Новий метод може виконувати заміни облич, які перевершують усі інші існуючі фреймворки за стандартними тестами на сприйняття, без необхідності ретельного збору й контролю великих спеціалізованих наборів даних і навчання їх протягом тижня лише для однієї особи. Для прикладів, наведених у новій статті, моделі були навчені на цілісність двох популярних наборів даних знаменитостей на одному графічному процесорі NVIDIA Tesla P40 протягом приблизно трьох днів.

Повне відео вбудовано в кінці цієї статті. У цьому зразку відео в додаткових матеріалах для нової газети обличчя Скарлетт Йоханссон перенесено на вихідне відео. CihaNet усуває проблему маскування країв під час виконання обміну, формуючи та впроваджуючи глибші зв’язки між вихідною та цільовою ідентичністю, що означає кінець «очевидним кордонам» та іншим збоям накладання, які виникають у традиційних підходах deepfake. Джерело: Джерело: https://mitchellx.github.io/#video

Повне відео доступне в кінці цієї статті. У цьому зразку відео в додаткових матеріалах, наданих одним із авторів нової статті, обличчя Скарлетт Йоханссон перенесено на вихідне відео. CihaNet усуває проблему маскування країв під час виконання обміну, формуючи та впроваджуючи глибші зв’язки між вихідною та цільовою ідентичністю, що означає кінець «очевидним межам» та іншим збоям накладання, які виникають у традиційних підходах deepfake. Джерело: Джерело: https://mitchellx.github.io/#video

Новий підхід усуває необхідність грубо «вставляти» трансплантовану ідентичність у цільове відео, що часто призводить до сигналізації артефакти які з’являються там, де закінчується фальшиве обличчя та починається справжнє обличчя, що лежить в основі. Натомість «карти галюцинацій» використовуються для глибшого змішування візуальних аспектів, оскільки система відокремлює ідентичність від контексту набагато ефективніше, ніж сучасні методи, і тому може змішувати цільову ідентичність на більш глибокому рівні.

З паперу. Перетворення CihaNet полегшуються за допомогою карт галюцинацій (нижній ряд). Система використовує контекстну інформацію (тобто напрямок обличчя, волосся, окуляри та інші оклюзії тощо) повністю із зображення, на яке буде накладено нову особу, а також інформацію про особу повністю від особи, яку потрібно вставити в зображення. Ця здатність відокремлювати обличчя від контексту має вирішальне значення для успіху системи. Джерело: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

З паперу. Перетворення CihaNet полегшуються за допомогою карт галюцинацій (нижній ряд). Система використовує контекстну інформацію (тобто напрямок обличчя, волосся, окуляри та інші оклюзії тощо) повністю із зображення, на яке буде накладено нову особу, а також інформацію про особу повністю від особи, яку потрібно вставити в зображення. Ця здатність відокремлювати обличчя від контексту має вирішальне значення для успіху системи. Джерело: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

По суті, нова карта галюцинацій забезпечує повніший контекст для обміну, на відміну від жорстких масок, які часто вимагають ретельного контролю (а у випадку DeepFaceLab, окреме навчання), водночас забезпечуючи обмежену гнучкість щодо реального включення двох ідентичностей.

Із зразків, наданих у додаткових матеріалах, з використанням наборів даних FFHQ і Celeb-A HQ, через VGGFace і Forensics++. Перші два стовпці показують випадково вибрані (реальні) зображення, які потрібно поміняти місцями. Наступні чотири стовпці показують результати обміну з використанням чотирьох найефективніших доступних на даний момент методів, тоді як останній стовпець показує результат CihaNet. Було використано репозиторій FaceSwap, а не більш популярний DeepFaceLab, оскільки обидва проекти є розгалуженнями оригінального коду Deepfakes 2017 року на GitHub. Хоча з тих пір кожен проект додав моделі, техніки, різноманітні інтерфейси користувача та додаткові інструменти, базовий код, який робить можливим deepfakes, ніколи не змінювався і залишається спільним для обох. Джерело: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Команда папір, Під назвою Одноетапна мережа галюцинацій контексту та ідентифікації, створено дослідниками, пов’язаними з JD AI Research і Університетом Массачусетса Амхерста, і було підтримано Національною ключовою програмою досліджень і розробок Китаю за грантом № 2020AAA0103800. Він був представлений на 29-й міжнародній конференції ACM з мультимедіа, яка відбулася 20-24 жовтня в Ченду, Китай.

Немає потреби в паритеті «обличчям до обличчя».

І найпопулярніше поточне програмне забезпечення deepfake, DeepFaceLab, і конкуруючий форк FaceSwap, виконують звивисті та часто керовані вручну робочі процеси, щоб визначити, у який бік нахилено обличчя, які перешкоди на шляху, які потрібно враховувати (знову ж таки, вручну). , і повинні справлятися з багатьма іншими дратівливими перешкодами (включно з освітленням), які роблять їх використання далеким від досвіду «вкажи та клацни», неточно зображуваного в ЗМІ з моменту появи deepfakes.

Навпаки, CihaNet не вимагає, щоб два зображення були звернені безпосередньо до камери, щоб витягнути та використати корисну ідентифікаційну інформацію з одного зображення.

У цих прикладах набір претендентів на глибоке підроблене програмне забезпечення постає перед завданням поміняти місцями обличчя, які не тільки не схожі за ідентичністю, але й дивляться не однаково. Програмне забезпечення, отримане з оригінального репозиторію deepfakes (наприклад, надзвичайно популярні DeepFaceLab і FaceSwap, зображені вище), не може впоратися з невідповідністю кутів між двома зображеннями, які потрібно поміняти місцями (див. третій стовпець). Тим часом Cihanet може правильно абстрагувати ідентичність, оскільки «поза» обличчя не є невід’ємною частиною інформації про особу.

У цих прикладах набір претендентів на глибоке підроблене програмне забезпечення постає перед завданням поміняти місцями обличчя, які не тільки не схожі за ідентичністю, але й дивляться не однаково. Програмне забезпечення, отримане з оригінального репозиторію deepfakes (наприклад, надзвичайно популярні DeepFaceLab і FaceSwap, зображені вище), не може впоратися з невідповідністю кутів між двома зображеннями, які потрібно поміняти місцями (див. третій стовпець). Тим часом CihaNet може правильно абстрагувати особу, оскільки «поза» обличчя не є невід'ємною частиною інформації про особу.

архітектура

Проект CihaNet, за словами авторів, був натхненний співпрацею 2019 року між Microsoft Research і Пекінським університетом під назвою FaceShifter, хоча він вносить деякі помітні та критичні зміни в основну архітектуру старішого методу.

FaceShifter використовує дві адаптивні нормалізації екземплярів (AdaIN) мережі для обробки ідентифікаційної інформації, дані якої потім транспонуються в цільове зображення через маску, подібно до поточного популярного програмного забезпечення deepfake (і з усіма пов’язаними з ним обмеженнями), використовуючи додаткові HEAR-Net (що включає окремо навчену підмережу, навчену на перешкодах оклюзії – додатковий рівень складності).

Натомість нова архітектура безпосередньо використовує цю «контекстуальну» інформацію для самого процесу трансформації за допомогою двоетапної операції каскадної адаптивної нормалізації екземплярів (C-AdaIN), яка забезпечує узгодженість контексту (тобто шкіри обличчя та оклюзій) ID- відповідні сфери.

Друга підмережа, важлива для системи, називається Swapping Block (SwapBlk), яка генерує інтегровану функцію з контексту еталонного зображення та вбудованої «ідентифікаційної» інформації з вихідного зображення, минаючи кілька етапів, необхідних для досягнення цього шляхом звичайні поточні засоби.

Щоб допомогти розрізнити контекст та ідентичність, a карта галюцинацій генерується для кожного рівня, замінюючи маску м’якої сегментації та впливаючи на ширший діапазон функцій для цієї критичної частини процесу deepfake.

У міру того, як значення карти галюцинацій (на зображенні внизу праворуч) зростає, з’являється чіткіший шлях між особами.

У міру того, як значення карти галюцинацій (на зображенні внизу праворуч) зростає, з’являється чіткіший шлях між особами.

Таким чином, весь процес заміни виконується в один етап і без додаткової обробки.

Дані та тестування

Щоб випробувати систему, дослідники навчили чотири моделі на двох дуже популярних і різноманітних відкритих наборах даних зображень – CelebA-HQ  і набір даних Flickr-Faces-HQ NVIDIA (FFHQ), кожна з яких містить 30,000 70,000 і XNUMX XNUMX зображень відповідно.

Ці базові набори даних не обрізали чи фільтрували. У кожному випадку дослідники навчали весь набір даних на одному GPU Tesla протягом трьох днів із швидкістю навчання 0.0002 за оптимізацією Adam.

Потім вони відтворили серію випадкових змін серед тисяч особистостей, представлених у наборах даних, незалежно від того, чи були обличчя схожими чи навіть гендерно відповідними, і порівняли результати CihaNet з результатами чотирьох провідних фреймворків deepfake: Заміна обличчя (який замінює більш популярний DeepFaceLab, оскільки він використовує кореневу кодову базу в оригінальний репозиторій 2017 року який приніс у світ дипфейки); вищезгаданий FaceShifter; ФСГАНІ SimSwap.

При порівнянні результатів через VGG-Обличчя, FFHQ, CelebA-HQ і FaceForensics ++, автори виявили, що їх нова модель перевершила всі попередні моделі, як зазначено в таблиці нижче.

Трьома показниками, використаними для оцінки результатів, були структурна подібність (SSIM), помилка оцінки пози та Точність пошуку ідентифікатора, який обчислюється на основі відсотка успішно отриманих пар.

Дослідники стверджують, що CihaNet представляє кращий підхід з точки зору якісних результатів і помітний прогрес у порівнянні з сучасними технологіями глибоких фейків, усунувши тягар великих і трудомістких архітектур і методологій маскування, і досягнувши більш корисного і дієве відокремлення ідентичності від контексту.

Подивіться нижче, щоб переглянути інші відеоприклади нової техніки. Ви можете знайти повне відео тут.

З додаткових матеріалів для нової газети CihaNet виконує зміну облич різних ідентичностей. Джерело: https://mitchellx.github.io/#video