Зв'язатися з нами

Новий і простіший метод Deepfake, який перевершує попередні підходи

Штучний Інтелект

Новий і простіший метод Deepfake, який перевершує попередні підходи

mm

Завдяки співпраці між китайською дослідницькою групою штучного інтелекту та американськими дослідниками було розроблено те, що може бути першою справжньою інновацією в технології глибоких фейків з моменту появи цього явища чотири роки тому.

Новий метод може виконувати заміни облич, які перевершують усі інші існуючі фреймворки за стандартними тестами на сприйняття, без необхідності ретельного збору й контролю великих спеціалізованих наборів даних і навчання їх протягом тижня лише для однієї особи. Для прикладів, наведених у новій статті, моделі були навчені на цілісність двох популярних наборів даних знаменитостей на одному графічному процесорі NVIDIA Tesla P40 протягом приблизно трьох днів.

Повне відео вбудовано в кінці цієї статті. У цьому зразку відео в додаткових матеріалах для нової газети обличчя Скарлетт Йоханссон перенесено на вихідне відео. CihaNet усуває проблему маскування країв під час виконання обміну, формуючи та впроваджуючи глибші зв’язки між вихідною та цільовою ідентичністю, що означає кінець «очевидним кордонам» та іншим збоям накладання, які виникають у традиційних підходах deepfake. Джерело: Джерело: https://mitchellx.github.io/#video

Повне відео доступне в кінці цієї статті. У цьому зразку з відео в додаткових матеріалах, наданих одним із авторів нової статті, обличчя Скарлетт Йоханссон переноситься на вихідне відео. CihaNet усуває проблему маскування країв під час виконання заміни, формуючи та впроваджуючи глибші зв'язки між вихідною та цільовою ідентичностями, що означає кінець «очевидним межам» та іншим збоям накладання, які виникають у традиційних підходах діпфейку. Джерело: Джерело: https://mitchellx.github.io/#video

Новий підхід усуває необхідність грубо «вставляти» пересаджену ідентичність у цільове відео, що часто призводить до розпізнавання інформації. артефакти які з'являються там, де закінчується фальшиве обличчя і починається справжнє, що лежить під ним. Швидше, «карти галюцинацій» використовуються для глибшого поєднання візуальних аспектів, оскільки система відокремлює ідентичність від контексту набагато ефективніше, ніж сучасні методи, і тому може поєднувати цільову ідентичність на глибшому рівні.

З паперу. Перетворення CihaNet полегшуються за допомогою карт галюцинацій (нижній ряд). Система використовує контекстну інформацію (тобто напрямок обличчя, волосся, окуляри та інші оклюзії тощо) повністю із зображення, на яке буде накладено нову особу, а також інформацію про особу повністю від особи, яку потрібно вставити в зображення. Ця здатність відокремлювати обличчя від контексту має вирішальне значення для успіху системи. Джерело: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

З паперу. Перетворення CihaNet полегшуються за допомогою карт галюцинацій (нижній ряд). Система використовує контекстну інформацію (тобто напрямок обличчя, волосся, окуляри та інші оклюзії тощо) повністю із зображення, на яке буде накладено нову особу, а також інформацію про особу повністю від особи, яку потрібно вставити в зображення. Ця здатність відокремлювати обличчя від контексту має вирішальне значення для успіху системи. Джерело: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

По суті, нова карта галюцинацій забезпечує повніший контекст для обміну, на відміну від жорстких масок, які часто вимагають ретельного контролю (а у випадку DeepFaceLab, окреме навчання), водночас забезпечуючи обмежену гнучкість щодо реального включення двох ідентичностей.

Із зразків, наданих у додаткових матеріалах, з використанням наборів даних FFHQ і Celeb-A HQ, через VGGFace і Forensics++. Перші два стовпці показують випадково вибрані (реальні) зображення, які потрібно поміняти місцями. Наступні чотири стовпці показують результати обміну з використанням чотирьох найефективніших доступних на даний момент методів, тоді як останній стовпець показує результат CihaNet. Було використано репозиторій FaceSwap, а не більш популярний DeepFaceLab, оскільки обидва проекти є розгалуженнями оригінального коду Deepfakes 2017 року на GitHub. Хоча з тих пір кожен проект додав моделі, техніки, різноманітні інтерфейси користувача та додаткові інструменти, базовий код, який робить можливим deepfakes, ніколи не змінювався і залишається спільним для обох. Джерело: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Команда папір, Під назвою Одноетапна мережа галюцинацій контексту та ідентифікації, створено дослідниками, пов’язаними з JD AI Research і Університетом Массачусетса Амхерста, і було підтримано Національною ключовою програмою досліджень і розробок Китаю за грантом № 2020AAA0103800. Він був представлений на 29-й міжнародній конференції ACM з мультимедіа, яка відбулася 20-24 жовтня в Ченду, Китай.

Немає потреби в паритеті «віч-на-віч»

Як найпопулярніше на даний момент програмне забезпечення для діпфейків, DeepFaceLab, так і конкуруючий форк FaceSwap виконують складні та часто вручну куровані робочі процеси, щоб визначити, в який бік нахилено обличчя, які перешкоди потрібно враховувати (знову ж таки, вручну), та повинні справлятися з багатьма іншими дратівливими перешкодами (включаючи освітлення), які роблять їх використання далеким від досвіду «вкажи та клацни», який неточно зображується в ЗМІ з моменту появи діпфейків.

Навпаки, CihaNet не вимагає, щоб два зображення були звернені безпосередньо до камери, щоб витягнути та використати корисну ідентифікаційну інформацію з одного зображення.

У цих прикладах набір претендентів на глибоке підроблене програмне забезпечення постає перед завданням поміняти місцями обличчя, які не тільки не схожі за ідентичністю, але й дивляться не однаково. Програмне забезпечення, отримане з оригінального репозиторію deepfakes (наприклад, надзвичайно популярні DeepFaceLab і FaceSwap, зображені вище), не може впоратися з невідповідністю кутів між двома зображеннями, які потрібно поміняти місцями (див. третій стовпець). Тим часом Cihanet може правильно абстрагувати ідентичність, оскільки «поза» обличчя не є невід’ємною частиною інформації про особу.

У цих прикладах набір програмного забезпечення для створення діпфейків стикається із завданням обміну місцями облич, які не лише відрізняються за ідентичністю, але й мають різні погляди. Програмне забезпечення, отримане з оригінального репозиторію діпфейків (наприклад, надзвичайно популярні DeepFaceLab та FaceSwap, зображені вище), не може впоратися з різницею в кутах між двома зображеннями, які потрібно обміняти місцями (див. третій стовпець). Тим часом CihaNet може правильно абстрагувати ідентичність, оскільки «поза» обличчя не є невід’ємною частиною інформації про ідентифікацію.

архітектура

Проект CihaNet, за словами авторів, був натхненний співпрацею 2019 року між Microsoft Research і Пекінським університетом під назвою FaceShifter, хоча він вносить деякі помітні та критичні зміни в основну архітектуру старішого методу.

FaceShifter використовує дві адаптивні нормалізації екземплярів (AdaIN) мережі для обробки ідентифікаційної інформації, дані якої потім транспонуються в цільове зображення через маску, подібно до поточного популярного програмного забезпечення deepfake (і з усіма пов’язаними з ним обмеженнями), використовуючи додаткові HEAR-Net (що включає окремо навчену підмережу, навчену на перешкодах оклюзії – додатковий рівень складності).

Натомість, нова архітектура безпосередньо використовує цю «контекстуальну» інформацію для самого процесу трансформації за допомогою двоетапної операції каскадної адаптивної нормалізації екземплярів (C-AdaIN), яка забезпечує узгодженість контексту (тобто шкіри обличчя та оклюзій) областей, що стосуються ідентифікатора.

Друга підмережа, що має вирішальне значення для системи, називається Swapping Block (SwapBlk), яка генерує інтегровану ознаку з контексту опорного зображення та вбудованої «ідентифікаційної» інформації з вихідного зображення, минаючи численні етапи, необхідні для досягнення цього звичайними сучасними засобами.

Щоб допомогти розрізнити контекст та ідентичність, a карта галюцинацій генерується для кожного рівня, замінюючи маску м’якої сегментації та впливаючи на ширший діапазон функцій для цієї критичної частини процесу deepfake.

У міру того, як значення карти галюцинацій (на зображенні внизу праворуч) зростає, з’являється чіткіший шлях між особами.

У міру того, як значення карти галюцинацій (на зображенні внизу праворуч) зростає, з’являється чіткіший шлях між особами.

Таким чином, весь процес заміни виконується в один етап і без додаткової обробки.

Дані та тестування

Щоб випробувати систему, дослідники навчили чотири моделі на двох дуже популярних і різноманітних відкритих наборах даних зображень – CelebA-HQ  та набір даних Flickr-Faces-HQ від NVIDIA (FFHQ), кожна з яких містить 30,000 70,000 і XNUMX XNUMX зображень відповідно.

Ці базові набори даних не обрізали чи фільтрували. У кожному випадку дослідники навчали весь набір даних на одному GPU Tesla протягом трьох днів із швидкістю навчання 0.0002 за оптимізацією Adam.

Потім вони виконали серію випадкових замін серед тисяч особистостей, представлених у наборах даних, незалежно від того, чи були обличчя схожими чи навіть гендерно збігалися, та порівняли результати CihaNet з результатами чотирьох провідних систем глибоких фейків: Заміна обличчя (який замінює більш популярний DeepFaceLab, оскільки він використовує кореневу кодову базу в оригінальний репозиторій 2017 року який приніс у світ дипфейки); вищезгаданий FaceShifter; ФСГАНІ SimSwap.

При порівнянні результатів через VGG-Обличчя, FFHQ, CelebA-HQ і FaceForensics ++, автори виявили, що їх нова модель перевершила всі попередні моделі, як зазначено в таблиці нижче.

Трьома показниками, використаними для оцінки результатів, були структурна подібність (SSIM), помилка оцінки пози та Точність пошуку ідентифікатора, який обчислюється на основі відсотка успішно отриманих пар.

Дослідники стверджують, що CihaNet представляє кращий підхід з точки зору якісних результатів і помітний прогрес у порівнянні з сучасними технологіями глибоких фейків, усунувши тягар великих і трудомістких архітектур і методологій маскування, і досягнувши більш корисного і дієве відокремлення ідентичності від контексту.

Подивіться нижче, щоб переглянути інші відеоприклади нової техніки. Ви можете знайти повне відео тут.

З додаткових матеріалів для нової газети CihaNet виконує зміну облич різних ідентичностей. Джерело: https://mitchellx.github.io/#video

 

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai