Погляд Anderson
Розробники TikTok видаляють обличчя для застосунків доповненої реальності

ByteDance, китайська транснаціональна інтернет-компанія, яка стоїть за TikTok, розробила новий метод видалення обличчя у відео, щоб можна було застосовувати спотворення особистості та інші дивні ефекти до людей у застосунках доповненої реальності. Компанія заявляє, що ця техніка вже була інтегрована у комерційні мобільні продукти, хоча не вказує, які саме продукти.
Як тільки обличчя у відео були “обнулені”, залишається достатньо “площі обличчя”, щоб створювати ошеломлюючі спотворення, а також потенційно накладати інші особистості. Приклади, надані у новій роботі дослідників ByteDance, ілюструють можливості, включаючи відновлення “видалених” особливостей у різних комічних (і, безумовно, деяких гротескних) конфігураціях:

Деякі з можливостей для перефігурації обличчя, включені у роботу ByteDance. Джерело: https://arxiv.org/pdf/2109.10760.pdf
Наприкінці серпня стало відомо, що TikTok, перший не-Фейсбук застосунок, який досяг трьох мільярдів встановлень, запустив TikTok Effect Studio (наразі у закритому бета-тестуванні), платформу для розробників доповненої реальності (AR) для створення ефектів AR для потоків контенту TikTok.
По суті, компанія доганяє подібні спільноти розробників у Facebook’s AR Studio та Snap AR, а також у Apple’s AR R&D спільнота, яка скоро буде активізована новим апаратним забезпеченням протягом наступного року.
Порожні вирази
У роботі, озаглавленій FaceEraser: Видалення частин обличчя для доповненої реальності, зазначається, що існуючі алгоритми заповнення/доповнення, такі як NVIDIA’s SPADE, більше орієнтовані на завершення обрізаних або інакше напівзакритих зображень, ніж на виконання цього незвичайного “очищення” процедури, і що існуючі матеріали наборів даних, відповідно, передбачувано рідкісні.
Оскільки немає доступних наборів даних для людей, які мають суцільну площу плоті там, де повинно бути обличчя, дослідники створили нову мережеву архітектуру під назвою pixel-clone, яка може бути накладена на існуючі нейронні моделі заповнення, і яка вирішує питання, пов’язані з текстурою та кольоровими несумісностями, проявленими (у роботі підтверджується) старими методами, такими як StructureFlow та EdgeConnect.

Загальний робочий процес pixel-clone у новому конвеєрі.
Для навчання моделі на “порожніх” обличчях дослідники виключили зображення з окулярами або волоссям, яке закриває лоб, оскільки площа між лінією волосся та бровами зазвичай є найбільшою одною групою пікселів, яка може постачати “накладний” матеріал для центральних особливостей обличчя.

Підготовка навчальних зображень. Площа лоба виокремлюється на основі ключових точок розпізнавання обличчя, вертикально перевертається та шиться.
Отримується зображення розміром 256×256 пікселів, яке достатньо мале, щоб подавати у латентному просторі нейронної мережі у пакетах, достатньо великих для досягнення узагальнення. Пізніше алгоритмічне збільшення відновить роздільність, необхідну для роботи у просторі AR.
Архітектура
Мережа складається з трьох внутрішніх мереж, що складаються з завершення країв, клонування пікселів та мережі уточнення. Мережа завершення країв використовує ту саму архітектуру кодувача-дешифрувача, яку використовують EdgeConnect (див. вище), а також дві найпопулярніші програми глибоких фейків. Кодувачі зменшують розмір вмісту зображення вдвічі, а декодувачі відновлюють початкові розміри зображення.
Клонування пікселів використовує модифіковану методологію кодувача-дешифрувача, тоді як шар уточнення використовує архітектуру U-Net, техніку, вперше розроблену для біомедичної візуалізації, яка часто зустрічається у проектах синтезу зображень.
Під час робочого процесу навчання необхідно оцінювати точність перетворень та, за необхідності, повторювати спроби ітеративно до збіжності. Для цього використовуються два дискримінатори на основі PatchGAN, кожний з яких оцінює локальну реалістичність 70×70 пікселів, знижуючи реалістичність значення всього зображення.
Навчання та дані
Мережа завершення країв спочатку навчається незалежно, тоді як інші дві мережі навчаються разом, на основі ваг, отриманих під час навчання завершення країв, які фіксуються та заморожуються під час цього процесу.
Хоча робота не явно зазначає, що приклади кінцевого спотворення особливостей є центральною метою моделі, вона реалізує різні комічні ефекти для тестування стійкості системи, включаючи видалення брів, збільшення рота, зменшення підочної частини обличчя та “мультяшні” ефекти (як показано на попередньому зображенні вище).
У роботі зазначається, що “видалені обличчя дозволяють різні застосування доповненої реальності, які вимагають розміщення будь-яких елементів, налаштованих користувачем”, вказуючи на можливість налаштування обличчя третіми елементами, внесеними користувачами.
Модель навчається на масках з набору даних FFHQ, створеного NVIDIA, який містить достатню різноманітність віків, етнічних груп, освітлення та поз обличчя та стилів, щоб досягти корисного узагальнення. Набір даних містить 35 000 зображень та 10 000 навчальних масок для визначення областей перетворення, з 4000 зображень та 1000 масок, відкладених для цілей валідації.

Зразки навчальних даних.
Навчена модель може здійснювати висновок даних з 2017 року CelebA-HQ та VoxCeleb, незнайомі обличчя з FFHQ, а також будь-які інші необмежені, незнайомі обличчя, які подаються їй. Зображення розміром 256×256 пікселів навчаються у мережі у пакетах по 8 за допомогою оптимізатора Adam, реалізованого у PyTorch, та запускаються на процесорі Tesla V100 GPU протягом “2000 000 епох”.

Результати висновку, отримані на реальному обличчі.
Як це часто буває у дослідженнях синтезу зображень на основі обличчя, система повинна мати справу з періодичними невдачами, викликаними перешкодами або закриттями, такими як волосся, аксесуари, окуляри та волосся на обличчі.
У звіті зазначається:
‘Наш підхід було комерціалізовано і він добре працює у продуктах для необмежених входів користувача.’












