Взгляд Anderson

Разработчики TikTok стирают лица для приложений дополненной реальности

mm

ByteDance, китайская многонациональная интернет-компания, стоящая за TikTok, разработала новый метод стирания лиц на видео, чтобы можно было наложить искажения и другие странные эффекты на людей в приложениях дополненной реальности. Компания утверждает, что эта техника уже интегрирована в коммерческие мобильные продукты, хотя не указывает, какие именно.

Как только лица на видео будут «обнулены», появляется достаточно «холста для лица», чтобы создать ошеломляющие искажения, а также потенциально наложить другие идентификаторы. Примеры, представленные в новой статье исследователей ByteDance, иллюстрируют возможности, включая восстановление «стиранных» черт в различных комических (и, безусловно, некоторых ужасных) конфигурациях:

Некоторые возможности для переформирования лица, представленные в статье ByteDance.

Некоторые возможности для переформирования лица, представленные в статье ByteDance. Источник: https://arxiv.org/pdf/2109.10760.pdf

В конце августа стало известно, что TikTok, первый не-Facebook приложение, достигшее трех миллиардов установок, запустил TikTok Effect Studio (в настоящее время в закрытой бета-версии), платформу для разработчиков дополненной реальности для создания эффектов дополненной реальности для потоков контента TikTok.

По сути, компания догоняет аналогичные сообщества разработчиков в Facebook’s AR Studio и Snap AR, а также Apple’s AR R&D community, который скоро будет обновлен новым оборудованием в течение следующего года.

Пустые выражения

Статья, озаглавленная FaceEraser: Удаление частей лица для дополненной реальности, отмечает, что существующие алгоритмы заполнения/восстановления, такие как NVIDIA’s SPADE, более ориентированы на завершение обрезанных или частично скрытых изображений, чем на выполнение этой необычной «стирания» процедуры, и что существующие наборы данных поэтому предсказуемо скудны.

Поскольку нет доступных эталонных наборов данных для людей, у которых вместо лица сплошная площадь кожи, исследователи создали новую архитектуру сети под названием pixel-clone, которую можно наложить на существующие нейронные модели заполнения, и которая решает проблемы, связанные с текстурными и цветовыми несоответствиями, проявляемыми (по утверждению статьи) более старыми методами, такими как StructureFlow и EdgeConnect.

Общая структура pixel-clone в новой трубопроводе.

Общая структура pixel-clone в новой трубопроводе.

Чтобы обучить модель на «пустых» лицах, исследователи исключили изображения с очками или волосами, закрывающими лоб, поскольку область между линией волос и бровями обычно является самой большой группой пикселей, которая может обеспечить «материал для перекрытия» для центральных черт лица.

Подготовка обучающих изображений. Область лба обрезана на основе ключевых точек распознавания лица, перевернута вертикально и сшита.

Подготовка обучающих изображений. Область лба обрезана на основе ключевых точек распознавания лица, перевернута вертикально и сшита.

Изображение размером 256×256 пикселей получается, достаточно небольшое, чтобы подать в скрытое пространство нейронной сети в пакетах, которые достаточно велики, чтобы достичь обобщения. Последующее алгоритмическое масштабирование восстановит необходимые разрешения для работы в пространстве дополненной реальности.

Архитектура

Сеть состоит из трех внутренних сетей, включающих завершение краев, клонирование пикселей и сеть уточнения. Сеть завершения краев использует ту же архитектуру кодировщика-декодировщика, используемую в EdgeConnect (см. выше), а также в двух самых популярных приложениях для глубоких фейков. Кодировщики уменьшают размер содержимого изображения вдвое, а декодировщики восстанавливают исходные размеры изображения.

Клонирование пикселей использует модифицированную методологию кодировщика-декодировщика, а сеть уточнения использует архитектуру U-Net, метод, первоначально разработанный для биомедицинской визуализации, который часто встречается в проектах исследования синтеза изображений.

Во время рабочего процесса обучения необходимо оценить точность преобразований и, при необходимости, повторить попытки итеративно до сходимости. Для этого используются два дискриминатора на основе PatchGAN, каждый из которых оценивает локальную реалистичность 70×70 пиксельных патчей, не учитывая реалистичность всего изображения.

Обучение и данные

Сеть завершения краев сначала обучается независимо, а две другие сети обучаются вместе на основе весов, полученных в результате обучения завершения краев, которые фиксируются и замораживаются во время этого процесса.

Хотя статья не явно заявляет, что ее примеры окончательного искажения черт являются центральной целью модели, она реализует различные комические эффекты для проверки стойкости системы, включая удаление бровей, увеличение размера рта, уменьшение размера подлиц, и «мультипликационные» эффекты (как показано на предыдущем изображении выше).

Статья утверждает, что «стиранные лица позволяют различные приложения дополненной реальности, требующие размещения любых пользовательских элементов», указывая на возможность настройки лиц с помощью сторонних, пользовательских элементов.

Модель обучается на масках из набора данных FFHQ, созданного NVIDIA, который содержит достаточное разнообразие возрастов, этнических групп, освещения и стилей лица, чтобы достичь полезного обобщения. Набор данных содержит 35 000 изображений и 10 000 обучающих масок для определения областей преобразования, с 4000 изображениями и 1000 масками, отложенными для целей проверки.

Обучающие образцы.

Обучающие образцы.

Обученная модель может выполнять вывод на данных из набора данных CelebA-HQ 2017 года и VoxCeleb, незнакомых лиц из FFHQ, и любых других неограниченных, незнакомых лиц, представленных ей. Изображения размером 256×256 пикселей обучались на сети в пакетах по 8 с оптимизатором Adam, реализованным в PyTorch, и запускались на GPU Tesla V100 за «2000 000 эпох».

Результаты вывода, полученные на реальном лице.

Результаты вывода, полученные на реальном лице.

Как обычно бывает в исследованиях синтеза изображений на основе лица, система должна иметь дело с периодическими неудачами, вызванными препятствиями или перекрытиями, такими как волосы, аксессуары, очки и борода.

Отчет заключает:

«Наш подход был коммерциализирован и работает хорошо в продуктах для неограниченных пользовательских входных данных.»

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.