заглушки Разработчики TikTok стирают лица для приложений дополненной реальности - Unite.AI
Свяжитесь с нами:

Дополненная реальность

Разработчики TikTok стирают лица для приложений дополненной реальности

mm

опубликованный

 on

ByteDance, китайская многонациональная интернет-компания, стоящая за TikTok, разработала новый метод стирания лиц на видео, чтобы можно было накладывать на людей искажение личности и другие причудливые эффекты в приложениях дополненной реальности. Компания утверждает, что эта технология уже интегрирована в коммерческие мобильные продукты, но не уточняет, какие продукты.

После того, как лица в видео были «обнулены», остается достаточно «холста для лица», чтобы создавать ошеломляющие искажения, а также потенциально накладывать другие личности. Примеры, представленные в новой статье исследователей ByteDance, иллюстрируют возможности, в том числе восстановление «стертых» функций в различных комичных (и, конечно, некоторых гротескных) конфигурациях:

Некоторые возможности реконфигурации лица включены в документ ByteDance. Источник: https://arxiv.org/pdf/2109.10760.pdf

Некоторые возможности реконфигурации лица включены в документ ByteDance. Источник: https://arxiv.org/pdf/2109.10760.pdf

К концу августа он выяснилось что TikTok, первое приложение, не относящееся к Facebook, достичь трех миллиардов установок, запустил TikTok Effect Studio (в настоящее время в закрытом бета-тестировании), платформа для разработчиков дополненной реальности (AR) для создания эффектов AR для потоков контента TikTok.

По сути, компания догоняет аналогичные сообщества разработчиков на AR-студия Facebook и Привязать AR, с почтенным Сообщество исследований и разработок дополненной реальности также настроены на то, чтобы стать гальванизированными новое оборудование в течение следующего года.

Пустые выражения

Ассоциация бумаги, Под названием FaceEraser: удаление частей лица для дополненной реальности, отмечает, что существующие алгоритмы рисования/заполнения, такие как ЛОПАТА NVIDIA, больше ориентированы на завершение усеченных или иным образом полузатененных изображений, чем на выполнение этой необычной процедуры «гашения», и поэтому существующий материал набора данных предсказуемо скуден.

Поскольку нет доступных наборов данных наземной истины для людей, у которых твердое тело плоти там, где должно быть их лицо, исследователи создали новую сетевую архитектуру под названием пиксель-клон, который может быть наложен на существующие нейронные модели рисования, и который решает проблемы, связанные с несоответствием текстуры и цвета, демонстрируемые (документ подтверждает) более старыми методами, такими как Структура потока и ЭджКоннект.

Общий рабочий процесс пиксельного клонирования в новом пайплайне.

Общий рабочий процесс пиксельного клонирования в новом пайплайне.

Чтобы обучить модель на «пустых» лицах, исследователи исключили изображения в очках или где волосы закрывают лоб, поскольку область между линией роста волос и бровями обычно представляет собой самую большую группу пикселей, которая может обеспечить «наклейку». материал для центральных черт лица.

Подготовка обучающих изображений. Область лба обрезается на основе ключевых точек распознавания выравнивания лица, переворачивается по вертикали и сшивается.

Подготовка обучающих изображений. Область лба обрезается на основе ключевых точек распознавания выравнивания лица, переворачивается по вертикали и сшивается.

Получается изображение размером 256×256 пикселей, размер которого достаточно мал, чтобы его можно было передать в скрытое пространство нейронной сети партиями, достаточно большими для достижения обобщение. Позднее алгоритмический апскейлинг восстановит разрешения, необходимые для работы в пространстве дополненной реальности.

Архитектура

Сеть состоит из трех внутренних сетей, включая Edge Completion, Pixel-Clone и сеть уточнения. Сеть пограничного завершения использует ту же архитектуру кодер-декодер, что и в EdgeConnect (см. выше), а также в двух самых популярных приложениях для дипфейков. Кодировщики дважды снижают разрешение изображения, а декодеры восстанавливают исходные размеры изображения.

Pixel-Clone использует модифицированную методологию кодировщика-декодера, в то время как уточняющий уровень использует архитектуру U-Net, метод, первоначально разработанный для биомедицинской визуализации, который часто используется в исследовательских проектах по синтезу изображений.

В процессе обучения необходимо оценивать точность преобразований и, при необходимости, итеративно повторять попытки до сходимость. Для этого два дискриминатора на основе ПатчГАН используются, каждый из которых оценивает локализованный реализм участков размером 70×70 пикселей, не учитывая значение реализма всего изображения.

Обучение и данные

Сеть завершения ребер первоначально обучается независимо, в то время как две другие сети обучаются вместе на основе весов, полученных в результате обучения завершения ребер, которые фиксируются и фиксируются во время этой процедуры.

Хотя в документе прямо не говорится, что его примеры искажения окончательных признаков являются центральной целью модели, в нем реализованы различные комические эффекты для проверки устойчивости системы, включая удаление бровей, увеличенные рты, сморщенные части лица и «мультяшные» эффекты (как показано на предыдущем изображении выше).

В документе утверждается, что «стертые лица позволяют использовать различные приложения дополненной реальности, которые требуют размещения любых настраиваемых пользователем элементов», что указывает на возможность настройки лиц с помощью сторонних элементов, добавленных пользователем.

Модель обучена на масках от NVIDIA. Набор данных FFHQ, который содержит достаточное разнообразие возрастов, этнических групп, освещения, поз и стилей лица для достижения полезного обобщения. Набор данных содержит 35,000 10,000 изображений и 4000 1000 обучающих масок для определения областей преобразования, при этом XNUMX изображений и XNUMX масок отведены для целей проверки.

Образцы обучающих данных.

Образцы обучающих данных.

Обученная модель может делать выводы на основе данных за 2017 год. CelebA-HQ и VoxCeleb, невидимые лица из FFHQ и любые другие неограниченные невидимые лица, представленные ему. Изображения 256 × 256 были обучены в сети партиями по 8 с помощью оптимизатора Adam, реализованного в PyTorch и запущенного на графическом процессоре Tesla V100 в течение «2000,000 XNUMX эпох».

Результаты вывода, полученные на реальном лице.

Результаты вывода, полученные на реальном лице.

Как это часто бывает в исследованиях синтеза изображений на основе лица, системе приходится бороться со случайными сбоями, вызванными препятствиями или окклюзиями, такими как волосы, периферийные устройства, очки и растительность на лице.

Отчет заключает:

«Наш подход был коммерциализирован и хорошо работает в продуктах для неограниченного пользовательского ввода».