Искусственный интеллект
Оркестрация лицевого синтеза с помощью семантической сегментации

Проблема с изобретением человеческих лиц с помощью Генеративная Состязательная Сеть (GAN) заключается в том, что реальные данные, которые питают фальшивые изображения, поставляются с нежелательными и неотъемлемыми атрибутами, такими как волосы на голове (и/или лице), фон и различные виды лицевой оснастки, такие как очки, шляпы и серьги; и что эти периферийные аспекты личности неизбежно переплетаются в «слитую» идентичность.
В наиболее распространенных архитектурах GAN эти элементы не адресуются в своем собственном выделенном пространстве, а скорее довольно тесно связаны с лицом, в которое (или вокруг которого) они встроены.
Также обычно невозможно диктовать или влиять на внешний вид подразделы лица, созданного GAN, например, сужение глаз, удлинение носа или изменение цвета волос так, как это мог бы сделать полицейский художник-зарисовщик.
Тем не менее, исследовательский сектор синтеза изображений работает над этим:

Новое исследование в области генерации лиц на основе GAN позволило разделить различные части лица на отдельные области, каждая из которых имеет свой собственный «генератор», работающий совместно с другими генераторами изображения. В среднем ряду мы видим управляющую «карту признаков», создающую дополнительные области лица. Источник: https://arxiv.org/pdf/2112.02236.pdf
В новом статьеИсследователи из американского подразделения китайского многонационального технологического гиганта ByteDance использовали семантическую сегментацию, чтобы разбить составные части лица на отдельные секции, каждой из которых назначен свой собственный генератор, что позволило достичь более высокой степени распутывание. Или по крайней мере, перцепционный распутывание.
The статье называется SemanticStyleGAN: изучение композиционных генеративных априоров для управляемого синтеза и редактирования изображений, и сопровождается мультимедийным Проект страницу с несколькими примерами различных мелких преобразований, которые могут быть достигнуты, когда элементы лица и головы изолированы таким образом.

Текстура лица, прическа и цвет волос, форма и цвет глаз и многие другие аспекты некогда неразделимых функций, генерируемых GAN, теперь могут быть де-факто распутаны, хотя качество разделения и уровень инструментальности, вероятно, различаются в зависимости от случая. Источник: https://semanticstylegan.github.io/
Неуправляемое скрытое пространство
Генеративно-состязательная сеть, обученная генерировать лица, например СтильГан2 Генератор, который поддерживает популярный сайт thispersondoesnotexist.com, формирует сложные взаимосвязи между «функциями» (не в смысле лица), что он получен из анализа тысяч лиц реального мира, чтобы научиться создавать реалистичные человеческие лица самостоятельно.
Эти тайные процессы представляют собой «скрытые коды», которые в совокупности скрытое пространство. Их трудно анализировать и, следовательно, трудно инструментировать.
На прошлой неделе появился новый проект по синтезу изображений, который пытается «составить карту» этого почти оккультного пространства во время самого процесса обучения, а затем использовать эти карты для интерактивной навигации по ним, и различные другие решения были предложены для более глубокого контроля над контентом, синтезированным с помощью GAN.
Определенный прогресс был достигнут благодаря разнообразным архитектурам GAN, которые пытаются каким-то образом «проникнуть» в скрытое пространство и управлять генерацией лиц оттуда. Такие попытки включают: ИнтерфейсГАН, СтильФлоу, ГАНСпейс и СтильRig, среди других предложений в постоянно продуктивном потоке новых статей.
Все они имеют то, что все они имеют ограниченную степень распутывания; изобретательные ползунки графического интерфейса для различных аспектов (таких как «волосы» или «выражение») имеют тенденцию втягивать фон и/или другие элементы в процесс преобразования, и ни один из них (включая обсуждаемую здесь статью) не решил проблему височных нейронных волос.
Разделение и завоевание скрытого пространства
В любом случае, исследование ByteDance использует другой подход: вместо того, чтобы пытаться раскрыть тайны одной GAN, работающей со всем сгенерированным изображением лица, SemanticStyleGAN формулирует основанный на макете подход, в котором лица «составляются» отдельными процессами-генераторами.
Чтобы добиться этого различия (лицевых) черт, SemanticStyleGAN использует Функции Фурье для создания карты семантической сегментации (грубо окрашенные различия топографии лица, показанные в правом нижнем углу изображения ниже), чтобы изолировать области лица, которым будет уделено индивидуальное внимание.

Архитектура нового подхода, который накладывает на лицо промежуточный слой семантической сегментации, эффективно превращая фреймворк в оркестратор нескольких генераторов для разных аспектов изображения.
Карты сегментации генерируются для поддельных изображений, которые систематически представляются дискриминатору GAN для оценки по мере улучшения модели, а также для (не поддельных) исходных изображений, используемых для обучения.
В начале процесса а Многослойный персептрон (MLP) изначально сопоставляет случайно выбранные скрытые коды, которые затем будут использоваться для управления весами нескольких генераторов, каждый из которых будет управлять частью создаваемого изображения лица.
Каждый генератор создает карту объектов и смоделированную карту глубины из функций Фурье, которые передаются ему выше по течению. Этот вывод является основой для масок сегментации.
Нисходящая сеть рендеринга обусловлена только более ранними картами объектов и теперь знает, как генерировать маску сегментации с более высоким разрешением, облегчая окончательное создание изображения.
Наконец, раздвоенный дискриминатор наблюдает за сцепленным распределением как изображений RGB (которые для нас являются окончательным результатом), так и масок сегментации, которые позволили их разделить.
При использовании SemanticStyleGAN не возникает нежелательных визуальных искажений при «введении» изменений черт лица, поскольку каждая черта лица обучается отдельно в рамках оркестровки.
Замена фона
Поскольку целью проекта является получение большего контроля над сгенерированной средой, процесс рендеринга/композиции включает в себя генератор фона, обученный на реальных изображениях.

Одна веская причина, по которой фоны не вовлекаются в манипуляции с лицами в SemanticStyleGAN, заключается в том, что они находятся на более удаленном слое и являются полными, хотя и частично скрыты наложенными лицами.
Поскольку карты сегментации дадут в результате лица без фона, эти «вставленные» фоны не только обеспечивают контекст, но и настраиваются так, чтобы быть подходящими с точки зрения освещения для наложенных лиц.
Обучение и данные
«Реалистичные» модели были обучены на исходных 28,000 XNUMX изображениях CelebAMask-HQ, размер которого изменен до 256×256 пикселей для размещения обучающего пространства (т. е. доступной видеопамяти, которая определяет максимальный размер пакета для каждой итерации).
В ходе разработки и различных тестов абляции был обучен ряд моделей, а также проведены эксперименты с различными инструментами, наборами данных и архитектурами. Самая большая производительная модель проекта имела разрешение 512×512 и обучалась в течение 2.5 дней на восьми графических процессорах NVIDIA Tesla V100. После обучения генерация одного изображения занимает 0.137 с на однослойном графическом процессоре без распараллеливания.
Эксперименты в стиле мультфильмов/аниме, продемонстрированные во многих видеороликах на странице проекта (см. ссылку выше), получены из различных популярных наборов данных о лицах, включая Toonify, Метфейс и Bitmoji.
Временное решение?
Авторы утверждают, что нет никаких причин, по которым SemanticStyleGAN не мог бы применяться в других областях, таких как ландшафты, автомобили, церкви и всех других «стандартных» тестовых областях, которым новые архитектуры обычно подвергаются на ранних этапах своего развития.
Однако в документе признается, что по мере увеличения количества классов в домене (например, 'автомобиль', 'уличный фонарь, «пешеход», 'здание', 'автомобиль' д.), этот поэтапный подход может стать неработоспособным по ряду причин без дальнейшей работы над оптимизацией. Например, набор городских данных CityScapes 30 занятий в 8 категориях.
Трудно сказать, обречен ли нынешний интерес к более прямому покорению скрытого пространства так же, как алхимия, или же скрытые коды в конечном итоге станут расшифровываемыми и контролируемыми — развитие, которое может сделать этот более «внешне сложный» тип подхода излишним.