Искусственный интеллект
GAN как рендерер лица для ‘традиционной’ CGI

Мнение Когда сети с генеративным противостоянием (GAN) впервые продемонстрировали свою способность воспроизводить потрясающе реалистичные 3D лица, это событие спровоцировало золотую лихорадку для неисследованного потенциала GAN для создания временно последовательных видео с человеческими лицами.
Где-то в скрытом пространстве GAN, казалось, что должно быть скрытый порядок и рациональность – схема зародышевой семантической логики, закопанной в скрытых кодах, которая позволит GAN генерировать последовательные множественные виды и множественные интерпретации (такие как изменения выражения) одного и того же лица – и, таким образом, предложить метод глубокой видеосинтеза, который будет убедительным во времени и сможет превзойти автокодировщики.
Высококачественный вывод будет тривиальным по сравнению с низкокачественными средами, в которых ограничения GPU заставляют DeepFaceLab и FaceSwap работать, а ‘зона замены’ лица (в рабочих процессах автокодировщиков) станет ‘зоной создания’ GAN, информированной несколькими входными изображениями или даже только одним изображением.
Не будет больше несоответствия между ‘заменяемыми’ и ‘хост’-лицами, потому что весь образ будет сгенерирован с нуля, включая волосы, линии челюсти и внешние крайности лицевых черт, которые часто представляют собой проблему для ‘традиционных’ автокодировщиков глубоких подделок.
Зима GAN для видео лица
Как оказалось, это не было так легко. В конечном итоге, дезентангLEMENT оказался центральной проблемой и остается основной задачей. Как можно сохранить отдельную личность лица и изменить ее позу или выражение без сбора корпуса тысяч ссылочных изображений, которые учат нейронную сеть, что происходит при этих изменениях, как это делают системы автокодировщиков?
РATHER, последующая мысль в исследованиях GAN по синтезу и enactment лица заключалась в том, что входная идентичность, возможно, может быть подвергнута телологическим, общим, шаблонным преобразованиям, которые не являются специфичными для идентичности. Примером этого может быть применение выражения к лицу GAN, которое не присутствовало в каких-либо изображениях этого человека, которые GAN знает.

Из статьи 2022 года Tensor-based Emotion Editing in the StyleGAN Latent Space, шаблонные выражения применяются к входному лицу из набора данных FFHQ. Source: https://arxiv.org/pdf/2205.06102.pdf
Очевидно, что подход ‘один размер подходит всем’ не может охватить разнообразие уникальных для каждого человека выражений лица. Мы должны задуматься, может ли улыбка, такая уникальная, как у Джека Николсона или Виллема Дефо, когда-либо получить верную интерпретацию под влиянием таких ‘средних выражений’ скрытых кодов.

Кто это обаятельный латиноамериканский незнакомец? Хотя метод GAN производит более ‘реалистичное’ и высококачественное лицо, преобразование не информируется множеством реальных изображений актера, как это делает DeepFaceLab, который обширно обучается на базе данных тысяч таких изображений, и, следовательно, сходство компрометируется. Здесь (на фоне) модель DeepFaceLab импортируется в DeepFaceLive, потоковую реализацию популярного и спорного программного обеспечения. Примеры из https://www.youtube.com/watch?v=9tr35y-yQRY (2022) и https://arxiv.org/pdf/2205.06102.pdf.
Несколько редакторов выражений лица GAN были предложены за последние несколько лет, большинство из которых занимаются неизвестными идентичностями, где верность преобразований невозможно для случайного читателя знать, поскольку эти лица не знакомы.

Неизвестные идентичности преобразуются в предложении 2020 года Cascade-EF-GAN. Source: https://arxiv.org/pdf/2003.05905.pdf
Возможно, редактор лица GAN, который получил наибольший интерес (и цитаты) за последние три года, это InterFaceGAN, который может выполнять латентные пространственные переходы в латентных кодах, связанных с позой (углом камеры/лица), выражением, возрастом, расой, полом и другими важными качествами.
‘Морфинг’-возможности InterFaceGAN и подобных рамок в основном являются способом проиллюстрировать путь к преобразованию как изображение проецируется обратно через подходящий латентный код (такой как ‘возраст’). В плане производства видеозаписей с временной непрерывностью такие схемы на данный момент квалифицируются как ‘впечатляющие катастрофы’.
Если добавить к этому трудность создания временно-согласованной прически, и тот факт, что метод латентного кода исследования/манипуляции не имеет врожденных временных руководств для работы (и трудно знать, как ввести такие руководства в рамку, предназначенную для генерации статических изображений, и которая не имеет родной поддержки для видеовыхода), можно логически заключить, что GAN не является всем, что вам нужно для синтеза видео лица.
Следовательно, последующие усилия дали постепенные улучшения в дезентангLEMENTе, в то время как другие прикрепили другие конвенции компьютерного зрения в качестве ‘управляющего слоя’, такой как использование семантической сегментации в качестве механизма управления в поздней статье 2021 года статье SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing.

Семантическая сегментация в качестве метода латентного пространственного инструментария в SemanticStyleGAN. Source: https://semanticstylegan.github.io/
Параметрическое руководство
Исследовательское сообщество GAN лица синтеза все больше ориентируется на использование ‘традиционных’ параметрических CGI лиц в качестве метода руководства и введения порядка в впечатляющие, но неуправляемые латентные коды в скрытом пространстве GAN.
Хотя параметрические лицевые примитивы были основой исследований компьютерного зрения уже более двадцати лет, интерес к этому подходу вырос в последнее время, с увеличением использования Skinned Multi-Person Linear Model (SMPL) CGI примитивов, подхода, который был открыт Макс-Планковским институтом и ILM, и с тех пор улучшен с помощью Sparse Trained Articulated Human Body Regressor (STAR) рамки.

SMPL (в данном случае вариация под названием SMPL-X) может наложить параметрическую сетку CGI, соответствующую оцененной позе (включая выражения, если необходимо) всего человеческого тела, представленного на изображении, что позволяет выполнять новые операции над изображением с помощью параметрической сетки в качестве объемного или перцептивного руководства. Source: https://arxiv.org/pdf/1904.05866.pdf
Самое известное развитие в этой линии было инициативой Disney 2019 года Rendering with Style, которая объединила использование традиционных текстурных карт с изображениями, сгенерированными GAN, в попытке создать улучшенный, ‘глубокий подделка’-стиль анимированный вывод.

Старое встречает новое в гибридном подходе Disney к GAN-генерированным глубоким подделкам. Source: https://www.youtube.com/watch?v=TwpLqTmvqVk
Подход Disney накладывает традиционно отрендеренные CGI фасеты в сеть StyleGAN2, чтобы ‘закрасить’ человеческие лицевые объекты в ‘проблемных’ зонах, где временная согласованность является проблемой для генерации видео – зонах, таких как текстура кожи.

Поток работы Rendering with Style.
Поскольку параметрическая CGI голова, которая руководит этим процессом, может быть настроена и изменена в соответствии с потребностями пользователя, сгенерированное лицо GAN может отражать эти изменения, включая изменения позы головы и выражения.
Хотя этот подход был разработан для объединения инструментария CGI с естественной реалистичностью лиц GAN, в конечном итоге результаты демонстрируют худшее из обоих миров и все еще не могут сохранить текстуру волос и даже базовое позиционирование черт:

Новый вид долины неопрятности возникает из Rendering with Style, хотя принцип все еще сохраняет некоторый потенциал.
Статья 2020 года статья StyleRig: Rigging StyleGAN for 3D Control over Portrait Images использует все более популярный подход, с использованием трехмерных морфабельных моделей лица (3DMM) в качестве прокси для изменения характеристик в среде StyleGAN, в данном случае через новую сеть риггинга под названием RigNet:

3DMM выступают в качестве прокси для интерпретации латентного пространства в StyleRig. Source: https://arxiv.org/pdf/2004.00121.pdf
Однако, как обычно с этими инициативами, результаты на данный момент кажутся ограниченными минимальными манипуляциями позы и ‘неинформированными’ изменениями выражения/аффекта.

StyleRig улучшает уровень контроля, хотя временно согласованная прическа остается нерешенной задачей. Source: https://www.youtube.com/watch?v=eaW_P85wQ9k
Аналогичный вывод можно найти из Mitsubishi Research’s MOST-GAN, статьи 2021 года статьи, которая использует нелинейные 3DMM в качестве архитектуры дезентангLEMENTа, но которая также борется с достижением динамической и согласованной движения.
Последние исследования, которые пытаются достичь инструментария и дезентангLEMENTа, это One-Shot Face Reenactment on Megapixels, который снова использует 3DMM параметрические головы в качестве дружественного интерфейса для StyleGAN.

В рабочем процессе MegaFR One-Shot Face Reenactment сеть выполняет лицевую синтез, объединяя обратное реальное изображение с параметрами, взятыми из отрендеренной 3DMM модели. Source: https://arxiv.org/pdf/2205.13368.pdf
OSFR принадлежит к растущему классу редакторов лица GAN, которые стремятся разработать рабочие процессы линейного редактирования в стиле Photoshop/After Effects, где пользователь может ввести желаемое изображение, на котором можно применить преобразования, а не искать в латентном пространстве латентные коды, связанные с идентичностью.
Снова параметрические выражения представляют собой общий и не персонализированный метод введения выражения, что приводит к манипуляциям, которые кажутся ‘неопрятными’ своим собственным, не всегда положительным способом.
Как и предыдущая работа, OSFR может сделать вывод о почти оригинальных позах из одного изображения и также выполнить ‘фронтализацию’, где изображение с нецентрированной позой переводится в паспортное фото:

Оригинальное (выше) и выведенное паспортное изображение из одной из реализаций OSFR, описанных в новой статье.
На практике этот вид вывода похож на некоторые принципы фотограмметрии, которые лежат в основе Neural Radiance Fields (NeRF), за исключением того, что геометрия здесь должна быть определена одним фотографическим изображением, а не 3-4 точками зрения, которые позволяют NeRF интерпретировать промежуточные позы и создавать исследуемые нейронные 3D-сцены с участием людей.
(Однако NeRF также не является всем, что вам нужно, поскольку он несет в себе почти совершенно другой набор препятствий для GAN в плане производства синтеза видео лица)
Имеет ли GAN место в синтезе видео лица?
Достижение динамических выражений и поз вне распределения из одного источника изображения кажется алхимической одержимостью в исследованиях GAN лица синтеза в настоящее время, главным образом потому, что GAN является единственным методом, который в настоящее время способен выводить довольно высокое разрешение и относительно высококачественные нейронные лица: хотя автокодировщик глубоких подделок может обучаться на множестве реальных поз и выражений, он должен работать на ограниченных разрешениях входа/выхода, ограниченных VRAM, и требует ‘хоста’; в то время как NeRF также ограничен, и, в отличие от других двух подходов, в настоящее время не имеет установленных методологий для изменения выражения лица и страдает ограниченной редактируемостью в целом.
Кажется, что единственный способ вперед для точной системы CGI/GAN лица синтеза – это найти способ собрать многофотографическую сущность идентичности внутри латентного пространства, где латентный код для идентичности человека не должен проходить через все латентное пространство, чтобы использовать не связанные с ним параметры позы, но может ссылаться на свои собственные связанные (реальные) изображения в качестве ссылок для преобразований.
Даже в таком случае, или даже если вся сеть StyleGAN была обучена на одном наборе лиц (аналогично наборам обучения, которые используют автокодировщики), не хватало бы семантической логики, которая все равно, вероятно, потребует дополнительных технологий, таких как семантическая сегментация или параметрические 3DMM лица, которые, в таком сценарии, хотя бы имели больше материала для работы.











