Свяжитесь с нами:

GAN как средство визуализации лица для «традиционной» компьютерной графики

Искусственный интеллект

GAN как средство визуализации лица для «традиционной» компьютерной графики

mm

Обзор Когда генеративно-состязательные сети (GAN) впервые продемонстрировали свою способность ошеломляюще воспроизводить реалистичный 3D-лица, появление спровоцировало золотую лихорадку за неиспользованный потенциал GAN для создания согласованного во времени видео с человеческими лицами.

Где-то в скрытом пространстве GAN, казалось, было обязательно быть скрытым порядком и рациональностью - схема зарождающейся семантической логики, скрытой в скрытых кодах, которая позволила бы GAN генерировать согласованные множественные представления и множественные интерпретации (например, изменения выражений) то же лицо, а затем предложить убедительный во времени видео метод дипфейка, который взорвет автоассоциатор из воды.

Высокое разрешение на выходе было бы тривиальным по сравнению с трущобными средами с низким разрешением, в которых ограничения графического процессора заставляют работать DeepFaceLab и FaceSwap, в то время как «зона замены» лица (в рабочих процессах автокодировщика) стала бы «зоной создания» GAN, сформированной на основе нескольких входных изображений или даже всего одного изображения.

Не будет больше несоответствия между «обменными» и «хозяевными» лицами, потому что цельность изображения будут созданы с нуля, включая волосы, линии подбородка и самые крайние точки черт лица, что часто представляет собой проблему для «традиционных» автокодирующих дипфейков.

Зимнее видео с камшотом на лицо GAN

Как выяснилось, это будет не так просто. В конечном счете, распутывание оказалась центральной проблемой и остается основной проблемой. Как можно сохранить четкую идентичность лица и изменить его позу или выражение, не собирая воедино корпус из тысяч эталонных изображений, которые обучают нейронную сеть тому, что происходит, когда эти изменения вступают в силу, как это с таким трудом делают системы автокодировщика?

Скорее, последующее мышление в исследованиях лицевого воспроизведения и синтеза GAN заключалось в том, что входная идентичность, возможно, может быть подчинена телеологическому, общему, шаблонный преобразования, не зависящие от личности. Примером этого может быть применение выражения к лицу GAN, которого нет ни на одном из изображений этого человека, о котором знает GAN.

Из статьи 2022 года «Редактирование эмоций на основе тензора в скрытом пространстве StyleGAN» шаблонные выражения применяются к входному лицу из набора данных FFHQ. Источник: https://arxiv.org/pdf/2205.06102.pdf

Из статьи 2022 года «Редактирование эмоций на основе тензора в скрытом пространстве StyleGAN» шаблонные выражения применяются к входному лицу из набора данных FFHQ. Источник: https://arxiv.org/pdf/2205.06102.pdf

Очевидно, что универсальный подход не может охватить всё многообразие выражений лица, уникальных для каждого человека. Возникает вопрос, сможет ли столь уникальная улыбка, как улыбка Джека Николсона или Уиллема Дефо, получить верную интерпретацию под влиянием подобных латентных кодов «среднего выражения».

Кто эта очаровательная латинская незнакомка? Хотя метод GAN создает более реалистичное лицо с более высоким разрешением, трансформация не основывается на нескольких реальных изображениях актера, как в случае с DeepFaceLab, который интенсивно и часто с некоторыми затратами обучается на базе данных из тысяч такие изображения. Здесь (фон) модель DeepFaceLab импортируется в DeepFaceLive, потоковую реализацию популярного и спорного программного обеспечения. Примеры взяты из https://www.youtube.com/watch?v=9tr35y-yQRY (2022) и https://arxiv.org/pdf/2205.06102.pdf.

Кто этот очаровательный латиноамериканский незнакомец? Хотя метод GAN создаёт более «реалистичное» и высокое разрешение лица, преобразование не основано на множестве реальных изображений актёра, как в случае с DeepFaceLab, который активно обучается на базе данных из тысяч таких изображений, и, следовательно, сходство снижается. Здесь (на заднем плане) модель DeepFaceLab импортируется в DeepFaceLive, потоковая реализация популярного и противоречивого программного обеспечения. Примеры взяты из https://www.youtube.com/watch?v=9tr35y-yQRY (2022) и https://arxiv.org/pdf/2205.06102.pdf.

За последние несколько лет было предложено несколько редакторов выражения лица GAN, большинство из них работа с неизвестными личностями, где верность преобразований случайному читателю узнать невозможно, так как это незнакомые лица.

Неизвестные личности трансформировались в предложение Cascade-EF-GAN 2020 года. Источник: https://arxiv.org/pdf/2003.05905.pdf

Неизвестные личности трансформировались в предложение Cascade-EF-GAN 2020 года. Источник: https://arxiv.org/pdf/2003.05905.pdf

Возможно, редактор лица GAN, вызвавший наибольший интерес (и цитирование) за последние три года, — это ИнтерфейсГАН, который может выполнять скрытое перемещение в пространстве в скрытых кодах, относящихся к позе (угол камеры/лица), выражению лица, возрасту, расе, полу и другим важным качествам.

Демонстрация InterFaceGAN (CVPR 2020)

Возможности InterFaceGAN и подобных фреймворков по «морфингу» в стиле 1980-х годов — это, главным образом, способ проиллюстрировать процесс трансформации, когда изображение проецируется обратно через соответствующий скрытый код (например, «возраст»). С точки зрения создания видеоматериалов с временной непрерывностью подобные схемы до сих пор считались «впечатляющими катастрофами».

Если к этому добавить сложность создания согласованных во времени волос, а также тот факт, что метод исследования/манипулирования скрытым кодом не имеет врожденных временных указаний для работы (и трудно понять, как внедрить такие указания в структуру, предназначенную для размещения и создания неподвижных изображений и не имеющую встроенных средств). для вывода видео), можно было бы логично заключить, что GAN — это не All You Need™ для синтеза видео лиц.

Таким образом, последующие усилия дали дополнительные улучшения в распутывании, в то время как другие использовали другие соглашения в компьютерном зрении в качестве «руководящего слоя», например, использование семантической сегментации в качестве механизма управления в конце 2021 года статье SemanticStyleGAN: изучение композиционных генеративных априоров для управляемого синтеза и редактирования изображений.

Семантическая сегментация как метод инструментальности скрытого пространства в SemanticStyleGAN. Источник: https://semanticstylegan.github.io/

Семантическая сегментация как метод инструментальности скрытого пространства в SemanticStyleGAN. Источник: https://semanticstylegan.github.io/

Параметрическое руководство

Исследовательское сообщество по синтезу лиц на основе GAN все больше склоняется к использованию «традиционных» параметрических лиц CGI в качестве метода управления и упорядочивания впечатляющих, но неуправляемых скрытых кодов в скрытом пространстве GAN.

Хотя параметрические лицевые примитивы были основным продуктом исследований компьютерного зрения для более двадцати лет, интерес к этому подходу в последнее время вырос с более широким использованием Skinned Multi-Person Linear Model (СМПЛ) Примитивы CGI, подход, впервые предложенный Институтом Макса Планка и ILM, и с тех пор улучшенный с помощью регрессора разреженного обученного сочлененного человеческого тела (STAR) фреймворк.

SMPL (в данном случае вариант, называемый SMPL-X) может наложить параметрическую сетку CGI, которая соответствует предполагаемой позе (включая, при необходимости, выражения) всего человеческого тела, представленного на изображении, что позволяет выполнять новые операции над изображение с использованием параметрической сетки в качестве объемной или перцепционной ориентира. Источник: https://arxiv.org/pdf/1904.05866.pdf

SMPL (в данном случае вариант называется СМПЛ-Х) может наложить параметрическую сетку CGI, которая соответствует предполагаемой позе (включая выражения, если это необходимо) всего человеческого тела, представленного на изображении, что позволяет выполнять новые операции с изображением, используя параметрическую сетку как объемную или перцептивную. ориентир. Источник: https://arxiv.org/pdf/1904.05866.pdf

Наиболее популярная разработка в этой линейке — 2019 год от Disney. Рендеринг со стилем инициатива, которая объединила использование традиционных текстурных карт с изображениями, сгенерированными с помощью GAN, в попытке создать улучшенный анимированный вывод в стиле «дипфейк».

Старое встречается с новым в гибридном подходе Диснея к дипфейкам, созданным GAN. Источник: https://www.youtube.com/watch?v=TwpLqTmvqVk

Старое встречается с новым: гибридный подход Disney к созданию дипфейков с помощью GAN. Источник: https://www.youtube.com/watch?v=TwpLqTmvqVk

Подход Disney предполагает использование традиционно визуализированных граней CGI в сети StyleGAN2 для «вставки» изображений на лицах людей в «проблемных областях», где временная согласованность является проблемой для генерации видео, например, в области текстуры кожи.

Рабочий процесс «Визуализация со стилем».

Рабочий процесс «Визуализация со стилем».

Так как параметрическая CGI-голова, управляющая этим процессом, может быть настроена и изменена в соответствии с потребностями пользователя, лицо, сгенерированное GAN, может отражать эти изменения, включая изменения позы головы и выражения.

Несмотря на то, что они были созданы для объединения инструментальности компьютерной графики с естественным реализмом лиц GAN, в конце концов, результаты демонстрируют худшее из обоих миров и по-прежнему не поддерживают согласованность текстуры волос и даже базового позиционирования:

Новый вид сверхъестественной долины возникает благодаря рендерингу со стилем, хотя этот принцип все еще имеет некоторый потенциал.

Новый вид сверхъестественной долины возникает благодаря рендерингу со стилем, хотя этот принцип все еще имеет некоторый потенциал.

Так, статье StyleRig: оснастка StyleGAN для 3D-управления портретными изображениями принимает все более популярный подход с использованием трехмерные трансформируемые модели лица (3DMM) в качестве прокси для изменения характеристик в среде StyleGAN, в данном случае через новую сеть оснастки под названием RigNet:

3DMM выступают в качестве прокси для интерпретаций скрытого пространства в StyleRig. Источник: https://arxiv.org/pdf/2004.00121.pdf

3DMM выступают в качестве прокси для интерпретаций скрытого пространства в StyleRig. Источник: https://arxiv.org/pdf/2004.00121.pdf

Однако, как это обычно бывает с подобными инициативами, на сегодняшний день результаты, похоже, ограничиваются минимальными манипуляциями с позой и «неинформированными» изменениями выражения лица/эмоций.

StyleRig повышает уровень контроля, хотя временная постоянство волос остается нерешенной проблемой. Источник:

StyleRig повышает уровень контроля, хотя временная постоянство волос остается нерешенной проблемой. Источник: https://www.youtube.com/watch?v=eaW_P85wQ9k

Аналогичные результаты можно найти в отчете Mitsubishi Research. МОСТ-ГАН, французское слово 2021 века, статье который использует нелинейные 3DMM в качестве архитектуры распутывания, но который также изо всех сил для достижения динамичного и последовательного движения.

Последнее исследование, направленное на попытку инструментальности и распутывания Реконструкция лица одним кадром на мегапикселях, который снова использует параметрические головки 3DMM в качестве удобного интерфейса для StyleGAN.

В рабочем процессе MegaFR One-Shot Face Reenactment сеть выполняет синтез лица, комбинируя перевернутое изображение реального мира с параметрами, взятыми из визуализированной модели 3DMM. Источник: https://arxiv.org/pdf/2205.13368.pdf

В рабочем процессе MegaFR One-Shot Face Reenactment сеть выполняет синтез лица, комбинируя перевернутое изображение реального мира с параметрами, взятыми из визуализированной модели 3DMM. Источник: https://arxiv.org/pdf/2205.13368.pdf

OSFR принадлежит к растущему классу редакторов лиц GAN, которые стремятся разработать рабочие процессы линейного редактирования в стиле Photoshop/After Effects, где пользователь может вводить желаемое изображение, к которому можно применить преобразования, вместо того, чтобы искать в скрытом пространстве скрытые коды, относящиеся к личность.

Опять же, параметрические выражения представляют собой всеобъемлющий и неперсонализированный метод внедрения экспрессии, приводящий к манипуляциям, которые кажутся «сверхъестественными» по-своему, не всегда позитивно.

Внедренные выражения в OSFR.

Внедренные выражения в OSFR.

Как и в предыдущих работах, OSFR может определять почти оригинальные позы на основе одного изображения, а также выполнять «фронтализацию», когда нецентральное изображение позирующего человека преобразуется в фотографию преступника:

Оригинальные (выше) и предполагаемые изображения фотографий одной из реализаций OSFR, подробно описанные в новой статье.

Оригинальные (выше) и предполагаемые изображения фотографий одной из реализаций OSFR, подробно описанные в новой статье.

На практике такого рода выводы аналогичны некоторым принципам фотограмметрии, лежащим в основе Поля нейронного излучения (NeRF), за исключением того, что геометрия здесь должна быть определена одной фотографией, а не 3-4 точками обзора, которые позволяют NeRF интерпретировать отсутствующие интерстициальные позы и создавать исследуемые нейронные 3D-сцены с участием людей.

(Однако NeRF также не All You Need™, так как имеет почти совершенно другой набор блокпостов к GAN с точки зрения производства видеосинтеза лица)

Есть ли у GAN место в синтезе видео с лицами?

Достижение динамических выражений и поз вне распределения с помощью одного исходного изображения в настоящее время представляется похожей на алхимическую одержимость в исследованиях по синтезу лиц на основе GAN, главным образом потому, что GAN являются единственным методом, способным на данный момент выводить нейронные лица с достаточно высоким разрешением и относительно высокой точностью: хотя фреймворки deepfake с автокодировщиком могут обучаться на множестве реальных поз и выражений, они должны работать с ограниченными разрешениями ввода/вывода по VRAM и требуют «хоста»; в то время как NeRF имеет аналогичные ограничения и — в отличие от двух других подходов — в настоящее время не имеет устоявшихся методологий для изменения выражений лиц и в целом страдает от ограниченной возможности редактирования.

Похоже, что единственный путь вперед для точной системы синтеза лиц CGI/GAN — это новая инициатива по поиску способа сборки многофотографической сущности идентичности внутри скрытого пространства, где скрытый код идентичности человека не должен проходить через все скрытое пространство, чтобы использовать несвязанные параметры позы, а может ссылаться на свои собственные связанные изображения (реального мира) в качестве ссылок для преобразований.

Даже в таком случае или даже если бы вся сеть StyleGAN была обучена на наборе лиц с одной идентификацией (аналогично обучающим наборам, которые используют автоэнкодеры), недостающая семантическая логика, вероятно, все равно должна быть обеспечена дополнительными технологиями, такими как семантическая сегментация или параметрические грани 3DMM, у которых в таком сценарии было бы как минимум больше материала для работы.

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai