Artificial Intelligence

GAN как средство визуализации лица для «традиционной» компьютерной графики

обновленный on 9 декабря 2022

Обзор Когда генеративно-состязательные сети (GAN) впервые продемонстрировали свою способность ошеломляюще воспроизводить реалистичный 3D-лица, появление спровоцировало золотую лихорадку за неиспользованный потенциал GAN для создания согласованного во времени видео с человеческими лицами.

Где-то в скрытом пространстве ГАН, казалось, должен быть скрытым порядком и рациональностью - схема зарождающейся семантической логики, скрытой в скрытых кодах, которая позволила бы GAN генерировать согласованные множественные представления и множественные интерпретации (например, изменения выражений) то же лицо, а затем предложить убедительный во времени видео метод дипфейка, который взорвет автоассоциатор из воды.

Вывод с высоким разрешением был бы тривиальным по сравнению с трущобными средами с низким разрешением, в которых ограничения графического процессора заставляют работать DeepFaceLab и FaceSwap, а «зона подкачки» лица (в рабочих процессах автоэнкодера) стала бы «зоной создания». GAN, информированный несколькими входными изображениями или даже одним изображением.

Больше не будет несоответствия между гранями «своп» и «хост», потому что цельность Часть изображения будет генерироваться с нуля, включая волосы, линию подбородка и самые крайние части черт лица, что часто представляет собой проблему для «традиционных» дипфейков с автокодировщиком.

Зимнее видео с камшотом на лицо GAN

Как выяснилось, это будет не так просто. В конечном счете, распутывание оказалась центральной проблемой и остается основной проблемой. Как можно сохранить четкую идентичность лица и изменить его позу или выражение, не собирая воедино корпус из тысяч эталонных изображений, которые обучают нейронную сеть тому, что происходит, когда эти изменения вступают в силу, как это с таким трудом делают системы автокодировщика?

Скорее, последующее мышление в исследованиях лицевого воспроизведения и синтеза GAN заключалось в том, что входная идентичность, возможно, может быть подчинена телеологическому, общему, шаблонный преобразования, не зависящие от личности. Примером этого может быть применение выражения к лицу GAN, которого нет ни на одном из изображений этого человека, о котором знает GAN.

Из статьи 2022 года «Редактирование эмоций на основе тензора в скрытом пространстве StyleGAN» шаблонные выражения применяются к входному лицу из набора данных FFHQ. Источник: https://arxiv.org/pdf/2205.06102.pdf

Очевидно, что подход «один размер подходит всем» не может охватить все разнообразие выражений лица, присущих только одному человеку. Мы должны задаться вопросом, могла ли такая уникальная улыбка, как улыбка Джека Николсона или Уиллема Дефо, когда-либо получить точную интерпретацию под влиянием таких скрытых кодов «среднего среднего выражения».

Кто эта очаровательная латинская незнакомка? Хотя метод GAN создает более реалистичное лицо с более высоким разрешением, трансформация не основывается на нескольких реальных изображениях актера, как в случае с DeepFaceLab, который интенсивно и часто с некоторыми затратами обучается на базе данных из тысяч такие изображения. Здесь (фон) модель DeepFaceLab импортируется в DeepFaceLive, потоковую реализацию популярного и спорного программного обеспечения. Примеры взяты из https://www.youtube.com/watch?v=9tr35y-yQRY (2022) и https://arxiv.org/pdf/2205.06102.pdf.

Кто эта очаровательная латинская незнакомка? Хотя метод GAN создает более «реалистичное» лицо с более высоким разрешением, преобразование не основано на нескольких реальных изображениях актера, как в случае с DeepFaceLab, который интенсивно тренируется на базе данных из тысяч таких изображений. и, следовательно, сходство скомпрометировано. Здесь (фон) модель DeepFaceLab импортирована в DeepFaceLive, потоковая реализация популярного и противоречивого программного обеспечения. Примеры взяты из https://www.youtube.com/watch?v=9tr35y-yQRY (2022) и https://arxiv.org/pdf/2205.06102.pdf.

За последние несколько лет было предложено несколько редакторов выражения лица GAN, большинство из них работа с неизвестными личностями, где верность преобразований случайному читателю узнать невозможно, так как это незнакомые лица.

Неизвестные личности трансформировались в предложение Cascade-EF-GAN 2020 года. Источник: https://arxiv.org/pdf/2003.05905.pdf

Возможно, редактор лица GAN, вызвавший наибольший интерес (и цитирование) за последние три года, — это ИнтерфейсГАН, который может выполнять скрытое перемещение в пространстве в скрытых кодах, относящихся к позе (угол камеры/лица), выражению лица, возрасту, расе, полу и другим важным качествам.

Демонстрация InterFaceGAN (CVPR 2020)

Watch this video on YouTube

Возможности «морфинга» InterFaceGAN и подобных фреймворков в стиле 1980-х годов — это в основном способ проиллюстрировать путь к трансформации, когда изображение перепроецируется обратно через соответствующий скрытый код (например, «возраст»). С точки зрения производства видеоматериалов с временной непрерывностью такие схемы на сегодняшний день квалифицируются как «впечатляющие катастрофы».

Если к этому добавить сложность создания согласованных во времени волос, а также тот факт, что метод исследования/манипулирования скрытым кодом не имеет врожденных временных указаний для работы (и трудно понять, как внедрить такие указания в структуру, предназначенную для размещения и создания неподвижных изображений и не имеющую встроенных средств). для вывода видео), можно было бы логично заключить, что GAN — это не All You Need™ для синтеза видео лиц.

Таким образом, последующие усилия дали дополнительные улучшения в распутывании, в то время как другие опираются на другие соглашения в области компьютерного зрения в качестве «управляющего уровня», такие как использование семантической сегментации в качестве механизма управления в конце 2021 года. бумаги SemanticStyleGAN: изучение композиционных генеративных априоров для управляемого синтеза и редактирования изображений.

Семантическая сегментация как метод инструментальности скрытого пространства в SemanticStyleGAN. Источник: https://semanticstylegan.github.io/

Параметрическое руководство

Сообщество исследователей синтеза лиц GAN все больше склоняется к использованию «традиционных» параметрических лиц CGI в качестве метода направления и упорядочивания впечатляющих, но непокорных скрытых кодов в скрытом пространстве GAN.

Хотя параметрические лицевые примитивы были основным продуктом исследований компьютерного зрения для более двадцати лет, интерес к этому подходу в последнее время вырос с более широким использованием Skinned Multi-Person Linear Model (СМПЛ) Примитивы CGI, подход, впервые предложенный Институтом Макса Планка и ILM, и с тех пор улучшенный с помощью регрессора разреженного обученного сочлененного человеческого тела (STAR) фреймворк.

SMPL (в данном случае вариант, называемый SMPL-X) может наложить параметрическую сетку CGI, которая соответствует предполагаемой позе (включая, при необходимости, выражения) всего человеческого тела, представленного на изображении, что позволяет выполнять новые операции над изображение с использованием параметрической сетки в качестве объемной или перцепционной ориентира. Источник: https://arxiv.org/pdf/1904.05866.pdf

SMPL (в данном случае вариант называется СМПЛ-Х) может наложить параметрическую сетку CGI, которая соответствует предполагаемой позе (включая выражения, если это необходимо) всего человеческого тела, представленного на изображении, что позволяет выполнять новые операции с изображением, используя параметрическую сетку как объемную или перцептивную. ориентир. Источник: https://arxiv.org/pdf/1904.05866.pdf

Самой известной разработкой в этой линейке стал Disney 2019. Рендеринг со стилем инициатива, которая объединила использование традиционных текстурных карт с изображениями, сгенерированными GAN, в попытке создать улучшенный анимированный вывод в стиле «дипфейк».

Старое встречается с новым в гибридном подходе Диснея к дипфейкам, созданным GAN. Источник: https://www.youtube.com/watch?v=TwpLqTmvqVk

Подход Disney накладывает традиционно визуализированные аспекты CGI в сеть StyleGAN2, чтобы «дорисовать» человеческие лица в «проблемных областях», где временная согласованность является проблемой для создания видео, таких как текстура кожи.

Рабочий процесс «Визуализация со стилем».

Так как параметрическая CGI-голова, управляющая этим процессом, может быть настроена и изменена в соответствии с потребностями пользователя, лицо, сгенерированное GAN, может отражать эти изменения, включая изменения позы головы и выражения.

Несмотря на то, что они были созданы для объединения инструментальности компьютерной графики с естественным реализмом лиц GAN, в конце концов, результаты демонстрируют худшее из обоих миров и по-прежнему не поддерживают согласованность текстуры волос и даже базового позиционирования:

Новый вид сверхъестественной долины возникает благодаря рендерингу со стилем, хотя этот принцип все еще имеет некоторый потенциал.

Так, бумаги StyleRig: оснастка StyleGAN для 3D-управления портретными изображениями принимает все более популярный подход с использованием трехмерные трансформируемые модели лица (3DMM) в качестве прокси для изменения характеристик в среде StyleGAN, в данном случае через новую сеть оснастки под названием RigNet:

3DMM выступают в качестве прокси для интерпретаций скрытого пространства в StyleRig. Источник: https://arxiv.org/pdf/2004.00121.pdf

Однако, как обычно с этими инициативами, результаты на сегодняшний день кажутся ограниченными минимальными манипуляциями с позами и «неосведомленными» изменениями выражения/аффекта.

StyleRig повышает уровень контроля, хотя временная постоянство волос остается нерешенной проблемой. Источник: https://www.youtube.com/watch?v=eaW_P85wQ9k

Аналогичные результаты можно найти в Mitsubishi Research. МОСТ-ГАН, 2021 бумаги который использует нелинейные 3DMM в качестве архитектуры распутывания, но который также изо всех сил для достижения динамичного и последовательного движения.

Последнее исследование, направленное на попытку инструментальности и распутывания Реконструкция лица одним кадром на мегапикселях, который снова использует параметрические головки 3DMM в качестве удобного интерфейса для StyleGAN.

В рабочем процессе MegaFR One-Shot Face Reenactment сеть выполняет синтез лица, комбинируя перевернутое изображение реального мира с параметрами, взятыми из визуализированной модели 3DMM. Источник: https://arxiv.org/pdf/2205.13368.pdf

OSFR принадлежит к растущему классу редакторов лиц GAN, которые стремятся разработать рабочие процессы линейного редактирования в стиле Photoshop/After Effects, где пользователь может вводить желаемое изображение, к которому можно применить преобразования, вместо того, чтобы искать в скрытом пространстве скрытые коды, относящиеся к личность.

Опять же, параметрические выражения представляют собой всеобъемлющий и неперсонализированный метод введения выражения, приводящий к манипуляциям, которые сами по себе кажутся «сверхъестественными», не всегда положительными.

Внедренные выражения в OSFR.

Как и в предыдущей работе, OSFR может делать выводы о почти исходных позах из одного изображения, а также выполнять «фронтализацию», когда изображение, расположенное не по центру, преобразуется в фотоснимок:

Оригинальные (выше) и предполагаемые изображения фотографий одной из реализаций OSFR, подробно описанные в новой статье.

На практике такого рода выводы аналогичны некоторым принципам фотограмметрии, лежащим в основе Поля нейронного излучения (NeRF), за исключением того, что геометрия здесь должна быть определена одной фотографией, а не 3-4 точками обзора, которые позволяют NeRF интерпретировать отсутствующие интерстициальные позы и создавать исследуемые нейронные 3D-сцены с участием людей.

(Однако NeRF также не All You Need™, так как имеет почти совершенно другой набор блокпостов к GAN с точки зрения производства видеосинтеза лица)

Есть ли у GAN место в синтезе видео с лицами?

Достижение динамических выражений и нестандартных поз из одного исходного изображения в настоящее время кажется алхимической навязчивой идеей в исследованиях синтеза лица GAN, главным образом потому, что GAN являются единственным методом, который в настоящее время способен выводить довольно высокое разрешение и относительно высокое разрешение. точные нейронные лица: хотя фреймворки автокодировщика дипфейков могут обучаться на множестве реальных поз и выражений, они должны работать с разрешениями ввода/вывода, ограниченными VRAM, и требуют «хоста»; в то время как NeRF имеет аналогичные ограничения и, в отличие от двух других подходов, в настоящее время не имеет установленных методологий для изменения выражений лица и в целом страдает от ограниченных возможностей редактирования.

Кажется, что единственный путь вперед для точной системы синтеза лица CGI/GAN — это новая инициатива, направленная на поиск какого-то способа сборки объекта идентификации с несколькими фотографиями внутри скрытого пространства, где скрытый код для личности человека не должен быть обнаружен. перемещаться по скрытому пространству, чтобы использовать несвязанные параметры позы, но может ссылаться на свои собственные связанные изображения (реального мира) в качестве ссылок для преобразований.

Даже в таком случае или даже если бы вся сеть StyleGAN была обучена на наборе лиц с одной идентификацией (аналогично обучающим наборам, которые используют автоэнкодеры), недостающая семантическая логика, вероятно, все равно должна быть обеспечена дополнительными технологиями, такими как семантическая сегментация или параметрические грани 3DMM, у которых в таком сценарии было бы как минимум больше материала для работы.

Ключевые выводы из отчета LXT «Окупаемость высококачественных обучающих данных ИИ»

Не пропустите

Новая техника искусственного интеллекта может улучшить прогнозы лесных пожаров

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai