Artificial Intelligence
GAN как средство визуализации лица для «традиционной» компьютерной графики
Обзор Когда генеративно-состязательные сети (GAN) впервые продемонстрировали свою способность ошеломляюще воспроизводить реалистичный 3D-лица, появление спровоцировало золотую лихорадку за неиспользованный потенциал GAN для создания согласованного во времени видео с человеческими лицами.
Где-то в скрытом пространстве ГАН, казалось, должен быть скрытым порядком и рациональностью - схема зарождающейся семантической логики, скрытой в скрытых кодах, которая позволила бы GAN генерировать согласованные множественные представления и множественные интерпретации (например, изменения выражений) то же лицо, а затем предложить убедительный во времени видео метод дипфейка, который взорвет автоассоциатор из воды.
Вывод с высоким разрешением был бы тривиальным по сравнению с трущобными средами с низким разрешением, в которых ограничения графического процессора заставляют работать DeepFaceLab и FaceSwap, а «зона подкачки» лица (в рабочих процессах автоэнкодера) стала бы «зоной создания». GAN, информированный несколькими входными изображениями или даже одним изображением.
Больше не будет несоответствия между гранями «своп» и «хост», потому что цельность Часть изображения будет генерироваться с нуля, включая волосы, линию подбородка и самые крайние части черт лица, что часто представляет собой проблему для «традиционных» дипфейков с автокодировщиком.
Зимнее видео с камшотом на лицо GAN
Как выяснилось, это будет не так просто. В конечном счете, распутывание оказалась центральной проблемой и остается основной проблемой. Как можно сохранить четкую идентичность лица и изменить его позу или выражение, не собирая воедино корпус из тысяч эталонных изображений, которые обучают нейронную сеть тому, что происходит, когда эти изменения вступают в силу, как это с таким трудом делают системы автокодировщика?
Скорее, последующее мышление в исследованиях лицевого воспроизведения и синтеза GAN заключалось в том, что входная идентичность, возможно, может быть подчинена телеологическому, общему, шаблонный преобразования, не зависящие от личности. Примером этого может быть применение выражения к лицу GAN, которого нет ни на одном из изображений этого человека, о котором знает GAN.
Очевидно, что подход «один размер подходит всем» не может охватить все разнообразие выражений лица, присущих только одному человеку. Мы должны задаться вопросом, могла ли такая уникальная улыбка, как улыбка Джека Николсона или Уиллема Дефо, когда-либо получить точную интерпретацию под влиянием таких скрытых кодов «среднего среднего выражения».
За последние несколько лет было предложено несколько редакторов выражения лица GAN, большинство из них работа с неизвестными личностями, где верность преобразований случайному читателю узнать невозможно, так как это незнакомые лица.
Возможно, редактор лица GAN, вызвавший наибольший интерес (и цитирование) за последние три года, — это ИнтерфейсГАН, который может выполнять скрытое перемещение в пространстве в скрытых кодах, относящихся к позе (угол камеры/лица), выражению лица, возрасту, расе, полу и другим важным качествам.
Возможности «морфинга» InterFaceGAN и подобных фреймворков в стиле 1980-х годов — это в основном способ проиллюстрировать путь к трансформации, когда изображение перепроецируется обратно через соответствующий скрытый код (например, «возраст»). С точки зрения производства видеоматериалов с временной непрерывностью такие схемы на сегодняшний день квалифицируются как «впечатляющие катастрофы».
Если к этому добавить сложность создания согласованных во времени волос, а также тот факт, что метод исследования/манипулирования скрытым кодом не имеет врожденных временных указаний для работы (и трудно понять, как внедрить такие указания в структуру, предназначенную для размещения и создания неподвижных изображений и не имеющую встроенных средств). для вывода видео), можно было бы логично заключить, что GAN — это не All You Need™ для синтеза видео лиц.
Таким образом, последующие усилия дали дополнительные улучшения в распутывании, в то время как другие опираются на другие соглашения в области компьютерного зрения в качестве «управляющего уровня», такие как использование семантической сегментации в качестве механизма управления в конце 2021 года. бумаги SemanticStyleGAN: изучение композиционных генеративных априоров для управляемого синтеза и редактирования изображений.
Параметрическое руководство
Сообщество исследователей синтеза лиц GAN все больше склоняется к использованию «традиционных» параметрических лиц CGI в качестве метода направления и упорядочивания впечатляющих, но непокорных скрытых кодов в скрытом пространстве GAN.
Хотя параметрические лицевые примитивы были основным продуктом исследований компьютерного зрения для более двадцати лет, интерес к этому подходу в последнее время вырос с более широким использованием Skinned Multi-Person Linear Model (СМПЛ) Примитивы CGI, подход, впервые предложенный Институтом Макса Планка и ILM, и с тех пор улучшенный с помощью регрессора разреженного обученного сочлененного человеческого тела (STAR) фреймворк.
Самой известной разработкой в этой линейке стал Disney 2019. Рендеринг со стилем инициатива, которая объединила использование традиционных текстурных карт с изображениями, сгенерированными GAN, в попытке создать улучшенный анимированный вывод в стиле «дипфейк».
Подход Disney накладывает традиционно визуализированные аспекты CGI в сеть StyleGAN2, чтобы «дорисовать» человеческие лица в «проблемных областях», где временная согласованность является проблемой для создания видео, таких как текстура кожи.
Так как параметрическая CGI-голова, управляющая этим процессом, может быть настроена и изменена в соответствии с потребностями пользователя, лицо, сгенерированное GAN, может отражать эти изменения, включая изменения позы головы и выражения.
Несмотря на то, что они были созданы для объединения инструментальности компьютерной графики с естественным реализмом лиц GAN, в конце концов, результаты демонстрируют худшее из обоих миров и по-прежнему не поддерживают согласованность текстуры волос и даже базового позиционирования:
Так, бумаги StyleRig: оснастка StyleGAN для 3D-управления портретными изображениями принимает все более популярный подход с использованием трехмерные трансформируемые модели лица (3DMM) в качестве прокси для изменения характеристик в среде StyleGAN, в данном случае через новую сеть оснастки под названием RigNet:
Однако, как обычно с этими инициативами, результаты на сегодняшний день кажутся ограниченными минимальными манипуляциями с позами и «неосведомленными» изменениями выражения/аффекта.
Аналогичные результаты можно найти в Mitsubishi Research. МОСТ-ГАН, 2021 бумаги который использует нелинейные 3DMM в качестве архитектуры распутывания, но который также изо всех сил для достижения динамичного и последовательного движения.
Последнее исследование, направленное на попытку инструментальности и распутывания Реконструкция лица одним кадром на мегапикселях, который снова использует параметрические головки 3DMM в качестве удобного интерфейса для StyleGAN.
OSFR принадлежит к растущему классу редакторов лиц GAN, которые стремятся разработать рабочие процессы линейного редактирования в стиле Photoshop/After Effects, где пользователь может вводить желаемое изображение, к которому можно применить преобразования, вместо того, чтобы искать в скрытом пространстве скрытые коды, относящиеся к личность.
Опять же, параметрические выражения представляют собой всеобъемлющий и неперсонализированный метод введения выражения, приводящий к манипуляциям, которые сами по себе кажутся «сверхъестественными», не всегда положительными.
Как и в предыдущей работе, OSFR может делать выводы о почти исходных позах из одного изображения, а также выполнять «фронтализацию», когда изображение, расположенное не по центру, преобразуется в фотоснимок:
На практике такого рода выводы аналогичны некоторым принципам фотограмметрии, лежащим в основе Поля нейронного излучения (NeRF), за исключением того, что геометрия здесь должна быть определена одной фотографией, а не 3-4 точками обзора, которые позволяют NeRF интерпретировать отсутствующие интерстициальные позы и создавать исследуемые нейронные 3D-сцены с участием людей.
(Однако NeRF также не All You Need™, так как имеет почти совершенно другой набор блокпостов к GAN с точки зрения производства видеосинтеза лица)
Есть ли у GAN место в синтезе видео с лицами?
Достижение динамических выражений и нестандартных поз из одного исходного изображения в настоящее время кажется алхимической навязчивой идеей в исследованиях синтеза лица GAN, главным образом потому, что GAN являются единственным методом, который в настоящее время способен выводить довольно высокое разрешение и относительно высокое разрешение. точные нейронные лица: хотя фреймворки автокодировщика дипфейков могут обучаться на множестве реальных поз и выражений, они должны работать с разрешениями ввода/вывода, ограниченными VRAM, и требуют «хоста»; в то время как NeRF имеет аналогичные ограничения и, в отличие от двух других подходов, в настоящее время не имеет установленных методологий для изменения выражений лица и в целом страдает от ограниченных возможностей редактирования.
Кажется, что единственный путь вперед для точной системы синтеза лица CGI/GAN — это новая инициатива, направленная на поиск какого-то способа сборки объекта идентификации с несколькими фотографиями внутри скрытого пространства, где скрытый код для личности человека не должен быть обнаружен. перемещаться по скрытому пространству, чтобы использовать несвязанные параметры позы, но может ссылаться на свои собственные связанные изображения (реального мира) в качестве ссылок для преобразований.
Даже в таком случае или даже если бы вся сеть StyleGAN была обучена на наборе лиц с одной идентификацией (аналогично обучающим наборам, которые используют автоэнкодеры), недостающая семантическая логика, вероятно, все равно должна быть обеспечена дополнительными технологиями, такими как семантическая сегментация или параметрические грани 3DMM, у которых в таком сценарии было бы как минимум больше материала для работы.