Artificial Intelligence
Disney объединяет компьютерную графику с нейронным рендерингом, чтобы справиться со «зловещей долиной»
Исследовательское подразделение Disney по искусственному интеллекту разработало гибридный метод симуляции лица кинематографического качества, сочетающий сильные стороны нейронного рендеринга лица с последовательностью подхода, основанного на компьютерной графике.
Находящаяся на рассмотрении статья называется Рендеринг со стилем: сочетание традиционного и нейронного подходов для высококачественного рендеринга лица, и просматривается в новое 10-минутное видео на канале Disney Research на YouTube (встроено в конце этой статьи*).
Как отмечается в видео, нейронная визуализация лиц (включая дипфейки) может создать гораздо более реалистичный интерьер глаз и рта, чем способен CGI, в то время как текстуры лица, основанные на CGI, более последовательны и подходят для вывода визуальных эффектов кинематографического уровня.
Поэтому Disney экспериментирует, позволяя NVIDIA СтильГан2 Нейронный генератор обрабатывает окружающие черты лица и «жизненно важные» элементы, такие как глаза, в то же время накладывая на результат последовательную компьютерную графику кожи лица и связанные элементы.
В видео содержится неявная ссылка на частую критику недостоверности и эффекта «зловещей долины» компьютерной графики поздних британцев. Star Wars актер Питер Кушинг в Разбойник Один (2016), допуская:
«[Существует] по-прежнему огромный разрыв между тем, что люди могут легко запечатлеть и визуализировать, и окончательными фотореалистичными цифровыми двойниками с волосами, глазами и внутренним ртом. Чтобы закрыть этот пробел, обычно требуется много ручной работы от квалифицированных художников».
По правде говоря, даже самые современные системы захвата лица даже не пытаются воссоздать глаза, внутреннюю часть рта или волосы, которые либо имеют проблемы с подлинностью в таких методах (глаза), либо с временной согласованностью (волосы).
Управление освещением
Гибридный подход также является преимуществом повторного освещения — заметной проблемой для нейронного рендеринга лиц, поскольку наложения кожи CGI легче повторно освещать.
В более сложных условиях, таких как внешние съемки, исследователи разработали метод рисования вокруг своего рода демилитаризованной зоны, окружающей «созданного» человека.
В видео отмечается:
«[] Нейронный рендеринг не полностью соответствует фоновому ограничению. - это только руководство, поскольку главной целью является оптимизация для реалистичных человеческих компонентов, таких как волосы, глаза и зубы. Более сложной задачей является попытка сохранить постоянную идентичность при изменении освещения окружающей среды».
Создание CGI-сеток из нейронных визуализаций
Исследовательская группа также разработала вариационный автоэнкодер, обученный на (неуказанной) большой базе данных 3D-изображений лиц, и утверждает, что он может создавать «случайные, но правдоподобные» 3D-сетки лиц на основе достоверных данных.
Существуют ограничения для этого исследования, которые необходимо преодолеть, в том числе сложность в том, чтобы волосы оставались согласованными во времени в нейронной визуализации, а видео (см.
Временная согласованность в нейронном рендеринге видео — гораздо более широкая проблема, чем просто проблема Диснея, и кажется вероятным, что более поздние итерации этой системы могут прибегнуть к добавлению волос «в пост» или к различным другим возможным подходам к генерации волос, чем надеяться на новый нейронный подход. в конце концов решить это.
Использование для генерации набора данных
Этот метод предлагается также как потенциальный метод генерации синтетических данных и обогащения ландшафта набора изображений лица, который в последние годы стал опасно монотонный.
«[Каждый] фотореалистичный результат, который мы генерируем, имеет в основе соответствующую геометрию и карты внешнего вида, визуализированные с неизвестных точек обзора камеры с известным освещением. Эта «наземная истина» может иметь жизненно важное значение для обучения последующих приложений, таких как монокуляр, трехмерная реконструкция лица, распознавание лиц или понимание сцены. Таким образом, каждый рендеринг результатов можно рассматривать как выборку данных, и мы можем генерировать множество вариаций для многих разных людей.
«Кроме того, даже для одного человека, визуализируемого с одним выражением лица, с одной точкой обзора и освещением, мы можем генерировать случайные вариации фотореалистичного рендеринга, изменяя начальное число рандомизации во время оптимизации».
Исследователи отмечают, что такое разнообразие настраиваемых выходных данных может быть полезно при обучении приложений распознавания лиц, заключая:
«[Наш] метод может использовать современные технологии для захвата, моделирования и рендеринга кожи лица и автоматически создавать полные фотореалистичные рендеры лица, которые соответствуют желаемой личности, выражению и конфигурации сцены. Этот подход имеет приложения и рендеринг лица для фильмов и развлечений, экономя ручной труд художников, а также для генерации данных в различных областях глубокого обучения».
Для более глубокого ознакомления с новым подходом посмотрите 10-минутное видео, выпущенное сегодня:
* Исходная ссылка на видео была заменена другой, по-видимому, идентичной через 8 часов после публикации этой статьи. Я изменил все соответствующие ссылки, так как от оригинального видео не осталось и следа.
8:24 GMT+2 — Заменено видео, так как оно по какой-то причине было заменено каналом Disney Research на YouTube.