Искусственный интеллект

NeRF делает еще один шаг к замене CGI

Published June 4, 2021

Updated April 5, 2026

Martin Anderson

Исследователи в MIT и Google сделали большой шаг в решении одной из наиболее фундаментальных проблем для возникающей технологии, управляемой ИИ, которая может в конечном итоге заменить CGI – разделение нейронных радиационных полей (NeRF) изображений на их составные визуальные компоненты, чтобы изображения можно было повторно текстурировать и осветить.

Новый подход, называемый NeRFactor, эффективно разделяет захваченные изображения на нормали для каждого объекта (на которые можно назначить текстуры), видимость света, альбедо (долю падающего света, который отражается от поверхности) и функции распределения двусторонней отражательной способности (BRDF).

С этими аспектами, выделенными отдельно, становится возможным не только переключать текстуры для отдельных объектов или групп объектов, но также добавлять новые и уникальные источники света и реализацию теней, не учитывая те, которые были захвачены многокамерными массивами, которые генерируют входные данные для изображений NeRF.

Нормали, видимость, альбедо и BRDF, разделенные с помощью NeRFactor. Источник: https://www.youtube.com/watch?v=UUVSPJlwhPg

Модель поддерживает мягкие или жесткие тени от произвольных, определяемых пользователем источников света, и разделяет четыре аспекта захваченного видео программно, используя реконструкционную потерю, данные из предыдущих расчетов BRDF и базовую простую регуляризацию гладкости.

Поток работы NeRFactor, извлекающий отдельно действенные аспекты изображений, полученных из многокамерных массивов. Источник: https://arxiv.org/pdf/2106.01970.pdf

NeRFactor использует зонд HDR-света, хорошо установленный подход, который проник в визуальную промышленную и художественную сцену с момента его введения в 1998 году, для оценки возможных путей для лучей, что позволяет использовать произвольное освещение. Поскольку это генерирует неправляемое количество возможных параметров, зонд HDR-света фильтруется через многослойный перцептрон (MLP), который сопоставляет воспринимаемую геометрию с зондом без попытки рассчитать полную карту объема освещения для модели.

Два нейронных радиационных поля модели используются для демонстрации пяти моделей освещения, возможных с помощью NeRFactor. Нажмите на изображение для более высокого разрешения.

Причина для размышления

Новое исследование, возможно, наиболее значимо в разделении слоев захваченных изображений, которые контролируют отражение. Это остается одной из самых больших проблем для нейронных радиационных полей изображений, поскольку действительно новая и гибкая система NeRF не только сможет заменить текстуры, но также будет нуждаться в некотором способе отражать движущиеся объекты (помимо просто фиксированной среды), которые обычно учитываются в рабочем процессе CGI.

Эта проблема была отмечена недавно в отношении нового исследования Intel по превращению кадров видеоигр в фотореалистичное видео с помощью свёрточных нейронных сетей. В таких рабочих процессах многие “запечатанные” аспекты исходного материала должны стать дискретными и заменяемыми, и это, возможно, легче решить для переосвещения (которое является функцией геометрии, отображаемой в NeRF), чем для отражений (которые используют “внешнюю” геометрию, которая находится полностью вне области модели).

Следовательно, выделение слоев в видео NeRF, которые облегчают отражение, приближает NeRF на один шаг к решению своей “проблемы отражения”.

https://www.youtube.com/watch?v=UUVSPJlwhPg

Использование среды HDR уже решает проблему генерации отражений окружающей среды (т.е. неба, ландшафтов и других “фиксированных” факторов окружающей среды), но новые подходы будут нужны для введения движущихся и динамических отражений.

Фотограмметрия с NeRF

Нейронные радиационные поля изображений используют анализ машинного обучения для разработки полностью объемного пространства из сцены или объекта, который был захвачен с нескольких углов.

Различные схемы, основанные на NeRF, которые появились в прошлом году, использовали разное количество камер-устройств; некоторые используют 16 или более камер, другие – всего одну или две. Во всех случаях промежуточные точки зрения “заполняются” (т.е. интерпретируются), чтобы сцена или объект могли быть плавно перемещены.

Результирующая сущность – это полностью объемное пространство, с внутренним трехмерным пониманием, которое можно использовать многими способами, включая возможность генерации традиционных сеток CGI из 3D-парсированной суммы входных изображений.

NeRF в контексте “Новой CGI”

Нейронные радиационные поля изображений получены直接 из изображений реального мира, включая движущиеся изображения людей, объектов и сцен. Напротив, методология CGI “изучает” и интерпретирует мир, требуя от квалифицированных работников построения сеток, систем управления и текстур, которые используют реальные изображения (т.е. захваты лиц и окружающей среды). Это остается в основном интерпретативным и ремесленным подходом, который дорог и трудоемок.

Кроме того, CGI имела постоянные проблемы с эффектом “долины неудобства” в своих усилиях по воссозданию человеческих подобий, что не представляет никаких ограничений для подхода, управляемого NeRF, который просто захватывает видео или изображения реальных людей и манипулирует ими.

Более того, NeRF может генерировать традиционную геометрию сетки CGI trực из фотографий при необходимости и фактически заменить многие ручные процедуры, которые всегда были необходимы в компьютерной графике.

Проблемы для NeRF

Это последнее исследование из MIT и Google появляется в контексте настоящего потока работ по NeRF за последний год, многие из которых предложили решения различных проблем, возникающих при первоначальной работе 2020 года.

В апреле инновация от китайского исследовательского консорциума предоставила способ дискретно выделить отдельные временные шкалы аспектов в сцене NeRF, включая людей.

Китайское исследование позволяет конечным пользователям копировать, вставлять и изменять размер захваченных элементов, освобождая их от линейной временной шкалы исходного видео. Источник: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Этот подход не только позволяет представить сцену с любой точки зрения, захваченной камерным массивом (и не только с одной точки зрения, представленной в типичном видео), но также позволяет выполнять универсальное композитирование – и даже возможность представить два аспекта из одного и того же кадра, которые работают в своих собственных временных рамках (или даже работают в обратном направлении, если необходимо).

Два отдельных аспекта NeRF работают с разными скоростями в одной и той же сцене. Источник: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Одной из самых больших проблем для NeRF является снижение значительных ресурсов, необходимых для обучения сцены, и это было решено в ряде недавних работ. Например, Институт интеллектуальных систем имени Макса Планка недавно представил KiloNeRF, который не только ускоряет время рендеринга в 1000 раз, но также позволяет NeRF работать интерактивно.

KiloNeRF, работающий в интерактивной среде со скоростью 50 кадров в секунду на GTX 1080ti. Источник: https://github.com/creiser/kilonerf

Однако инновация NeRF, которая действительно захватила воображение исследователей и общественности в 2021 году, стала сотрудничеством PlenOctrees, возглавляемым Университетом Калифорнии в Беркли, которое предлагает рендеринг нейронных радиационных полей в реальном времени:

https://www.youtube.com/watch?v=obrmH1T5mfI

Эффект интерактивных возможностей PlenOctrees был воспроизведен в живом, веб-интерфейсе.

Живое интерактивное движение объекта PlenOctrees в Firefox (движение более плавное и динамичное, чем это GIF представляет). Источник: http://alexyu.net/plenoctrees/demo/

Кроме того, Recursive-NeRF (из работы мая 2021 года исследователей Университета Цинхуа) предлагает высококачественный рекурсивный рендеринг по требованию. Вместо того, чтобы заставлять пользователя рендерить всю сцену, включая части, которые могут не быть видны, Recursive-NeRF предоставляет что-то подобное сжатию JPEG, и может генерировать дискретные под-NeRF для обработки дополнительных изображений по требованию – достигая огромной экономии вычислительных ресурсов.

Сохранение деталей при сбросе ненужных расчетов рендеринга с помощью Recursive-NeRF. Источник: https://arxiv.org/pdf/2105.09103.pdf

Сохранение деталей при сбросе ненужных расчетов рендеринга с помощью Recursive-NeRF. Нажмите на изображение для более высокого разрешения. Источник: https://arxiv.org/pdf/2105.09103.pdf

Другие подходы включают FastNeRF, который утверждает, что достигает высококачественного нейронного рендеринга со скоростью 200 кадров в секунду.

Было отмечено, что многие методов оптимизации для NeRF включают ‘запекание’ сцены, путем обязательства к аспектам, которые желательно рендерить, и отказа от других аспектов, что ограничивает исследование, но значительно ускоряет интерактивность.

Недостатком этого является то, что нагрузка смещается от GPU к хранилищу, поскольку запечатанные сцены занимают огромное количество дискового пространства; до некоторой степени это можно смягчить путем снижения разрешения запечатанных данных, хотя это также предполагает определенное обязательство в отношении закрытия путей исследования или интерактивности.

В отношении захвата и риггинга движения новый подход от Университетов Чжэцзян и Корнелл, представленный в мае, предложил метод для реконструкции анимируемых людей с помощью полей весов смешивания и скелетных структур, интерпретируемых из входного видео:

Полученная скелетная структура в Animatable NeRF. Источник: https://www.youtube.com/watch?v=eWOSWbmfJo4

Когда NeRF будет иметь свой ‘Парк Юрского периода’?

Несмотря на быстрый темп прогресса в синтезе изображений с помощью нейронных радиационных полей, только в этот период будет установлена любая種 ‘закон термодинамики’ для того, насколько развертываемым может стать NeRF. В плане временной шкалы, аналогичной истории CGI, NeRF в настоящее время находится на уровне 1973 года, прямо перед первым использованием CGI в Вестворлде.

Это не означает, что NeRF обязательно нужно ждать девять лет до своего эквивалентного рубежа Гнева Хана, или десятилетий до подобных прорывов, которые CGI достигла под энтузиастическим покровительством Джеймса Кэмерона в 1989 году в Бездне или в 1991 году в Терминаторе 2 – и затем, технологический真正ый революционный пробой в 1993 году в Парке Юрского периода.

Сцена изображений изменилась значительно с момента долгого периода застоя для фото-химических визуальных эффектов, которые доминировали в производстве фильмов и телевидения с рождения кинематографа до начала 1990-х годов. Наступление революции персональных компьютеров и ускорение закона Мура привели к революции CGI, которая в противном случае могла бы произойти уже в 1960-х годах.

Остается быть увиденным, есть ли какое-либо препятствие, настолько непреодолимое, что оно могло бы задержать прогресс NeRF на столько времени – и не перегонят ли последующие инновации в области компьютерного зрения NeRF как основного претендента на корону CGI, характеризуя нейронные радиационные поля как короткоживущую ‘факс-машины’ нейронной синтеза изображений.

Пока NeRF не использовался в каком-либо контексте вне академических исследований; но стоит отметить, что крупные игроки, такие как Google Research, и многие из наиболее известных лабораторий компьютерного зрения, соревнуются за последние прорывы NeRF.

Многие из самых больших препятствий NeRF начали решаться напрямую в этом году; если последующие исследования предложат решение ‘проблемы отражения’, и многие нити исследований по оптимизации NeRF объединятся в решающее решение технологических значительных требований к обработке и/или хранилищу, NeRF действительно имеет шанс стать ‘новой CGI’ в течение следующих пяти лет.