заглушки NeRFocus: легкое управление фокусом в полях нейронного излучения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

NeRFocus: легкое управление фокусом в полях нейронного излучения

mm
обновленный on

Новое исследование из Китая предлагает метод достижения доступного контроля над эффектами глубины резкости для Neural Radiance Fields (НеРФ), позволяя конечному пользователю переключать фокус и динамически изменять конфигурацию виртуальной линзы в пространстве рендеринга.

Титулованный НеРФокус, этот метод реализует новый подход «тонкая линза» для обхода фокуса и вводит новшества. P-обучение, вероятностная стратегия обучения, которая устраняет необходимость в специальных наборах данных глубины резкости и упрощает рабочий процесс обучения с поддержкой фокусировки.

Ассоциация бумаги называется NeRFocus: поле нейронного излучения для 3D-синтетической расфокусировки, и исходит от четырех исследователей из Шэньчжэньской высшей школы Пекинского университета и лаборатории Пэн Чэн в Шэньчжэне, института, финансируемого правительством провинции Гуандун.

Обращение к ямочному локусу внимания в NeRF

Если NeRF когда-либо займет свое место в качестве надежной технологии вождения для виртуальной и дополненной реальности, ей понадобится облегченный метод, обеспечивающий реалистичность. рендеринг, где большая часть ресурсов рендеринга накапливается вокруг взгляда пользователя, а не распределяется без разбора с более низким разрешением по всему доступному визуальному пространству.

Из статьи 2021 года Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality мы видим локус внимания в новой схеме рендеринга с foveated для NeRF. Источник: https://arxiv.org/pdf/2103.16365.pdf

Из статьи 2021 года Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality мы видим локус внимания в новой схеме рендеринга с foveated для NeRF. Источник: https://arxiv.org/pdf/2103.16365.pdf

Существенной частью аутентичности будущих развертываний эгоцентричных NeRF будет способность системы отражать собственную способность человеческого глаза переключать фокус через удаляющуюся плоскость перспективы (см. первое изображение выше).

Этот градиент фокуса также является индикатором восприятия масштаба сцены; вид с вертолета, летящего над городом, будет иметь нулевые навигационные поля фокусировки, потому что вся сцена существует за пределами самой внешней способности фокусировки зрителя, в то время как тщательное изучение миниатюры или сцены «ближнего поля» не только позволит «переключение фокуса», но и должен, ради реализма, по умолчанию содержать узкую глубину резкости.

Ниже приведено видео, демонстрирующее начальные возможности NeRFocus, предоставленное нам соответствующим автором статьи:

За пределами ограниченных фокальных плоскостей

Зная о требованиях к контролю фокусировки, ряд проектов NeRF в последние годы предусмотрели его, хотя все попытки на сегодняшний день фактически являются ловкостью рук какого-то рода обходными путями или же влекут за собой заметные процедуры постобработки, которые усложняют работу. их маловероятный вклад в среду реального времени, в конечном счете предусмотренную для технологий Neural Radiance Fields.

В течение последних 5-6 лет предпринимались попытки синтетического управления фокусом в нейронных инфраструктурах рендеринга различными методами — например, с использованием сети сегментации, чтобы отделить данные переднего плана и фона, а затем в целом расфокусировать фон — общее решение для простых эффектов фокусировки в двух плоскостях.

Из статьи «Автоматическая сегментация портретов для стилизации изображений» — приземленное разделение фокальных плоскостей в стиле анимации. Источник: https://jiaya.me/papers/portrait_eg16.pdf

Из статьи «Автоматическая сегментация портрета для стилизации изображения», приземленное разделение фокальных плоскостей в стиле анимации. Источник: https://jiaya.me/papers/portrait_eg16.pdf

Многоплоскостные представления добавляют к этой парадигме несколько виртуальных «целей анимации», например, используя оценку глубины, чтобы разрезать сцену на изменчивый, но управляемый градиент различных фокальных плоскостей, а затем оркестрируя ядра, зависящие от глубины, для синтезировать размытие.

Кроме того, и это очень актуально для потенциальных сред AR / VR, несоответствие между двумя точками обзора настройки стереокамеры можно использовать в качестве прокси глубины — метод, предложенный Google Research в 2015 году.

В статье под руководством Google Fast Bilateral-Space Stereo for Synthetic Defocus разница между двумя точками обзора обеспечивает карту глубины, которая может облегчить размытие. Однако этот подход не соответствует действительности в описанной выше ситуации, когда фотография явно сделана с объективом 35-50 мм (стандарт SLR), но крайняя расфокусировка фона может произойти только с объективом более 200 мм, который имеет вид с сильно ограниченной фокальной плоскостью, которая обеспечивает узкую глубину резкости в нормальных условиях размером с человека. Источник

В статье под руководством Google Fast Bilateral-Space Stereo for Synthetic Defocus разница между двумя точками обзора обеспечивает карту глубины, которая может облегчить размытие. Однако этот подход неверен в описанной выше ситуации, когда фотография явно сделана с объективом 35-50 мм (стандарт SLR), но крайняя расфокусировка фона может произойти только с объективом более 200 мм, который имеет вид с сильно ограниченной фокальной плоскостью, которая обеспечивает узкую глубину резкости в нормальных условиях размером с человека. Источник

Подходы такого рода, как правило, демонстрируют краевые артефакты, поскольку они пытаются представить две отдельные и ограниченные по краям сферы фокусировки как непрерывный фокальный градиент.

В 2021 RawNeRF Инициатива предложила функциональность расширенного динамического диапазона (HDR) с большим контролем над ситуациями при слабом освещении и, по-видимому, впечатляющую возможность фокусировки на стойке:

Стойки RawNeRF прекрасно фокусируются (хотя, в данном случае, неаутентично из-за нереалистичных фокальных плоскостей), но требуют больших вычислительных затрат. Источник: https://bmild.github.io/rawnerf/

Стойки RawNeRF прекрасно фокусируются (хотя, в данном случае, неаутентично из-за нереалистичных фокальных плоскостей), но требуют больших вычислительных затрат. Источник: https://bmild.github.io/rawnerf/

Однако RawNeRF требует обременительных предварительных вычислений для своих многоплоскостных представлений обученного NeRF, что приводит к рабочему процессу, который нельзя легко адаптировать к более легким реализациям NeRF или реализациям NeRF с меньшей задержкой.

Моделирование виртуальной линзы

Сам NeRF основывается на модели изображения точечной диафрагмы, которая делает всю сцену резкой, аналогично стандартной CGI-сцене (до различных подходов, которые визуализируют размытие как постобработку или врожденный эффект, основанный на глубине резкости).

NeRFocus создает виртуальную «тонкую линзу» (а не «безочковую» апертуру), которая вычисляет путь луча каждого входящего пикселя и напрямую визуализирует его, эффективно инвертируя стандартный процесс захвата изображения, который работает постфактум на входе света, на который уже повлияли преломляющие свойства конструкции линзы.

Эта модель предоставляет ряд возможностей для рендеринга контента внутри усеченной пирамиды (самый большой круг влияния, изображенный на изображении выше).

Вычисление правильного цвета и плотности для каждого многослойного персептрона (MLP) в этом более широком диапазоне возможностей является дополнительной задачей. Это было решено до применяя обучение с учителем к большому количеству изображений DLSR, что влечет за собой создание дополнительных наборов данных для вероятностного рабочего процесса обучения, что эффективно включает трудоемкую подготовку и хранение множества возможных вычислительных ресурсов, которые могут понадобиться или не понадобиться.

NeRFocus преодолевает это за счет P-обучение, где обучающие наборы данных генерируются на основе базовых операций размытия. Таким образом, модель формируется с врожденными и управляемыми операциями размытия.

Диаметр апертуры устанавливается равным нулю во время обучения, а предопределенные вероятности используются для случайного выбора ядра размытия. Этот полученный диаметр используется для увеличения диаметра каждого составного конуса, позволяя MLP точно предсказать яркость и плотность усеченных конусов (широкие круги на изображениях выше, представляющие зону преобразования для каждого пикселя).

Диаметр апертуры устанавливается равным нулю во время обучения, а предопределенные вероятности используются для случайного выбора ядра размытия. Этот полученный диаметр используется для увеличения диаметра каждого составного конуса, позволяя MLP точно предсказать яркость и плотность усеченных конусов (широкие круги на изображениях выше, представляющие максимальную зону преобразования для каждого пикселя).

Авторы новой статьи отмечают, что NeRFocus потенциально совместим с HDR-ориентированным подходом RawNeRF, который потенциально может помочь в рендеринге некоторых сложных участков, таких как расфокусированные зеркальные блики, и многих других эффектов, требующих больших вычислительных ресурсов. бросали вызов рабочим процессам CGI в течение тридцати или более лет.

Процесс не влечет за собой дополнительных требований по времени и/или параметрам по сравнению с предыдущими подходами, такими как базовый NeRF и Мип-НерФ (и, по-видимому, Мип-НерФ 360, хотя в статье это не рассматривается), и применим как общее расширение центральной методологии полей нейронного излучения.

 

Впервые опубликовано 12 марта 2022 г.