заглушки NeRFocus: легкий контроль фокусування для полів нейронного випромінювання - Unite.AI
Зв'язатися з нами

Штучний Інтелект

NeRFocus: легкий контроль фокусування для полів нейронного випромінювання

mm
оновлений on

Нове дослідження в Китаї пропонує метод досягнення доступного контролю над ефектами глибини різкості для полів нейронного випромінювання (NeRF), дозволяючи кінцевому користувачеві регулювати фокус і динамічно змінювати конфігурацію віртуальної лінзи в просторі візуалізації.

Титулований NeRFocus, ця техніка реалізує новий підхід «зображення тонких лінз» для обходу фокуса та інновації П-навчання, імовірнісна стратегія навчання, яка позбавляє потреби у спеціальних наборах даних глибини різкості та спрощує робочий процес навчання з підтримкою фокусування.

Команда папір має титул NeRFocus: поле нейронного випромінювання для 3D-синтетичного розфокусування, і походить від чотирьох дослідників із Шеньчженьської вищої школи Пекінського університету та лабораторії Пен Чен у Шеньчжені, інституту, який фінансується урядом провінції Гуандун.

Звертання до ямкового локуса уваги в NeRF

Якщо NeRF коли-небудь займе своє місце як ефективна рушійна технологія для віртуальної та доповненої реальності, їй знадобиться легкий метод, який би дозволив реалістичним візуалізації з фотів, де більшість ресурсів візуалізації збираються навколо погляду користувача, а не розподіляються без розбору з нижчою роздільною здатністю по всьому доступному візуальному простору.

У статті 2021 року Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality ми бачимо локус уваги в новій схемі фовеатного рендерингу для NeRF. Джерело: https://arxiv.org/pdf/2103.16365.pdf

У статті 2021 року Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality ми бачимо локус уваги в новій схемі фовеатного рендерингу для NeRF. Джерело: https://arxiv.org/pdf/2103.16365.pdf

Суттєвою частиною автентичності майбутніх розгортань егоцентричного NeRF буде здатність системи відображати власну здатність людського ока перемикати фокус через віддалену площину перспективи (див. перше зображення вище).

Цей градієнт фокусу також є індикатором сприйняття масштабу сцени; вид з гелікоптера, що летить над містом, не матиме нульових навігаційних полів фокусування, оскільки вся сцена існує за межами зовнішньої здатності фокусування глядача, тоді як уважне вивчення мініатюрної сцени або сцени «ближнього поля» не лише дозволить «змінити фокус», але й для реалізму має містити вузьку глибину різкості за замовчуванням.

Нижче наведено відео, яке демонструє початкові можливості NeRFocus, надане автором статті:

За межами обмежених фокальних площин

Усвідомлюючи вимоги до контролю фокусування, низка проектів NeRF за останні роки передбачила це забезпечення, хоча всі спроби на сьогоднішній день фактично є певним обхідним шляхом або передбачають помітні процедури постобробки, які роблять це малоймовірний внесок у середовище реального часу, яке в кінцевому рахунку передбачено для технологій Neural Radiance Fields.

Протягом останніх 5-6 років різними методами намагалися застосувати синтетичний фокусний контроль у фреймворках нейронного рендерингу, наприклад, за допомогою мережі сегментації, щоб відокремити дані переднього плану та фону, а потім для загального розфокусування фону – загальне рішення для простих ефектів фокусування у двох площинах.

Зі статті Автоматична портретна сегментація для стилізації зображення, звичайне поділ фокальних площин у стилі анімації. Джерело: https://jiaya.me/papers/portrait_eg16.pdf

Зі статті «Автоматична сегментація портрета для стилізації зображення», буденне поділ фокальних площин у стилі анімації. Джерело: https://jiaya.me/papers/portrait_eg16.pdf

Багатоплощинні представлення додають кілька віртуальних «осередків анімації» до цієї парадигми, наприклад, використовуючи оцінку глибини, щоб розрізати сцену на поривчастий, але керований градієнт окремих фокальних площин, а потім оркеструвати залежні від глибини ядра для синтезувати розмиття.

Крім того, невідповідність між двома точками огляду стереокамери, що дуже актуально для потенційних середовищ AR/VR, можна використовувати як проксі-сервер глибини – метод, запропонований Google Research у 2015 році.

У документі під керівництвом Google Fast Bilateral-Space Stereo for Synthetic Defocus різниця між двома точками огляду забезпечує карту глибини, яка може полегшити розмивання. Однак цей підхід є неавтентичним у розглянутій вище ситуації, коли фотографія чітко зроблена за допомогою об’єктива 35-50 мм (стандарт дзеркальної фотокамери), але екстремальне розфокусування фону може статися лише з об’єктивом, що перевищує 200 мм, який має тип сильно обмеженої фокальної площини, яка створює вузьку глибину різкості в нормальному середовищі розміром з людину. Джерело

У документі під керівництвом Google Fast Bilateral-Space Stereo for Synthetic Defocus різниця між двома точками огляду забезпечує карту глибини, яка може полегшити розмивання. Однак цей підхід є неавтентичним у розглянутій вище ситуації, коли фотографія чітко зроблена за допомогою об’єктива 35-50 мм (стандарт дзеркальної фотокамери), але екстремальне розфокусування фону може статися лише з об’єктивом, що перевищує 200 мм, який має вид сильно обмеженої фокальної площини, яка створює вузьку глибину різкості в нормальному середовищі розміром з людину. Джерело

Підходи такого характеру мають тенденцію демонструвати краєві артефакти, оскільки вони намагаються представити дві окремі та обмежені краєм сфери фокусування як постійний фокусний градієнт.

У 2021 RawNeRF Ініціатива запропонувала функціональність розширеного динамічного діапазону (HDR) із кращим контролем у ситуаціях із слабким освітленням і, очевидно, вражаючою можливістю фокусування:

Стійки RawNeRF чудово фокусуються (хоча, в даному випадку, неавтентично, через нереалістичні фокальні площини), але потребують високі обчислювальні витрати. Джерело: https://bmild.github.io/rawnerf/

Стійки RawNeRF чудово фокусуються (хоча, в даному випадку, неавтентично, через нереалістичні фокальні площини), але потребують високі обчислювальні витрати. Джерело: https://bmild.github.io/rawnerf/

Однак RawNeRF потребує обтяжливого попереднього обчислення для своїх багатоплощинних представлень навченого NeRF, що призводить до того, що робочий процес не може бути легко адаптований до більш легких або менших затримок реалізацій NeRF.

Моделювання віртуальної лінзи

Сама NeRF заснована на моделі зображення з отворами, яка чітко рендерить всю сцену, подібно до сцени CGI за замовчуванням (до різних підходів, які рендерять розмиття як постобробку або вроджений ефект на основі глибини різкості).

NeRFocus створює віртуальну «тонку лінзу» (а не «безскляну» діафрагму), яка обчислює шлях променя кожного вхідного пікселя та відтворює його безпосередньо, фактично інвертуючи стандартний процес захоплення зображення, який працює постфактум на надходження світла, на яке вже вплинули заломлюючі властивості конструкції лінзи.

Ця модель представляє ряд можливостей для рендерингу вмісту всередині зріза (найбільше коло впливу, зображене на зображенні вище).

Обчислення правильного кольору та щільності для кожного багатошарового персептрона (MLP) у цьому ширшому діапазоні можливостей є додатковим завданням. Це було вирішено раніше шляхом застосування контрольованого навчання до великої кількості зображень DLSR, що спричиняє створення додаткових наборів даних для ймовірнісного робочого процесу навчання – фактично залучаючи трудомістку підготовку та зберігання кількох можливих обчислювальних ресурсів, які можуть знадобитися або не знадобитися.

NeRFocus долає це шляхом П-навчання, де навчальні набори даних генеруються на основі основних операцій розмиття. Таким чином, модель формується за допомогою вроджених і навігаційних операцій розмиття.

Діаметр діафрагми встановлюється на нуль під час навчання, а попередньо визначені ймовірності використовуються для випадкового вибору ядра розмиття. Цей отриманий діаметр використовується для збільшення діаметрів кожного композитного конуса, дозволяючи MLP точно передбачити сяйво та щільність усічених конусів (широкі кола на зображеннях вище, що представляють зону трансформації для кожного пікселя)

Діаметр діафрагми встановлюється на нуль під час навчання, а попередньо визначені ймовірності використовуються для випадкового вибору ядра розмиття. Цей отриманий діаметр використовується для збільшення діаметрів кожного композитного конуса, дозволяючи MLP точно передбачити сяйво та щільність усічених конусів (широкі кола на зображенні вище, що представляють максимальну зону трансформації для кожного пікселя)

Автори нової статті відзначають, що NeRFocus потенційно сумісний із HDR-керованим підходом RawNeRF, який потенційно може допомогти у візуалізації певних складних ділянок, таких як розфокусовані відблиски та багато інших обчислювальних ефектів, які мають кидали виклик робочим процесам CGI протягом тридцяти чи більше років.

Процес не передбачає додаткових вимог щодо часу та/або параметрів у порівнянні з попередніми підходами, такими як основний NeRF та Міп-НеРФ (і, ймовірно Міп-НеРФ 360, хоча це не розглядається в статті), і його можна застосувати як загальне розширення центральної методології полів нейронного випромінювання.

 

Вперше опубліковано 12 березня 2022 р.