Штучний інтелект
Чи може технологія доповненої реальності Apple з високим динамічним діапазоном вирішити проблему відбитків для нейронного рендерингу?

Енергійні та довгострокові інвестиції Apple у технології доповненої реальності прискорюються цього року, з новим набором інструментів для розробників для збереження та конвертації реальних об’єктів у фасети доповненої реальності, та розростаючоюся промисловою переконаністю, що спеціалізовані окуляри доповненої реальності з’являться для підтримки іммерсивних досвідів, які ця буря досліджень та розробок може забезпечити.
Серед нового набору інформації про зусилля Apple у сфері доповненої реальності, нова стаття від відділу досліджень комп’ютерного бачення компанії описує метод використання 360-градусних панорамних зображень з високим динамічним діапазоном (HDR), щоб забезпечити сценарій-залежні відбитки та освітлення для об’єктів, які накладаються на сцени доповненої реальності.
Під назвою Оцінка середовища HDR для реального часу доповненої реальності, стаття, написана інженером-дослідником комп’ютерного бачення Apple Говрі Соманатом та старшим менеджером машинного навчання Даніелем Курцем, пропонує динамічне створення реального часу середовищ HDR через конволюційну нейронну мережу (CNN), яка працює в мобільному процесорному середовищі. Результатом є те, що відбивні об’єкти можуть буквально дзеркалити нові, невидимі середовища за вимогою:

У новому робочому процесі генерації об’єктів доповненої реальності Apple прес для кухні інстансований за допомогою фотограмметрії разом з його навколишнім середовищем, що призводить до переконливих відбитків, які не ‘запечатані’ у текстуру. Джерело: https://docs-assets.developer.apple.com/
Метод, представлений на CVPR 2021, робить знімок усієї сцени та використовує EnvMapNet CNN для оцінки візуально повного панорамного зображення HDR, також відомого як ‘світовий зонд’.

Результатом є карта, яка ідентифікує сильні джерела світла (підкреслені в кінці анімації) та враховує їх під час рендерингу віртуальних об’єктів.

Архітектура EnvMapNet, яка обробляє обмежені зображення у повносценарійні зображення HDR. Джерело: https://arxiv.org/pdf/2011.10687.pdf
Алгоритм може працювати менше 9 мілісекунд на iPhone XS та здатний рендерити об’єкти, які беруть до уваги відбитки, в реальному часі, з зменшенням напрямкової похибки на 50% порівняно з попередніми та іншими підходами до проблеми.

Світові зонди
Освітлення середовища HDR було фактором візуальних ефектів з моменту появи зображень з високим динамічним діапазоном (винахід 1986 року) та стали помітною силою завдяки вдосконаленням комп’ютерної техніки в 1990-х роках. Хто дивиться за кадром, міг помітити сюрреалістичну присутність техніків, які тримають дзеркальні кулі на палицях – посилання на зображення, які мають бути включені як фактори середовища під час реконструкції CGI-елементів для сцени.

Джерело: https://beforesandafters.com/
Однак, використання хромових куль для відбиткової текстури передує 1990-м рокам, сягаючи 1983 року та статті SIGGRAPH Пірамідальні параметри, яка містила статичні зображення відбивного CGI-робота у стилі, який став знаменитим майже через десятиліття завдяки ‘рідкому металу’ ефектам фільму Джеймса Кемерона Термінатор 2: Судний день.
Відбитки в нейронному рендерингу
Зображення, отримані з нейронних радіанційних полів (NeRF), також стикаються з цією проблемою. Хоча останні дослідження NeRF зробили кроки у напрямку відокремлення елементів, які складають нейронну сцену (наприклад, співробітництво MIT/Google над NeRFactor), відбитки залишаються перешкодою.

Підхід NeRFactor від MIT і Google відокремлює нормалі, видимість (тіні), текстуру та локальне альбедо, але не відбиває ширше (або рухоме) середовище, оскільки воно існує у вакуумі. Джерело: https://arxiv.org/pdf/2106.01970.pdf
NeRF може вирішити цю проблему за допомогою такого самого картування HDR, яке використовує Apple. Кожна піксель у нейронному радіанційному полі розрахований на траєкторії від віртуальної камери до точки, де ‘промінь’ не може рухатися далі, подібно до трасування променів у традиційному CGI. Додавання входу HDR до розрахунку цього променя є потенційним методом для досягнення справжньої відбиткової здатності середовища, і є по суті аналогом методів глобального освітлення або радіозності у CGI, при яких сцена або об’єкт частково освітлюється сприйняними відбитками власного середовища.
Хоча гарантовано, що матриця HDR не полегшить обчислювальні витрати NeRF, велика кількість досліджень у цій галузі зараз зосереджена на вирішенні цього аспекту процесорного потоку. Невід’ємно, відбиткова здатність є одним із багатьох факторів, які чекають у крилі, щоб знову заповнити та викликати цю новооптимізовану архітектуру. Однак, NeRF не може досягти свого повного потенціалу як дискретний нейронний синтез зображень та відео без прийняття способу врахування навколишнього середовища.
Відбитки у трубопроводах нейронного рендерингу
У гіпотетичному варіанті сценарію нейронного рендерингу Intel GTA V з підтримкою HDR, один HDR не міг би забезпечити динамічні відбитки, які потрібно виразити у рухомих об’єктах. Наприклад, щоб побачити свій власний автомобіль, відбитий у автомобілі попереду, коли він під’їжджає до світлофора, автомобіль попереду міг би мати свій власний анімований HDR світовий зонд, роздільна здатність якого погіршуватиметься поступово, коли він віддаляється від точки зору користувача, стаючи низькоякісним та лише репрезентативним, коли він від’їжджає у відстань – це рівняння рівня деталізації (LOD) на основі близькості, подібне до ‘відстані малювання’ у відеоіграх.
Справжній потенціал роботи Apple у сфері освітлення HDR та відбиткових карт полягає не в тому, що це особливо інноваційно, оскільки воно будується на попередніх роботах у сфері загальної синтезу зображень та розробки сцен доповненої реальності. Радше, можливий прорив представлений тим, як серйозні місцеві обчислювальні обмеження поєдналися з інноваціями Apple у сфері апаратного забезпечення машинного навчання, щоб створити легке, низьколатентне картування HDR, призначене для роботи під обмеженими ресурсами.
Якщо цю проблему можна вирішити економічно, підхід до семантичної сегментації > фотореалістичного синтезу відео може стати значним кроком вперед.
Джерело: https://docs-assets.developer.apple.com/












