Штучний Інтелект

Чи можуть середовища доповненої реальності HDR від Apple вирішувати відображення для нейронного рендерингу?

оновлений on 9 Грудня, 2022

Енергійні, довгострокові інвестиції Apple у технології доповненої реальності прискорюються цього року з новим набором інструментів розробника для захоплення та конвертування об’єкти реального світу в аспекти AR, і a зростаюче переконання промисловості що спеціалізовані окуляри AR приходять, щоб підтримати захоплюючі враження, які може забезпечити ця хуртовина досліджень і розробок.

Серед нової інформації про зусилля Apple у сфері доповненої реальності, a новий папір з дослідницького відділу комп’ютерного зору компанії розкриває метод використання 360-градусних панорамних зображень із широким динамічним діапазоном (HDR) для забезпечення відображення та освітлення конкретних сцен для об’єктів, які накладаються на сцени доповненої реальності.

озаглавлений Оцінка карти середовища HDR для доповненої реальності в реальному часіДоповідь інженера-дослідника Apple Computer Vision Гоурі Соманата та старшого менеджера з машинного навчання Деніела Курца пропонує динамічне створення HDR-середовища в реальному часі за допомогою згорткової нейронної мережі (CNN), що працює в мобільному середовищі обробки. Результатом є те, що світловідбиваючі об’єкти можуть буквально відображати нові, невидимі середовища на вимогу:

У новому робочому процесі генерації об’єктів доповненої реальності від Apple скороварка створюється за допомогою фотограмметрії разом із навколишнім середовищем, що призводить до переконливих відображень, які не «запікаються» в текстурі. Джерело: https://docs-assets.developer.apple.com/

У новому робочому процесі генерації об’єктів AR від Apple скороварка створюється за допомогою фотограмметрії разом із навколишнім середовищем, що призводить до переконливих відображень, які не «запікаються» в текстурі. Джерело: https://docs-assets.developer.apple.com/

Метод, який дебютував на CVPR 2021, робить знімок усієї сцени та використовує EnvMapNet CNN оцінить візуально повне панорамне HDR-зображення, також відоме як «світловий зонд».

Отримана карта визначає джерела сильного світла (позначені в кінці наведеної вище анімації) і враховує їх під час візуалізації віртуальних об’єктів.

Архітектура EnvMapNet, яка обробляє обмежені зображення в повносценні світлові зонди HDR. Джерело: https://arxiv.org/pdf/2011.10687.pdf

Алгоритм може працювати менше ніж за 9 мс на iPhone XS і здатний рендерити об’єкти з відображенням у реальному часі зі зниженою похибкою спрямованості на 50% порівняно з попередніми та різними підходами до проблеми.

Світлові зонди

Середовища освітлення HDR були фактором візуальних ефектів, оскільки зображення з високим динамічним діапазоном (винайдені в 1986 році) стали помітною силою завдяки прогресу комп’ютерних технологій у 1990-х роках. Будь-хто, хто дивився закулісні кадри, міг помітити сюрреалістичну присутність на знімальному майданчику техніків, які тримають дзеркальні кулі на палицях – еталонні зображення, які слід використовувати як фактори середовища під час реконструкції елементів CGI для сцени.

Джерело: https://beforesandafters.com/

Однак, використовуючи хромовані кульки для відображення відображення Текстури передували 1990-м, повертаючись до паперу SIGGRAPH 1983 року Пірамідальні параметри, який містив нерухомі зображення рефлексивного робота CGI у стилі, який стане відомим майже через десять років завдяки ефектам «рідкого металу» Джеймса Кемерона Термінатор 2: Судний день.

Середовища HDR у нейронному рендерингу?

Нейронний рендеринг дає можливість генерувати фотореалістичне відео з дуже розріджених вхідних даних, включаючи карти грубої сегментації.

Сегментація Intel ISL>нейронний рендеринг зображень (2017). Джерело: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

У травні дослідники Intel виявлено нова ініціатива в нейронному синтезі зображень, де кадри з Grand Theft Auto V використовувалися для створення фотореалістичного результату на основі наборів даних зображень німецьких вулиць.

Джерело: https://www.youtube.com/watch?v=0fhUJT21-bs

Проблема розробки середовищ нейронного рендерингу, які можна адаптувати до різних умов освітлення, полягає в тому, щоб відокремити вміст об’єкта від факторів середовища, які на нього впливають.

У поточному стані відображення й анізотропні ефекти залишаються функціями вихідного кадру набору даних (що робить їх негнучкими) або вимагають того самого типу схеми, яку використовували дослідники Intel, яка генерує напівфотореалістичний вихід із грубого (ігрового) двигуна, виконує його сегментацію, а потім застосовує передачу стилю з «запеченого» набору даних (наприклад, німецький набір вулиць Mapillary, який використовувався в нещодавньому дослідженні).

У цьому нейронному візуалізації (кадри GTA V ліворуч) автомобіль попереду демонструє переконливі відблиски і навіть насичує датчик фіктивної віртуальної камери відблисками від сонця. Але цей аспект освітлення походить від оригінальних кадрів гри, оскільки нейронні аспекти в сцені не мають автономних і самовідповідних структур освітлення, які можна змінити.

У цьому нейронному рендерингу, отриманому з кадрів GTA V (ліворуч), транспортний засіб попереду демонструє переконливі відблиски та навіть насичує датчик фіктивної віртуальної камери відблисками сонця. Але цей аспект освітлення походить від механізму освітлення оригінального кадру гри, оскільки нейронні аспекти сцени не мають автономних і самовідповідних структур освітлення, які можна змінити.

Відображення в NeRF

Зображення, отримані з Нейронні поля випромінювання (NeRF) так само оскаржується. Хоча нещодавні дослідження NeRF досягли успіхів у відокремленні елементів, які створюють нейронну сцену (наприклад, MIT/Google співпраця з NeRFactor), роздуми залишилися перешкодою.

Підхід MIT і Google NeRFactor розділяє нормалі, видимість (тіні), текстуру та локальне альбедо, але він не відображає середовище, оскільки воно існує у вакуумі. Джерело: https://arxiv.org/pdf/2106.01970.pdf

Підхід MIT і Google NeRFactor відокремлює нормалі, видимість (тіні), текстуру та локальне альбедо, але він не відображає ширшого (або рухомого) середовища, оскільки воно фактично існує у вакуумі. Джерело: https://arxiv.org/pdf/2106.01970.pdf

NeRF може вирішити цю проблему за допомогою такого ж відображення HDR, яке використовує Apple. Кожен піксель у полі нейронного випромінювання обчислюється на траєкторії від віртуальної камери до точки, де «промінь» не може рухатися далі, подібно до трасування променів у традиційній CGI. Додавання вхідних даних HDR до обчислення цього променя є потенційним методом досягнення справжнього відбиття навколишнього середовища, і фактично є аналогом методів «глобального освітлення» або радіовипромінювання CGI, коли сцена чи об’єкт частково освітлюються власними відображеннями. навколишнє середовище.

Хоча гарантовано, що матриця HDR нічого не полегшить відчутне обчислювальне навантаження NeRF, багато дослідження у цій галузі на даний момент зосереджується на розгляді цього аспекту конвеєра обробки. Неминуче відбиття є одним із багатьох факторів, які чекають свого часу, щоб знову заповнити та кинути виклик цій нещодавно оптимізованій архітектурі. Однак NeRF не може повністю реалізувати свій потенціал як методології синтезу дискретних нейронних зображень і відео без прийняття способу врахування навколишнього середовища.

Відображення в конвеєрах нейронного рендерингу

У передбачуваній версії сценарію нейронної візуалізації Intel GTA V із підтримкою HDR один HDR не міг вмістити динамічні відображення, які повинні бути виражені в рухомих об’єктах. Наприклад, щоб побачити відображення власного транспортного засобу в транспортному засобі, що їде попереду, коли він під’їжджає до ліхтарів, об’єкт переднього транспортного засобу може мати власний анімований світловий зонд HDR, роздільна здатність якого поступово знижуватиметься, коли він віддалятиметься від кінця. точки зору користувача, щоб стати низькою роздільною здатністю та просто репрезентативним, коли він віддаляється на відстань – LOD на основі близькості, подібний до розділювачів «відстань малювання» у відеоіграх.

Справжній потенціал роботи Apple над освітленням і картами відображення HDR полягає не в тому, що вона є особливо інноваційною, оскільки вона базується на попередній роботі щодо загального синтезу зображень і Розробка сцени AR. Швидше, можливий прорив представлений тим, як суворі локальні обчислювальні обмеження поєдналися з апаратними інноваціями машинного навчання серії Apple M для створення легкого HDR-карти з низькою затримкою, розробленого для роботи в умовах обмежених ресурсів.

Якщо цю проблему можна вирішити економічно, поява семантичної сегментації > фотореалістичного відеосинтезу може стати значним кроком ближче.

Джерело: https://docs-assets.developer.apple.com/

Вгору Далі

Алгоритм забезпечує візуальну навігацію відносно місцевості в автономних транспортних засобах

Не пропустіть

Підтримку Python додано до бібліотеки NeoML з відкритим вихідним кодом ABBYY

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai