заглушки Створення нейронних пошукових і рятувальних середовищ Fly-Through за допомогою Mega-NeRF - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Створення нейронних пошукових і рятувальних середовищ Fly-Through за допомогою Mega-NeRF

mm
оновлений on

Нова дослідницька співпраця між Carnegie Mellon і компанією з технологій автономного водіння Argo AI розробила економічний метод створення динамічних середовищ на основі полів нейронного випромінювання (Neural Radiance Fields (NeRF)), використовуючи кадри, зняті дронами.

Mega-NeRF пропонує інтерактивні обльоти на основі записів дронів із LOD на вимогу. Джерело: Mega-NeRF-Full - Rubble Flythrough. Щоб дізнатися більше (з кращою роздільною здатністю), перегляньте відео, вбудоване в кінці цієї статті. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF пропонує інтерактивні обльоти на основі записів дронів із LOD на вимогу. Щоб дізнатися більше (з кращою роздільною здатністю), перегляньте відео, вбудоване в кінці цієї статті. джерело: Mega-NeRF-Full – Rubble Flythrough  – https://www.youtube.com/watch?v=t_xfRmZtR7k

Новий підхід під назвою Mega-NeRF забезпечує 40-кратне прискорення порівняно із середнім стандартом візуалізації Neural Radiance Fields, а також пропонує дещо помітно відмінне від стандарту танків і дужок які повторюються в нових документах NeRF.

Команда новий папір має титул Mega-NeRF: масштабована конструкція великомасштабних NeRF для віртуальних прольотів, і походить від трьох дослідників з Carnegie Mellon, один з яких також представляє Argo AI.

Моделювання ландшафту NeRF для пошуку та рятування

Автори вважають, що пошук і порятунок (SAR) є ймовірним оптимальним варіантом використання їх техніки. Під час оцінки ландшафту SAR безпілотники наразі обмежені як пропускною спроможністю, так і терміном служби батареї, і тому зазвичай не можуть отримати детальне чи всебічне покриття до повернення на базу, після чого їхні зібрані дані перероблений до статичних двовимірних карт з повітря.

Автори стверджують:

«Ми уявляємо майбутнє, в якому нейронна рендеринга перенесе цей аналіз у 3D, дозволяючи командам реагування перевіряти поле так, ніби вони керують безпілотником, у режимі реального часу з рівнем деталізації, що значно перевищує досяжний за допомогою класичної технології Structure-from-Motion ( SfM).'

Враховуючи цей сценарій використання, автори прагнули створити складну модель на основі NeRF, яку можна навчити протягом дня, враховуючи, що очікувана тривалість життя тих, хто вижив під час пошуково-рятувальних операцій, скорочується на 80% під час перші 24 години.

Автори зазначають, що набори даних захоплення дроном, необхідні для навчання моделі Mega-NeRF, на «порядки» більші, ніж стандартний набір даних для NeRF, і ця ємність моделі має бути значно вищою, ніж у форку за замовчуванням або похідній від NeRF. Крім того, інтерактивність і можливість дослідження є важливими для пошуково-рятувальної карти місцевості, тоді як стандартні візуалізації NeRF у реальному часі очікують набагато більш обмеженого діапазону попередньо розрахованих можливих рухів.

Розділяй і володарюй

Щоб вирішити ці проблеми, автори створили геометричний алгоритм кластеризації, який розділяє завдання на підмодулі та ефективно створює матрицю під-NeRF, які навчаються одночасно.

У момент візуалізації автори також реалізують алгоритм візуалізації «точно вчасно», який достатньо швидко реагує, щоб забезпечити повну інтерактивність без надмірної попередньої обробки, подібно до того, як відеоігри збільшують деталізацію елементів, коли вони наближаються до користувача. точки огляду, але які залишаються в енергозберігаючому та більш елементарному масштабі, коли знаходяться на відстані.

Автори стверджують, що ця економія веде до кращої деталізації, ніж попередні методи, які намагаються розглянути дуже широкі предметні області в інтерактивному контексті. З точки зору екстраполяції деталей із відеозйомки з обмеженою роздільною здатністю, автори також відзначають візуальне покращення Mega-NeRF порівняно з еквівалентною функціональністю в PlenOctrees UC Berkeley.

Використання в проекті ланцюжкових суб-NeRF базується на KiloNeRF можливості візуалізації в реальному часі, визнають автори. Однак Mega-NeRF відходить від цього підходу, фактично виконуючи «шардинг» (дискретне шунтування аспектів сцени) під час навчання, а не підхід до постобробки KiloNeRF, який бере вже розраховану сцену NeRF і згодом перетворює її на досліджувану. простір.

Для підмодулів створюється дискретний навчальний набір, що складається з навчальних пікселів зображення, траєкторія яких може охоплювати комірку, яку вони представляють. Отже, кожен модуль навчається абсолютно окремо від сусідніх комірок. Джерело: https://arxiv.org/pdf/2112.10703.pdf

Для субмодулів створюється дискретний навчальний набір, що складається з навчальних пікселів зображення, траєкторія яких може охоплювати комірку, яку вони представляють. Отже, кожен модуль навчається абсолютно окремо від сусідніх комірок. Джерело: https://arxiv.org/pdf/2112.10703.pdf

Автори характеризують Мега-НеРФ як «переформулювання архітектури NeRF, яка розріджує з’єднання рівнів просторово, сприяючи покращенню ефективності під час навчання та рендерингу».

Концептуальне порівняння навчання та дискретизації даних у NeRF, NeRF++ та Mega-NeRF. Джерело: https://meganerf.cmusatyalab.org/

Концептуальне порівняння навчання та дискретизації даних у NeRF, NeRF++і Мега-НеРФ. Джерело: https://meganerf.cmusatyalab.org/

Автори стверджують, що використання Mega-NeRF нових стратегій часової узгодженості дозволяє уникнути необхідності надмірної попередньої обробки, долає внутрішні обмеження масштабу та забезпечує вищий рівень деталізації, ніж у попередніх подібних роботах, без шкоди для інтерактивності чи необхідності багатоденного навчання .

Дослідники також надають доступ до великомасштабних наборів даних, що містять тисячі зображень високої чіткості, отриманих із зйомки дроном понад 100,000 XNUMX квадратних метрів землі навколо промислового комплексу. Два доступних набори даних є «Будівля» та щебінь.

Удосконалення попередньої роботи

Видання зазначає, що попередні зусилля в подібному руслі, в т.ч SneRG, PlenOctree та FastNeRF, усі покладаються на певне кешування або попередню обробку, що додає обчислювальні та/або накладні витрати часу, які не підходять для створення віртуальних середовищ пошуку та порятунку.

У той час як KiloNeRF отримує суб-NeRF з існуючої колекції багатошарових персептронів (MLP), він архітектурно обмежений внутрішніми сценами з обмеженою розширюваністю або здатністю звертатися до середовищ вищого масштабу. Тим часом FastNeRF зберігає «запечену», попередньо обчислену версію моделі NeRF у спеціальну структуру даних і дозволяє кінцевому користувачеві переміщатися по ній за допомогою спеціального MLP або за допомогою сферичних обчислень.

У сценарії KiloNeRF максимальна роздільна здатність кожного аспекту сцени вже розрахована, і більша роздільна здатність не стане доступною, якщо користувач вирішить «збільшити».

На відміну від, NeRF++ може нативно працювати з необмеженим зовнішнім середовищем, розділяючи потенційний досліджуваний простір на передній і фоновий регіони, кожен з яких контролюється спеціальною моделлю MLP, яка виконує кастинг променів перед остаточною композицією.

Нарешті, NeRF в дикій природі, який безпосередньо не стосується необмеженого простору, тим не менш покращує якість зображення в Набір даних фототуризму, і його зовнішній вигляд було використано в архітектурі Mega-NeRF.

Автори також визнають, що Mega-NeRF надихається проектами Structure-from-Motion (SfM), зокрема проектом Вашингтонського університету. Будівництво Риму за один день Проект.

Часова когерентність

Як і PlenOctree, Mega-NeRF попередньо обчислює приблизний кеш кольору та непрозорості в області поточного фокусу користувача. Однак замість обчислювальних шляхів кожного разу, які знаходяться поблизу обчисленого шляху, як це робить PlenOctree, Mega-NeRF «зберігає» та повторно використовує цю інформацію шляхом поділу обчисленого дерева, слідуючи зростаючій тенденції до роз’єднання тісно зв’язаного етикету обробки NeRF. .

Зліва одноразовий розрахунок PlenOctree. Посередині, динамічне розширення октодерева Mega-NeRF відносно поточної позиції прольоту. Правильно, октодерево повторно використовується для подальшої навігації.

Зліва одноразовий розрахунок PlenOctree. Посередині, динамічне розширення октодерева Mega-NeRF відносно поточної позиції прольоту. Правильно, октодерево повторно використовується для подальшої навігації.

Ця економія обчислень, на думку авторів, помітно зменшує навантаження на обробку завдяки використанню розрахунків на льоту як локального кешу, а не оцінки та кешування їх усіх упереджено, згідно з нещодавньою практикою.

Керований відбір проб

Після початкової вибірки, відповідно до стандартних моделей на сьогоднішній день, Mega-NeRF проводить другий раунд керованої вибірки променів після уточнення октодерева, щоб покращити якість зображення. Для цього Mega-NeRF використовує лише один прохід на основі існуючих ваг у структурі даних октодерева.

Як можна побачити на зображенні вище, із нової статті стандартне відбирання проб витрачає ресурси для обчислення, оцінюючи надмірну кількість цільової області, тоді як Mega-NeRF обмежує обчислення на основі знання про те, де присутня геометрія, регулюючи обчислення вище попереднього - встановити поріг.

Дані та навчання

Дослідники протестували Mega-NeRF на різних наборах даних, у тому числі на двох вищезазначених наборах, зроблених вручну, знятих із записів дронів над промисловою землею. Перший набір даних, Млин 19 – буд, містить кадри, зняті на площі 500 х 250 квадратних метрів. Другий, Млин 19 – Бутовий, представляє подібні кадри, зняті на сусідньому будівельному майданчику, на якому дослідники розмістили манекени, що представляють потенційних тих, хто вижив, у сценарії пошуку та порятунку.

З додаткових матеріалів до статті: ліворуч квадранти, які охоплюватиме безпілотник Parrot Anafi (у центрі зображення та вдалині на фото справа).

З додаткових матеріалів до статті: ліворуч квадранти, які будуть охоплені Дрон Parrot Anafi (на зображенні в центрі, а на фото справа віддалік).

Крім того, архітектуру було перевірено на кількох сценах із UrbanScene3D, від Науково-дослідного центру візуальних обчислень Шеньчженьського університету в Китаї, який складається з кадрів великих міст, знятих за допомогою дрона HD; і Набір даних Quad 6k, з лабораторії комп’ютерного зору Університету Індіани.

Навчання проходило через 8 підмодулів, кожен з яких мав 8 рівнів із 256 прихованих одиниць і наступний 128-канальний рівень ReLU. На відміну від NeRF, той самий MLP використовувався для запиту грубих і уточнених зразків, зменшуючи загальний розмір моделі та дозволяючи повторно використовувати грубі мережеві виходи на наступному етапі візуалізації. За оцінками авторів, це економить 25% запитів моделі для кожного променя.

Під Адамом було відібрано 1024 промені на партію з початковою швидкістю вивчення 5×104, розпадаючись до 5×10-5. Вбудовування зовнішнього вигляду було оброблено так само, як і вищезгадане NeRF в дикій природі. Вибірка змішаної точності (навчання з нижчою точністю, ніж 32-бітове число з плаваючою точкою), а ширина MLP була зафіксована на 2048 прихованих одиниць.

Тестування та результати

У тестах дослідників Mega-NeRF зміг значно перевершити NeRF, NeRF++ і DeepView після навчання для 500,000 24 ітерацій у вищезгаданих наборах даних. Оскільки цільовий сценарій Mega-NeRF обмежений у часі, дослідники дозволили повільнішим попереднім фреймворкам додатковий час понад XNUMX-годинний ліміт і повідомляють, що Mega-NeRF все одно перевершив їх, навіть враховуючи ці переваги.

Використаними показниками були пікове співвідношення сигнал/шум (PSNR) VGG версія LPIPS та SSIM. Навчання проходило на одній машині, оснащеній вісьмома графічними процесорами V100 – фактично, на 256 ГБ VRAM і 5120 ядрах Tensor.

Зразки результатів експериментів Mega-NeRF (перегляньте статтю для отримання більш розширених результатів для всіх фреймворків і наборів даних) показують, що PlenOctree спричиняє помітну вокселізацію, тоді як KiloNeRF створює артефакти та загалом більш розмиті результати.

Зразки результатів експериментів Mega-NeRF (перегляньте статтю для отримання більш розширених результатів для всіх фреймворків і наборів даних) показують, що PlenOctree спричиняє помітну вокселізацію, тоді як KiloNeRF створює артефакти та загалом більш розмиті результати.

Сторінка проекту знаходиться за адресою https://meganerf.cmusatyalab.org/, а опублікований код знаходиться на https://github.com/cmusatyalab/mega-nerf.

Вперше опубліковано 21 грудня 2021 року.