Umělá inteligence

Vytvoření neuronového vyhledávání a záchranných prolétávacích prostředí s Mega-NeRF

Publikováno 21. prosince 2021

Aktualizováno 24. května 2026

Martin Anderson

Nová výzkumná spolupráce mezi Carnegie Mellon a autonomní jízdní technologií společnosti Argo AI vyvinula ekonomickou metodu pro generování dynamických prolétávacích prostředí založených na Neuronových Radiance Fields (NeRF), pomocí záběrů pořízených drony.

"Mega-NeRF

Nový přístup, nazvaný Mega-NeRF, dosahuje 40násobného urychlení ve srovnání se standardním renderováním Neuronových Radiance Fields, a nabízí něco pozoruhodně odlišného od standardních tanků a chrámů, které se opakují v nových NeRF dokumentech.

Nový dokument se jmenuje Mega-NeRF: Škálovatelná konstrukce velkých NeRF pro virtuální prolétání a pochází od tří výzkumníků z Carnegie Mellon, jeden z nich také zastupuje Argo AI.

Modelování NeRF krajiny pro vyhledávání a záchranu

Autoři se domnívají, že vyhledávání a záchrana (SAR) je pravděpodobně optimálním použitím jejich techniky. Při vyhledávání SAR krajiny jsou drony目前 omezeny jak šířkou pásma, tak omezeními bateriového života, a nejsou proto obvykle schopny získat podrobné nebo komplexní pokrytí, než musí vrátit do základny, v níž je jejich nasbíraná data převedena na statické 2D letecké mapy.

Autoři uvádějí:

‘Představujeme si budoucnost, v níž neuronové vykreslování zvedne tuto analýzu do 3D, umožňující týmům reagovat prohlížet pole, jako by létali dronem v reálném čase na úrovni detailu daleko za tím, co je dosažitelné pomocí klasické struktury z pohybu (SfM).’

Zadání tohoto případu použití, autoři se snažili vytvořit komplexní NeRF-založený model, který lze trénovat během jednoho dne, s ohledem na to, že délka života přeživších ve vyhledávacích a záchranných operacích se snižuje o až 80 % během prvních 24 hodin.

Autoři poznamenávají, že datové sady pro zachycení dronů nezbytné pro trénink modelu Mega-NeRF jsou “řádově větší” než standardní datová sada pro NeRF, a že kapacita modelu musí být podstatně vyšší než ve výchozím odvětví nebo odvozenině NeRF. Kromě toho je interaktivita a prozkoumatelnost nezbytná v mapě vyhledávací a záchranné krajiny, zatímco standardní vykreslování NeRF v reálném čase předpokládá mnohem omezenější rozsah předem vypočtených možných pohybů.

Divide and Conquer

Pro řešení těchto problémů autoři vytvořili geometrický clusterovací algoritmus, který rozdělí úkol na submoduly, a efektivní vytváří matici sub-NeRF, které jsou trénovány současně.

V době vykreslování autoři také implementují just-in-time vizualizační algoritmus, který je dostatečně rychlý, aby umožnil plnou interaktivitu bez nadměrného předzpracování, podobně jako videohry, které zvyšují detaily objektů, jak se přiblíží uživatelskému pohledu, ale které zůstávají na úsporné a více základní úrovni, když jsou vzdáleny.

Tito ekonomové, autoři tvrdí, vedou k lepšímu detailu než předchozí metody, které se snaží řešit velmi široké předměty v interaktivním kontextu. Pokud jde o extrapolaci detailů z omezeného rozlišení videa, autoři také poznamenávají vizuální zlepšení Mega-NeRF oproti ekvivalentní funkčnosti v UC Berkeley’s PlenOctrees.

Projekt používá řetězové sub-NeRF, které jsou založeny na reálném vykreslování KiloNeRF, autoři uznávají. Nicméně Mega-NeRF se odchyluje od tohoto přístupu tím, že skutečně provádí “sharding” (diskrétní směrování aspektů scény) během tréninku, spíše než KiloNeRF’s post-processing přístup, který vezme již vypočtenou NeRF scénu a následně transformuje ji na prozkoumatelný prostor.

Diskrétní trénovací sada je vytvořena pro submoduly, skládající se z trénovacích obrazových pixelů, jejichž dráha může pokrývat buňku, kterou reprezentuje. V důsledku toho je každý modul trénován zcela samostatně od sousedních buněk. Zdroj: https://arxiv.org/pdf/2112.10703.pdf

Autoři charakterizují Mega-NeRF jako ‘přeformulaci NeRF architektury, která zhušťuje vrstevné spoje ve spatially-aware způsobem, umožňující zlepšení efektivity při tréninku a vykreslování’.

Konceptuální srovnání tréninku a datové diskrétnosti v NeRF, NeRF++ a Mega-NeRF. Zdroj: https://meganerf.cmusatyalab.org/

Autoři tvrdí, že použití Mega-NeRF novými temporálními koherenčními strategiemi eliminuje potřebu nadměrného předzpracování, překonává vnitřní limity na škále a dosahuje vyšší úrovně detailu než předchozí podobné práce, bez obětování interaktivity nebo nutnosti více dnů tréninku.

Výzkumníci také zpřístupňují velké datové sady obsahující tisíce high-definition obrázků získaných z dronového footage pořízeného nad 100 000 metrů čtverečních půdy kolem průmyslového komplexu. Dvě dostupné datové sady jsou ‘Budova’ a ‘Suti’.

Vylepšení předchozích prací

Dokument poznamenává, že předchozí úsilí v podobném směru, včetně SneRG, PlenOctree a FastNeRF, všechny spoléhají na some kind of caching nebo předzpracování, které přidávají výpočetní a / nebo časové režie, které jsou nevhodné pro tvorbu virtuálních vyhledávacích a záchranných prostředí.

Zatímco KiloNeRF odvozuje sub-NeRF z existující kolekce multilayer perceptronů (MLP), je architektonicky omezena na interiérové scény s omezenou extensibilitou nebo kapacitou pro řešení vyšších škál prostředí. FastNeRF, mezitím, ukládá “baked”, pre-vypočtenou verzi NeRF modelu do specializované datové struktury a umožňuje uživateli procházet jí prostřednictvím specializovaného MLP, nebo prostřednictvím sférické báze výpočtu.

V scénáři KiloNeRF je maximální rozlišení každé facety scény již vypočteno, a žádná vyšší rozlišení nebude k dispozici, pokud uživatel rozhodne “zoomovat”.

Naproti tomu NeRF++ může nativně zpracovat neomezená, exteriérové prostředí rozdělením potenciálního prozkoumatelného prostoru na přední a zadní oblasti, z nichž každá je dohlížena specializovaným MLP modelem, který provádí ray-casting před finální kompozicí.

Nakonec NeRF v divočině, který se nezabývá přímo neomezenými prostory, nicméně zlepšuje kvalitu obrazu v Phototourism dataset, a jeho vzhledové vložky byly následovány v architektuře pro Mega-NeRF.

Autoři také uznávají, že Mega-NeRF je inspirován projekty Structure-from-Motion (SfM), zejména projektem Building Rome in a Day na Washingtonské univerzitě.

Temporální koherence

Podobně jako PlenOctree, Mega-NeRF předem počítá hrubou cache barev a opacity v oblasti aktuálního uživatelského zaměření. Nicméně, namísto výpočtu cest každý čas, které jsou v blízkosti vypočtené cesty, jako PlenOctree, Mega-NeRF “šetří” a znovu využívá tuto informaci rozdělením vypočteného stromu, následujícím rostoucím trendem k oddělení NeRF’s těsně vázaného zpracování etikety.

Vlevo, PlenOctree’s single-use výpočet. Střed, Mega-NeRF’s dynamické rozšíření octree, relativně k aktuální pozici prolétání. Pravá, octree je znovu využita pro následné navigace.

Tato ekonomie výpočtu, podle autorů, výrazně snižuje výpočetní zátěž pomocí lokální cache, spíše než odhadu a caching všech předem, podle nedávné praxe.

Vedeno vzorkování

Po počátečním vzorkování, v souladu se standardními modely do dneška, Mega-NeRF provede druhé kolo řízeného ray-vzorkování po octree rafinaci, aby zlepšil kvalitu obrazu. Pro toto Mega-NeRF používá pouze jeden průchod založený na existujících váhách v octree datové struktuře.

Jak je vidět na obrázku výše, ze nového dokumentu, standardní vzorkování plýtvá výpočetními zdroji vyhodnocením nadměrného množství cílové oblasti, zatímco Mega-NeRF omezuje výpočty na základě znalosti, kde je geometrie přítomna, omezující výpočty nad předem stanovenou hranicí.

Data a trénování

Výzkumníci otestovali Mega-NeRF na různých datech, včetně dvou výše zmíněných, ručně vytvořených sad pořízených z dronového footage nad průmyslovou půdou. První datová sada, Mill 19 – Budova, obsahuje záběry pořízené na ploše 500 x 250 metrů čtverečních. Druhá, Mill 19 – Suti, reprezentuje podobné záběry pořízené nad sousedním staveništěm, na kterém výzkumníci umístili figuríny představující potenciální přeživší ve vyhledávací a záchranné scénáři.

Z dodatkového materiálu dokumentu: Vlevo, kvadranty, které mají být pokryty Parrot Anafi dronem (zobrazeným uprostřed a v dálce na pravé fotografii).

Kromě toho byla architektura testována proti několika scénám z UrbanScene3D, z Visual Computing Research Center na Shenzhen University v Číně, který se skládá z HD dronového footage velkých městských prostředí; a Quad 6k dataset, z IU Computer Vision Lab na Indiana University.

Trénování probíhalo na 8 submodulech, každý s 8 vrstvami 256 skrytých jednotek, a následujícím 128 kanálem ReLU vrstvou. Na rozdíl od NeRF, stejný MLP byl použit pro dotazování hrubých a rafinovaných vzorků, snižující celkovou velikost modelu a umožňující opětovné použití hrubých síťových výstupů v následujícím vykreslovacím stadiu. Autoři odhadují, že toto šetří 25 % modelových dotazů pro každý paprsek.

1024 paprsků bylo vzorkováno na batch pod Adam na počáteční learn rate 5×10⁴, klesající na 5×10^-5. Vzhledové vložky byly zpracovány stejným způsobem jako výše zmíněný NeRF v divočině. Smíšené přesné vzorkování (trénování na nižší přesnosti než 32-bitový plovoucí bod) bylo použito, a šířka MLP byla pevně stanovena na 2048 skrytých jednotek.

Testování a výsledky

Ve testech výzkumníků Mega-NeRF robustně překonal NeRF, NeRF++ a DeepView po tréninku 500 000 iterací napříč výše zmíněnými datovými sadami. Jelikož je cílová scéna Mega-NeRF časově omezená, výzkumníci umožnili pomalejším předchozím rámcům extra čas za 24hodinový limit, a hlásí, že Mega-NeRF stále překonal je, i přes tyto výhody.

Metriky, které byly použity, byly Peak signál-šumový poměr (PSNR), VGG verze LPIPS, a SSIM. Trénování probíhalo na jednom stroji vybaveném osmi V100 GPU – efektivní, na 256GB VRAM, a 5120 Tensor jádrech.

Ukázka výsledků z experimentů Mega-NeRF (viz dokument pro více prodloužených výsledků napříč všemi rámci a datovými sadami) ukazuje, že PlenOctree způsobuje pozoruhodnou voxelizaci, zatímco KiloNeRF produkuje artefakty a obecně více rozmazané výsledky.

Stránka projektu je na https://meganerf.cmusatyalab.org/, a uvolněný kód je na https://github.com/cmusatyalab/mega-nerf.

Poprvé publikováno 21. prosince 2021.