Andersons vinkel

Skapande av Neurala Sök- och Räddningsmiljöer med Mega-NeRF

Publicerad 21 december 2021

Uppdaterad 24 maj 2026

Martin Anderson

En ny forskningssamarbete mellan Carnegie Mellon och den autonoma fordons-teknologiföretaget Argo AI har utvecklat en ekonomisk metod för att generera dynamiska flyg-genom-miljöer baserade på Neurala Strålningsfält (NeRF), med hjälp av footage som fångats av drönare.

"Mega-NeRF

Den nya metoden, som kallas Mega-NeRF, uppnår en 40-gånger snabbare rendering jämfört med den genomsnittliga NeRF-renderingsstandarden, samt erbjuder något som är väsentligt annorlunda än den standard som återkommer i nya NeRF-papper.

Den nya artikeln heter Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly-Throughs, och kommer från tre forskare vid Carnegie Mellon, varav en också representerar Argo AI.

Modellering av NeRF-Landskap för Sök och Räddning

Författarna anser att sök- och räddningsinsatser (SAR) är en trolig optimal användningsfall för deras teknik. När man utvärderar ett SAR-landskap är drönare för närvarande begränsade av bandbredd och batteritidsbegränsningar, och kan därför inte vanligtvis få detaljerad eller omfattande täckning innan de måste återvända till basen, vid vilken punkt den insamlade datan konverteras till statiska 2D-luftfartskartor.

Författarna påstår:

‘Vi föreställer oss en framtid där neural rendering lyfter denna analys till 3D, vilket möjliggör för insatsgrupper att inspektera fältet som om de flög en drönare i realtid på en detaljnivå som vida överträffar det som kan uppnås med klassisk Structure-from-Motion (SfM).’

Uppdraget att skapa en komplex NeRF-baserad modell som kan tränas inom en dag, eftersom livslängden för överlevande i sök- och räddningsinsatser minskar med upp till 80% under de första 24 timmarna.

Författarna noterar att drönarkapturdatamängderna som krävs för att träna en Mega-NeRF-modell är “flera storleksordningar” större än en standarddatamängd för NeRF, och att modellkapaciteten måste vara betydligt högre än i en standardgren eller derivat av NeRF. Dessutom är interaktivitet och utforskbarhet avgörande i en sök- och räddningsterrängkarta, medan standardreal-tids-NeRF-rendering förväntar sig ett mycket mer begränsat område av förberäknade möjliga rörelser.

Del och Härska

För att hantera dessa problem skapade författarna en geometrisk klusteringsalgoritm som delar upp uppgiften i undermoduler, och effektivt skapar en matris av under-NeRF som tränas samtidigt.

Vid renderingtillfället implementerar författarna också en just-in-time-visualiseringsalgoritm som är tillräckligt responsiv för att möjliggöra full interaktivitet utan överdriven förbearbetning, liknande sättet som videospel kommer att öka detaljnivån på objekt när de närmar sig användarens vy, men som förblir på en energibesparande och mer rudimentär skala när de är på avstånd.

Dessa ekonomier, hävdar författarna, leder till bättre detaljer än tidigare metoder som försöker hantera mycket breda ämnesområden i en interaktiv kontext. När det gäller att extrapolera detaljer från begränsad upplösning video-footage noterar författarna också Mega-NeRF:s visuella förbättring jämfört med den motsvarande funktionen i UC Berkeley’s PlenOctrees.

Projektets användning av kedjade under-NeRF baseras på KiloNeRF:s real-tids-renderingsförmåga, erkänner författarna. Men Mega-NeRF avviker från denna metod genom att faktiskt utföra “sharding” (diskret omkoppling av scenernas aspekter) under träningsprocessen, snarare än KiloNeRF:s efterbearbetningsmetod, som tar en redan beräknad NeRF-scen och transformerar den till ett utforskbar rum.

En diskret träningsmängd skapas för undermoduler, bestående av träningsbildpixlar vars bana kan omfatta cellen som den representerar. Följaktligen tränas varje modul helt separat från intilliggande celler. Källa: https://arxiv.org/pdf/2112.10703.pdf

Författarna karakteriserar Mega-NeRF som ‘en reformulering av NeRF-arkitekturen som sparsifierar lageranslutningar på ett rumsligt medvetet sätt, vilket möjliggör effektivitetsförbättringar under tränings- och renderingtiden’.

Konceptuell jämförelse av tränings- och data-diskretisering i NeRF, NeRF++, och Mega-NeRF. Källa: https://meganerf.cmusatyalab.org/

Författarna hävdar att Mega-NeRF:s användning av nya tidskoherensstrategier undviker behovet av överdriven förbearbetning, övervinner intrinsiska begränsningar för skala, och uppnår en högre detaljnivå än tidigare liknande arbeten, utan att offra interaktivitet eller kräva flera dagars träningsprocess.

Forskarna tillhandahåller också storskaliga datamängder som innehåller tusentals högupplösta bilder som erhållits från drönarfilmade sekvenser över 100 000 kvadratmeter mark runt ett industriområde. De två tillgängliga datamängderna är ‘Byggnad’ och ‘Rubble’.

Förbättring av Tidigare Arbeten

Artikeln noterar att tidigare insatser i en liknande riktning, inklusive SneRG, PlenOctree och FastNeRF, alla förlitar sig på någon form av cachelagring eller förbearbetning som lägger till beräknings- och/eller tidsöverhuvuden som är olämpliga för skapandet av virtuella sök- och räddningsmiljöer.

Medan KiloNeRF härleder under-NeRF från en befintlig samling multilagerperceptron (MLP), är det arkitektoniskt begränsat till inomhusscener med begränsad utvidgbarhet eller kapacitet att hantera högre skala-miljöer. FastNeRF lagrar en “bakad”, förberäknad version av NeRF-modellen i en dedikerad datastruktur och tillåter slutanvändaren att navigera genom den via en dedikerad MLP eller genom sfärisk basisberäkning.

I KiloNeRF-scenariot är den maximala upplösningen för varje fas i scenen redan beräknad, och ingen högre upplösning kommer att bli tillgänglig om användaren bestämmer sig för att “zooma in”.

Till skillnad från detta kan NeRF++ hantera obegränsade, yttre miljöer genom att dela upp det potentiella utforskbara utrymmet i förgrunds- och bakgrundsområden, var och en som övervakas av en dedikerad MLP-modell, som utför strålkastning före slutlig komposition.

Slutligen, NeRF i Vildmarken, som inte direkt hanterar obegränsade utrymmen, förbättrar ändå bildkvaliteten i Phototourism-dataset, och dess utseendebäddningar har följts i arkitekturen för Mega-NeRF.

Författarna medger också att Mega-NeRF inspirerats av Structure-from-Motion (SfM)-projekt, särskilt Washington Universitys Bygga Rom på en Dag-projekt.

Tidskoherens

Liksom PlenOctree förberäknar Mega-NeRF en grov cache av färg och opacitet i området kring den aktuella användarpositionen. Men istället för att beräkna banor varje gång som ligger i närheten av den beräknade banan, som PlenOctree gör, “spara” och återanvänder Mega-NeRF denna information genom att underindela den beräknade trädet, följande en växande trend att lösgöra NeRF:s tätt bundna bearbetningsetikett.

Till vänster, PlenOctrees enkelanvändningsberäkning. Mitten, Mega-NeRF:s dynamiska utvidgning av oktet, relativt den aktuella positionen för flyggenom. Höger, oktetet återanvänds för efterföljande navigation.

Denna beräkningsekonomi, enligt författarna, minskar betydligt beräkningsbördan genom att använda lokala cache-beräkningar istället för att uppskatta och cachelagra dem alla på förhand, enligt senaste praxis.

Guidad Sampling

Efter den första samplingen, i enlighet med standardmodeller hittills, genomför Mega-NeRF en andra omgång av guidad ray-sampling efter oktet-refinering, för att förbättra bildkvaliteten. För detta använder Mega-NeRF endast en enda passage baserad på de befintliga viktorna i oktet-datastrukturen.

Som kan ses i bilden ovan, från den nya artikeln, slösar standard-sampling beräkningsresurser genom att utvärdera ett överdrivet antal av målområdet, medan Mega-NeRF begränsar beräkningarna baserat på kunskap om var geometri finns, och stryper beräkningar ovanför en förinställd tröskel.

Data och Träningsprocess

Forskarna testade Mega-NeRF på olika datamängder, inklusive de två ovan nämnda, handgjorda datamängderna som tagits från drönarfilmade sekvenser över industriell mark. Den första datamängden, Mill 19 – Byggnad, innehåller filmade sekvenser som tagits över ett område på 500 x 250 kvadratmeter. Den andra, Mill 19 – Rivningsmassor, representerar liknande filmade sekvenser som tagits över en intilliggande byggarbetsplats, där forskarna placerade dockor som representerar potentiella överlevande i en sök- och räddningssituation.

Från artikeln tillhörande material: Vänster, kvadraterna som ska täckas av Parrot Anafi-drönaren (avbildad i mitten, och på avstånd i den högra bilden).

Dessutom testades arkitekturen mot flera scener från UrbanScene3D, från Visual Computing Research Center vid Shenzhen University i Kina, som består av HD-drönarfilmade sekvenser av stora urbana miljöer; och Quad 6k-dataset, från Indiana Universitys IU Computer Vision Lab.

Träningsprocessen ägde rum över 8 undermoduler, var och en med 8 lager av 256 dolda enheter, och ett efterföljande 128-kanals ReLU-lager. Till skillnad från NeRF användes samma MLP för att fråga grova och raffinerade prover, vilket minskade den totala modellstorleken och tillät återanvändning av grova nätverksutdata vid efterföljande renderingssteg. Författarna uppskattar att detta sparar 25% av modellfrågor för varje stråle.

1024 strålar sampades per batch under Adam med en startlärningshastighet på 5×10⁴, som avtog till 5×10^-5. Utseendebäddningarna hanterades på samma sätt som den ovan nämnda NeRF i Vildmarken. Blandad precisionsampling (träningsprocess med lägre precision än 32-bitars flyttal) användes, och MLP-bredden fastställdes till 2048 dolda enheter.

Testning och Resultat

I forskarnas tester kunde Mega-NeRF robustt överträffa NeRF, NeRF++ och DeepView efter träningsprocess på 500 000 iterationer över de ovan nämnda datamängderna. Eftersom Mega-NeRF-målsituationen är tidsbegränsad, tillät forskarna de långsammare tidigare ramverken extra tid utöver den 24-timmarsgränsen, och rapporterar att Mega-NeRF fortfarande överträffade dem, även med dessa fördelar.

Mätetalen som användes var Peak signal-brusförhållande (PSNR), VGG-versionen av LPIPS, och SSIM. Träningsprocessen ägde rum på en enda maskin utrustad med åtta V100-GPU:er – effektivt, på 256 GB VRAM, och 5120 Tensor-kärnor.

Exempelresultat från Mega-NeRF-experimenten (se artikeln för mer utvidgade resultat över alla ramverk och datamängder) visar att PlenOctree orsakar märkbar voxelisering, medan KiloNeRF producerar artefakter och generellt mer suddiga resultat.

Projektsidan finns på https://meganerf.cmusatyalab.org/, och den släppta koden finns på https://github.com/cmusatyalab/mega-nerf.

Publicerad första gången den 21 december 2021.