Andersonin kulma

Luo Neural Search and Rescue Fly-Through Environments with Mega-NeRF

Julkaistu 21. joulukuuta 2021

Päivitetty 24. toukokuuta 2026

Tekijä

Martin Anderson

Uusi tutkimusyhteistyö Carnegie Mellonin ja autonomisen ajoneuvoteknologian yritys Argo AI:n välillä on kehittänyt taloudellisen menetelmän dynaamisten fly-through-ympäristöjen luomiseksi, jotka perustuvat Neural Radiance Fields (NeRF) -tekniikkaan, käyttäen dronilla otettua kuvamateriaalia.

"Mega-NeRF

Uusi lähestymistapa, jota kutsutaan Mega-NeRF:ksi, saavuttaa 40-kertaisen nopeutuksen verrattuna keskimääräiseen Neural Radiance Fields -renderöintistandardiin, sekä tarjoaa jotain merkittävästi erilaista kuin standardi tanks and temples uusissa NeRF-tutkimuksissa.

The new paper is titled Mega-NeRF: Scalable Construction of Large-Scale NeRFs for Virtual Fly-Throughs, and comes from three researchers at Carnegie Mellon, one of whom also represents Argo AI.

NeRF-maastomallinnus etsintä- ja pelastustehtäviin

Tekijät katsovat, että etsintä- ja pelastustehtävät (SAR) ovat todennäköisesti optimaalinen käyttötapa heidän tekniikalleen. Kun arvioidaan SAR-maastoa, dronit ovat tällä hetkellä rajoitettuja sekä kaistanleveyden että akun kestoa koskien, eivätkä ne ole yleensä kykeneviä saamaan yksityiskohtaista tai kattavaa kattavuutta ennen kuin niiden on palattava tukikohtaan, jossa kerätty data muunnetaan staattisiksi 2D-ilmailukarttoiksi.

Tekijät toteavat:

‘Kuvittelemme tulevaisuuden, jossa neurorajapinnan renderöinti nostaa tämän analyysin 3D:hen, mahdollistaen vastausjoukkueiden tarkastella kenttää niin kuin he lensisivät dronella reaaliajassa yksityiskohtaisuuden tasolla, jota ei voida saavuttaa perinteisellä Structure-from-Motion (SfM) -menetelmällä.’

Tehtävänään on luoda monimutkainen NeRF-pohjainen malli, joka voidaan kouluttaa päivän kuluessa, koska selviytyjien elinikä etsintä- ja pelastustehtävissä vähenee jopa 80 % ensimmäisten 24 tunnin aikana.

Tekijät huomauttavat, että Mega-NeRF-mallin koulutukseen tarvittavat dronilla otetut kuvamateriaalit ovat “useita kertoja” suurempia kuin NeRF:n standardiaineisto, ja mallin kapasiteetin on oltava huomattavasti suurempi kuin oletusarvoisessa NeRF-forkissa tai johdannaisessa. Lisäksi interaktiivisuus ja tutkittavuus on olennainen osa etsintä- ja pelastusmaastokartassa, kun taas standardi reaaliaikaiset NeRF-renderöinnit odottavat paljon rajoitetumpaa liikkeen ennakoitavuutta.

Jakoa ja valloittamista

Näiden ongelmien ratkaisemiseksi tekijät loivat geometrisen klusterointialgoritmin, joka jakaa tehtävän alitehtäviin ja luo tehokkaasti matriisin alitehtävistä, jotka koulutetaan samanaikaisesti.

Kuvan renderöintivaiheessa tekijät toteuttavat myös just-in-time-visualisointialgoritmin, joka on riittävän nopea mahdollistaakseen täydellisen interaktiivisuuden ilman liiallista esikäsittelyä, samalla tavoin kuin videopelit lisäävät yksityiskohtaisuutta kohteisiin, kun ne lähestyvät käyttäjän näkökulmaa, mutta säilyttävät energiansäästön ja yksinkertaisemman asteikon, kun ne ovat etäällä.

Nämä taloudellisuudet, tekijät väittävät, johtavat parempaan yksityiskohtaisuuteen kuin aiemmat menetelmät, jotka yrittävät käsitellä erittäin laajoja aiheita interaktiivisessa kontekstissa. Mega-NeRF:n visuaalinen parannus vastaavan toiminnon UC Berkeleyn PlenOctreesissa on myös huomattava.

Hankkeen ketjutetut alitehtävät perustuvat KiloNeRF:n reaaliaikaisiin renderöintikapasiteetteihin, tekijät myöntävät. Mega-NeRF kuitenkin poikkeaa tästä lähestymistavasta tekemällä “shardingin” (diskreetin siirtymisen kohteen eri osiin) koulutuksen aikana, ei KiloNeRF:n jälkikäsittelylähestymistavalla, joka ottaa jo laskettujen NeRF-kohteen ja muuttaa sen tutkittavaksi tilaksi.

A discrete training set is created for submodules, comprised of training image pixels whose trajectory might span the cell that it represents. Consequently, each module is trained entirely separately from adjacent cells. Source: https://arxiv.org/pdf/2112.10703.pdf

Erillinen koulutusaineisto luodaan alitehtäville, joka koostuu koulutuskuva-pikseleistä, joiden polku voi ulottua soluun, jonka se edustaa. Seurauksena on, että kunkin moduulin koulutus tapahtuu täysin erillään naapurisoluista. Source: https://arxiv.org/pdf/2112.10703.pdf

Tekijät kuvaavat Mega-NeRF:ää ‘NeRF-arkkitehtuurin uudelleenmuotoiluna, joka harventaa kerrosten yhteyksiä tilalliseen tavalla, mahdollistaen tehokkuuden parantamisen koulutus- ja renderöintiaikana’.

Conceptual comparison of training and data discretization in NeRF, NeRF++, and Mega-NeRF. Source: https://meganerf.cmusatyalab.org/

Käsitteellinen vertailu NeRF-, NeRF++- ja Mega-NeRF-koulutuksen ja data-discretizationin välillä. Source: https://meganerf.cmusatyalab.org/

Tekijät väittävät, että Mega-NeRF:n uudet ajallisen koherenssin strategiat välttävät tarpeen liialliseen esikäsittelyyn, ylittävät sisäiset rajoitukset mittakaavassa ja toteuttavat ylemmän tason yksityiskohtaisuutta aiempiin vastaaviin töihin verrattuna, ilman interaktiivisuuden tai useiden päivien koulutuksen tarvetta.

Tutkijat tarjoavat myös suuren mittakaavan aineistoja, jotka sisältävät tuhansia korkearesoluutioisia kuvia, jotka on otettu dronilla yli 100 000 neliömetrin alueelta teollisuuskompleksin ympärillä. Kaksi saatavilla olevaa aineistoa ovat ‘Rakennus’ ja ‘Romehtinen’.

Parantaminen aiemmista töistä

Tutkimus huomauttaa, että aiemmat vastaavat työt, mukaan lukien SneRG, PlenOctree ja FastNeRF, kaikki nojaavat johonkin välimuistiin tai esikäsittelyyn, joka lisää laskentaa ja/tai aikaa, mikä ei sovellu virtuaalisten etsintä- ja pelastusympäristöjen luomiseen.

Vaikka KiloNeRF johtaa alitehtäviä olemassa olevasta monikerrosmallin kokoelmasta, se on arkkitehtonisesti rajoitettu sisätiloihin, joilla on rajoitettu laajennettavuus ja kapasiteetti suuremmille ympäristöille. FastNeRF tallentaa “paistetun”, esikäsitellyn version NeRF-mallista omistettuun data-rakenteeseen ja sallii loppukäyttäjän navigoida siinä omalla monikerrosmallilla tai sfäärisen perustan laskennan kautta.

KiloNeRF-skenaariossa kunkin kohteen maksimiresoluutio on jo laskettu, eikä suurempaa resoluutiota voida saavuttaa, jos käyttäjä päättää “lähentää”.

Sen sijaan NeRF++ voi käsitellä rajoittamattomia, ulkoisia ympäristöjä jakamalla mahdollisen tutkittavan tilan etualueen ja taustan alueisiin, joista kumpikin on valvottu omalla monikerrosmallilla, joka suorittaa säteenheitin ennen lopullista koostamista.

Lopulta NeRF in the Wild, joka ei suoraan osoita rajoittamattomia tiloja, parantaa kuitenkin kuvanlaatua Phototourism-aineistossa, ja sen ilmiasättelyt on seurattu Mega-NeRF-arkkitehtuurissa.

Tekijät myöntävät myös, että Mega-NeRF on inspiroitu Structure-from-Motion (SfM) -projekteista, erityisesti Washingtonin yliopiston Building Rome in a Day -projektista.

Ajallinen koherenssi

Kuten PlenOctree, Mega-NeRF laskee esikäteen karkean väri- ja peittävyyden välimuistin käyttäjän nykyisen keskittymisen alueella. Sen sijaan, että lasketaan polkuja kunkin laskettujen polkujen läheisyydessä, kuten PlenOctree tekee, Mega-NeRF “tallentaa” ja uudelleen käyttää tätä tietoa jakamalla laskettua puuta, seuraamalla kasvavaa trendiä erottaa NeRF:n tiiviisti sidotun prosessietiketin.

On the left, PlenOctree's single-use calculation. Middle, Mega-NeRF's dynamic expansion of the octree, relative to the current position of the fly-through. Right, the octree is reused for subsequent navigation.

Vasemmalla PlenOctreen yksinkertainen laskelma. Keskellä Mega-NeRF:n dynaaminen laajentuminen oktree-relatiivisesti lennättäjän nykyiseen sijaintiin. Oikealla oktree uudelleen käytetään myöhempään navigointiin.

Tämä laskelman taloudellisuus, tekijöiden mukaan, vähentää merkittävästi laskentakuormaa käyttämällä paikallista välimuistia, sen sijaan, että arvioi ja välimuisti kaikki etukäteen, kuten viimeaikaisessa käytännössä.

Ohjattu näytteenotto

Alkuvaiheen näytteenottokäynnin jälkeen, Mega-NeRF toteuttaa toisen kierroksen ohjattua säteitä näytteenottoa oktree-hienonnusta varten, jotta parantaa kuvanlaatua. Tässä Mega-NeRF käyttää vain yhtä kertaa olemassa olevien oktree-tietorakenteen painoja.

Kuten yllä olevasta kuvasta voidaan nähdä, standardi näytteenotto hävittää laskentaresursseja arvioimalla liiallisesti kohdealueen, kun taas Mega-NeRF rajoittaa laskelmat tiedon perusteella, missä geometria on läsnä, ja rajoittaa laskelmat ennalta määritetyn kynnyksen yläpuolella.

Data ja koulutus

Tutkijat testasivat Mega-NeRF:ää useilla aineistoilla, mukaan lukien kaksi aiemmin mainittua, käsin tehtyä aineistoa, jotka on otettu dronilla teollisuusmaasta. Ensimmäinen aineisto, Mill 19 – Rakennus, sisältää kuvamateriaalia, jota on otettu 500 x 250 neliömetrin alueelta. Toinen, Mill 19 – Romu, edustaa vastaavaa kuvamateriaalia, jota on otettu lähellä olevasta rakennusmaasta, jossa tutkijat asettivat nukkeja edustamaan potentiaalisia selviytyjiä etsintä- ja pelastustehtävissä.

From the paper's supplemental material: Left, the quadrants to be covered by the Parrot Anafi drone (pictured center, and in the distance in the right-hand photo).

Tutkimuksen lisäaineistosta: Vasemmalla, neljännes, jota Parrot Anafi -droni (keskellä ja oikeanpuoleisessa valokuvassa) on tarkoitus kattaa.

Lisäksi arkkitehtuuri testattiin useita kohtauksia UrbanScene3D:sta, Visual Computing Research Centeristä, Shenzhenin yliopistosta Kiinassa, joka koostuu HD-dronilla otetuista kuvista suurista urbaaneista ympäristöistä, sekä Quad 6k -aineistosta, IU Computer Vision Labista, Indianan yliopistosta.

Koulutus tapahtui 8 alimoduulissa, joista kussakin oli 8 kerrosta 256 piilotettua yksikköä ja seuraava 128-kanavainen ReLU-kerros. Toisin kuin NeRF, samaa monikerrosmallia käytettiin sekä karkeiden että hienonnettujen näytteiden kyselyyn, mikä laski kokonaisen mallin koon ja salli karkeiden verkon tulosten uudelleen käytön seuraavassa renderöintivaiheessa. Tekijät arvioivat, että tämä säästää 25 % mallin kyselyistä kullekin säteelle.

1024 säteitä otettiin näyteperässä Adam-oppimisnopeudella, joka alkoi 5×10⁴:sta ja laski 5×10^-5:iin. Ilmiasättelyt käsiteltiin samalla tavoin kuin edellä mainittu NeRF in the Wild. Mixed precision sampling (koulutus alemmassa tarkkuudessa kuin 32-bittinen liukuluku) käytettiin, ja MLP-leveyden kiinnitettiin 2048 piilotettuun yksikköön.

Testaus ja tulokset

Tutkijoiden testeissä Mega-NeRF pystyi vakuuttavasti ylittämään NeRF:n, NeRF++:n ja DeepView:n 500 000 iteraation jälkeen edellä mainituilla aineistoilla. Koska Mega-NeRF:n kohdemaastotilanne on aikarajoitettu, tutkijat antoivat hitaammille aiemmille kehyksille ylimääräisen ajan 24 tunnin rajan ylittämiselle, ja ilmoittivat, että Mega-NeRF ylitti ne silti, vaikka niille annettiin nämä edut.

Metriikka, joita käytettiin, olivat huippu signaali-kohina-suhde (PSNR), VGG-versio LPIPS:stä, ja SSIM. Koulutus tapahtui yhdellä koneella, jossa oli kahdeksan V100-grafiikkaprosessoria – tehokkaasti 256 GB VRAM:ia ja 5120 Tensor-ydintä.

Sample results from the Mega-NeRF experiments (please see the paper for more extended results across all frameworks and datasets) show that PlenOctree causes notable voxelization, while KiloNeRF produces artifacts and generally more blurry results.

Mega-NeRF-kokeiden näyte tuloksista (katso paperi laajemmista tuloksista kaikissa kehyksissä ja aineistoissa) osoittaa, että PlenOctree aiheuttaa merkittävää voxelointia, kun taas KiloNeRF tuottaa artefakteja ja yleensä sumeammia tuloksia.

Hankkeen sivu on osoitteessa https://meganerf.cmusatyalab.org/, ja julkaistu koodi on osoitteessa https://github.com/cmusatyalab/mega-nerf.

Julkaistu ensimmäisen kerran 21. joulukuuta 2021.