stub Opprette nevrale søke- og redningsgjennomstrømningsmiljøer med Mega-NeRF - Unite.AI
Kontakt med oss

Kunstig intelligens

Opprette nevrale søke- og redningsgjennomstrømningsmiljøer med Mega-NeRF

mm
oppdatert on

Et nytt forskningssamarbeid mellom Carnegie Mellon og teknologiselskapet Argo AI har utviklet en økonomisk metode for å generere dynamiske fly-through-miljøer basert på Neural Radiance Fields (NeRF), ved hjelp av opptak fanget av droner.

Mega-NeRF tilbyr interaktive forbiflyvninger basert på droneopptak, med LOD på forespørsel. Kilde: Mega-NeRF-Full - Rubble Flythrough. For mer detaljer (med bedre oppløsning), sjekk ut videoen som er innebygd på slutten av denne artikkelen. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF tilbyr interaktive forbiflyvninger basert på droneopptak, med LOD på forespørsel. For mer detaljer (med bedre oppløsning), sjekk ut videoen som er innebygd på slutten av denne artikkelen. kilde: Mega-NeRF-Full – Rubble Flythrough  – https://www.youtube.com/watch?v=t_xfRmZtR7k

Den nye tilnærmingen, kalt Mega-NeRF, oppnår en hastighet på 40 ganger sammenlignet med den gjennomsnittlige gjengivelsesstandarden for Neural Radiance Fields, i tillegg til å tilby noe spesielt forskjellig fra standarden tanker og templer som går igjen i nye NeRF-papirer.

De nytt papir har tittelen Mega-NeRF: Skalerbar konstruksjon av NeRF-er i stor skala for virtuelle gjennomganger, og kommer fra tre forskere ved Carnegie Mellon, hvorav en også representerer Argo AI.

Modellering av NeRF-landskap for søk og redning

Forfatterne mener at søk-og-redning (SAR) er et sannsynlig optimalt bruksområde for deres teknikk. Når man evaluerer et SAR-landskap, er droner for tiden begrenset både av båndbredde og batterilevetid, og er derfor vanligvis ikke i stand til å oppnå detaljert eller omfattende dekning før de trenger å gå tilbake til basen, da de innsamlede dataene deres er konvertert til statiske 2D luftfotokart.

Forfatterne sier:

«Vi ser for oss en fremtid der nevral gjengivelse løfter denne analysen inn i 3D, slik at responsteam kan inspisere feltet som om de flyr en drone i sanntid på et detaljnivå langt utover det som er oppnåelig med klassisk Structure-from-Motion ( SfM).'

I oppgave med denne brukssaken, har forfatterne forsøkt å lage en kompleks NeRF-basert modell som kan trenes i løpet av en dag, gitt at den forventede levetiden til overlevende i søk- og redningsoperasjoner reduseres med opptil 80 % i løpet av de første 24 timene.

Forfatterne bemerker at dronefangstdatasettene som er nødvendige for å trene en Mega-NeRF-modell er "størrelsesordener" større enn et standard datasett for NeRF, og at modellkapasiteten må være spesielt høyere enn i en standardgaffel eller derivat av NeRF. I tillegg er interaktivitet og utforskbarhet avgjørende i et søke- og redningsterrengkart, mens standard sanntids NeRF-gjengivelser forventer et mye mer begrenset utvalg av forhåndsberegnet mulig bevegelse.

Splitt og hersk

For å løse disse problemene opprettet forfatterne en geometrisk klyngealgoritme som deler oppgaven opp i undermoduler, og effektivt skaper en matrise av under-NeRF-er som trenes samtidig.

På gjengivelsespunktet implementerer forfatterne også en just-in-time visualiseringsalgoritme som er responsiv nok til å lette full interaktivitet uten overdreven forhåndsbehandling, på samme måte som videospill vil øke detaljene på elementer når de nærmer seg brukerens synspunkt, men som forblir i en energibesparende og mer rudimentær skala når de er på avstand.

Disse økonomiene, hevder forfatterne, fører til bedre detaljer enn tidligere metoder som forsøker å adressere svært brede fagområder i en interaktiv kontekst. Når det gjelder ekstrapolering av detaljer fra videoopptak med begrenset oppløsning, noterer forfatterne seg også Mega-NeRFs visuelle forbedring i forhold til tilsvarende funksjonalitet i UC Berkeleys PlenOctrees.

Prosjektets bruk av kjedede sub-NeRFer er basert på KiloNeRFs sanntidsgjengivelsesmuligheter, erkjenner forfatterne. Mega-NeRF avviker imidlertid fra denne tilnærmingen ved faktisk å utføre "sharding" (diskret shunting av fasetter av en scene) under trening, i stedet for KiloNeRFs etterbehandlingsmetode, som tar en allerede beregnet NeRF-scene og deretter transformerer den til en utforskbar rom.

Et diskret treningssett lages for undermoduler, bestående av treningsbildepiksler hvis bane kan spenne over cellen den representerer. Følgelig trenes hver modul helt separat fra tilstøtende celler. Kilde: https://arxiv.org/pdf/2112.10703.pdf

Et diskret treningssett lages for undermoduler, bestående av treningsbildepiksler hvis bane kan spenne over cellen den representerer. Følgelig trenes hver modul helt separat fra tilstøtende celler. Kilde: https://arxiv.org/pdf/2112.10703.pdf

Forfatterne karakteriserer Mega-NeRF som "en omformulering av NeRF-arkitekturen som sparsifiserer lagforbindelser på en romlig bevisst måte, og letter effektivitetsforbedringer ved trening og gjengivelsestid".

Konseptuell sammenligning av trening og datadiskretisering i NeRF, NeRF++ og Mega-NeRF. Kilde: https://meganerf.cmusatyalab.org/

Konseptuell sammenligning av opplæring og datadiskretisering i NeRF, NeRF++, og Mega-NeRF. Kilde: https://meganerf.cmusatyalab.org/

Forfatterne hevder at Mega-NeRFs bruk av nye tidsmessige koherensstrategier unngår behovet for overdreven forhåndsbehandling, overvinner iboende grenser på skalaen, og innfører et høyere detaljnivå enn tidligere lignende verk, uten å ofre interaktivitet, eller nødvendiggjøre flere dager med trening. .

Forskerne gjør også tilgjengelige datasett i stor skala som inneholder tusenvis av høyoppløselige bilder hentet fra droneopptak tatt over 100,000 XNUMX kvadratmeter land rundt et industrikompleks. De to tilgjengelige datasettene er 'Bygning' og "Rubble".

Forbedring av tidligere arbeid

Papiret bemerker at tidligere innsats på lignende måte, inkludert SneRG, PlenOctree og Fastnerf, alle er avhengige av en form for hurtigbufring eller forhåndsbehandling som legger til beregnings- og/eller tidskostnader som er uegnet for å lage virtuelle søk-og-redningsmiljøer.

Mens KiloNeRF henter sub-NeRF-er fra en eksisterende samling av multilayer perceptrons (MLP-er), er den arkitektonisk begrenset til interiørscener med begrenset utvidbarhet eller kapasitet til å adressere miljøer i høyere skala. FastNeRF lagrer i mellomtiden en "bakt" forhåndsberegnet versjon av NeRF-modellen i en dedikert datastruktur og lar sluttbrukeren navigere gjennom den via en dedikert MLP, eller gjennom sfærisk basisberegning.

I KiloNeRF-scenariet er den maksimale oppløsningen for hver fasett i scenen allerede beregnet, og ingen større oppløsning vil bli tilgjengelig hvis brukeren bestemmer seg for å "zoome inn".

I motsetning NeRF++ kan naturlig håndtere ikke-begrensede, ytre miljøer ved å dele opp det potensielle utforskbare rommet i forgrunns- og bakgrunnsområder, som hver overvåkes av en dedikert MLP-modell, som utfører strålekasting før den endelige komposisjonen.

Endelig, NeRF i naturen, som ikke direkte adresserer ubegrenset plass, forbedrer likevel bildekvaliteten i Fototurisme datasett, og utseendets innebygginger har blitt fulgt i arkitekturen for Mega-NeRF.

Forfatterne innrømmer også at Mega-NeRF er inspirert av Structure-from-Motion (SfM)-prosjekter, særlig Washington Universitys Bygge Roma på en dag prosjekt.

Tidsmessig sammenheng

I likhet med PlenOctree, forhåndsberegner Mega-NeRF en grov cache av farger og opasitet i området med gjeldende brukerfokus. Men i stedet for å beregne stier hver gang som er i nærheten av den beregnede banen, slik PlenOctree gjør, "lagrer" og gjenbruker Mega-NeRF denne informasjonen ved å dele opp det beregnede treet, etter en økende trend til å skille ut NeRFs tett bundne behandlingsetikette. .

Til venstre, PlenOctrees engangsberegning. Midt, Mega-NeRFs dynamiske utvidelse av oktreet, i forhold til den nåværende posisjonen til gjennomføringen. Høyre, oktreet gjenbrukes for påfølgende navigasjon.

Til venstre, PlenOctrees engangsberegning. Midt, Mega-NeRFs dynamiske utvidelse av oktreet, i forhold til den nåværende posisjonen til gjennomføringen. Høyre, oktreet gjenbrukes for påfølgende navigasjon.

Denne beregningsøkonomien, ifølge forfatterne, reduserer spesielt behandlingsbyrden ved å bruke direkteberegninger som en lokal cache, i stedet for å estimere og bufre dem alle på forhånd, i henhold til nyere praksis.

Veiledet prøvetaking

Etter innledende prøvetaking, i samsvar med standardmodeller til dags dato, gjennomfører Mega-NeRF en andre runde med guidet stråleprøvetaking etter oktreforfining, for å forbedre bildekvaliteten. For dette bruker Mega-NeRF kun et enkelt pass basert på de eksisterende vektene i oktredatastrukturen.

Som det kan ses på bildet ovenfor, fra den nye artikkelen, sløser standard prøvetaking beregningsressurser ved å evaluere en overdreven mengde av målområdet, mens Mega-NeRF begrenser beregningene basert på kunnskap om hvor geometri er tilstede, strupeberegninger over en pre. -sett terskel.

Data og opplæring

Forskerne testet Mega-NeRF på forskjellige datasett, inkludert de to nevnte, håndlagde settene tatt fra droneopptak over industrigrunn. Det første datasettet, Mølle 19 – Bygg, inneholder opptak tatt over et område på 500 x 250 kvadratmeter. Den andre, Mølle 19 – Rubber, representerer lignende opptak tatt over en tilstøtende byggeplass, der forskerne plasserte dukker som representerer potensielle overlevende i et søk-og-redningsscenario.

Fra avisens tilleggsmateriale: Til venstre, kvadrantene som skal dekkes av Parrot Anafi-dronen (bildet i midten, og i det fjerne på bildet til høyre).

Fra papirets tilleggsmateriale: Til venstre, kvadrantene som skal dekkes av Parrot Anafi drone (avbildet i midten, og i det fjerne på bildet til høyre).

I tillegg ble arkitekturen testet mot flere scener fra UrbanScene3D, fra Visual Computing Research Center ved Shenzhen University i Kina, som består av HD-dronefanget opptak av store urbane miljøer; og Quad 6k datasett, fra Indiana Universitys IU Computer Vision Lab.

Treningen fant sted over 8 undermoduler, hver med 8 lag med 256 skjulte enheter, og et påfølgende 128-kanals ReLU-lag. I motsetning til NeRF, ble den samme MLP brukt til å forespørre grove og raffinerte prøver, redusere den totale modellstørrelsen og tillate gjenbruk av grove nettverksutganger i det påfølgende gjengivelsesstadiet. Forfatterne anslår at dette sparer 25 % av modellspørringene for hver stråle.

1024 stråler ble samplet per batch under Adam med en startinnlæringshastighet på 5×104, råtne til 5×10-5. Utseendeinnstøpingene ble håndtert på samme måte som nevnte NeRF i naturen. Blandet presisjonsprøvetaking (trening med lavere presisjon enn 32-bits flytepunkt) ble brukt, og MLP-bredden fastsatt til 2048 skjulte enheter.

Testing og resultater

I forskernes tester var Mega-NeRF i stand til å utkonkurrere NeRF, NeRF++ og DeepView etter trening for 500,000 24 iterasjoner på tvers av de nevnte datasettene. Siden Mega-NeRF-målscenarioet er tidsbegrenset, tillot forskerne de tregere tidligere rammeverkene ekstra tid utover XNUMX-timersgrensen, og rapporterer at Mega-NeRF fortsatt overgikk dem, selv gitt disse fordelene.

Beregningene som ble brukt var topp signal-til-støy-forhold (PSNR), Den VGG-versjon av LPIPSog SSIM. Treningen fant sted på en enkelt maskin utstyrt med åtte V100 GPUer – effektivt på 256 GB VRAM og 5120 Tensor-kjerner.

Eksempelresultater fra Mega-NeRF-eksperimentene (se artikkelen for mer utvidede resultater på tvers av alle rammeverk og datasett) viser at PlenOctree forårsaker bemerkelsesverdig vokselisering, mens KiloNeRF produserer artefakter og generelt mer uskarpe resultater.

Eksempelresultater fra Mega-NeRF-eksperimentene (se artikkelen for mer utvidede resultater på tvers av alle rammeverk og datasett) viser at PlenOctree forårsaker bemerkelsesverdig vokselisering, mens KiloNeRF produserer artefakter og generelt mer uskarpe resultater.

Prosjektsiden er på https://meganerf.cmusatyalab.org/, og den utgitte koden er kl https://github.com/cmusatyalab/mega-nerf.

Først publisert 21. desember 2021.