taló Creació d'entorns de cerca i rescat neuronals amb Mega-NeRF - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Creació d'entorns de cerca i rescat neuronals amb Mega-NeRF

mm
actualitzat on

Una nova col·laboració d'investigació entre Carnegie Mellon i l'empresa de tecnologia de conducció autònoma Argo AI ha desenvolupat un mètode econòmic per generar entorns de vol dinàmics basats en camps de radiació neuronal (NeRF), utilitzant imatges capturades per drons.

Mega-NeRF ofereix sobrevols interactius basats en imatges de drons, amb LOD a demanda. Font: Mega-NeRF-Full - Ruble Flythrough. Per obtenir més detalls (a millor resolució), mireu el vídeo incrustat al final d'aquest article. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF ofereix sobrevols interactius basats en imatges de drons, amb LOD a demanda. Per obtenir més detalls (a millor resolució), mireu el vídeo incrustat al final d'aquest article. font: Mega-NeRF-Full - Ruble Flythrough  – https://www.youtube.com/watch?v=t_xfRmZtR7k

El nou enfocament, anomenat Mega-NeRF, obté una velocitat de 40x en comparació amb l'estàndard de renderització de camps de radiació neuronal mitjà, a més d'oferir alguna cosa notablement diferent de l'estàndard. tancs i temples que es repeteixen en els nous articles de NeRF.

El nou document es titula Mega-NeRF: construcció escalable de NeRFs a gran escala per a Fly-Throughs virtuals, i prové de tres investigadors de Carnegie Mellon, un dels quals també representa Argo AI.

Modelització del paisatge NeRF per a la recerca i el rescat

Els autors consideren que la recerca i el rescat (SAR) és un cas d'ús òptim probable per a la seva tècnica. Quan s'avalua un paisatge SAR, els drons estan actualment limitats tant per l'ample de banda com per les restriccions de la durada de la bateria i, per tant, normalment no poden obtenir una cobertura detallada o completa abans d'haver de tornar a la base, moment en què les dades recollides són convertit a mapes estàtics de vistes aèries en 2D.

Els autors afirmen:

"Imaginem un futur en què la representació neuronal eleva aquesta anàlisi en 3D, permetent als equips de resposta inspeccionar el camp com si volessin un dron en temps real amb un nivell de detall molt més enllà del que es pot aconseguir amb el clàssic Structure-from-Motion". SfM).'

Encarregats amb aquest cas d'ús, els autors han intentat crear un model complex basat en NeRF que es pugui entrenar en un dia, atès que l'esperança de vida dels supervivents en les operacions de cerca i rescat disminueix fins a un 80% durant les primeres 24 hores.

Els autors assenyalen que els conjunts de dades de captura de drons necessaris per entrenar un model Mega-NeRF són "ordres de magnitud" més grans que un conjunt de dades estàndard per a NeRF, i que la capacitat del model ha de ser notablement més gran que en una bifurcació predeterminada o derivat de NeRF. A més, la interactivitat i l'explorabilitat són essencials en un mapa del terreny de recerca i rescat, mentre que els renders estàndard de NeRF en temps real esperen un rang molt més limitat de moviments possibles precalculats.

Divideix i conquereix

Per abordar aquests problemes, els autors van crear un algorisme de agrupació geomètrica que divideix la tasca en submòduls i crea efectivament una matriu de sub-NeRF que s'entrenen simultàniament.

En el moment de la representació, els autors també implementen un algorisme de visualització just a temps que respon prou com per facilitar la interactivitat total sense un processament previ excessiu, de manera similar a com els videojocs augmentaran el detall dels elements a mesura que s'acosten a l'usuari. mirador, però que es mantenen a una escala d'estalvi d'energia i més rudimentària quan es troben a la distància.

Aquestes economies, sostenen els autors, condueixen a un millor detall que els mètodes anteriors que intenten abordar àrees temàtiques molt àmplies en un context interactiu. Pel que fa a l'extrapolació de detalls de les imatges de vídeo de resolució limitada, els autors també observen la millora visual de Mega-NeRF respecte a la funcionalitat equivalent a PlenOctrees de la UC Berkeley.

L'ús del projecte de sub-NeRF encadenats es basa en KiloNeRF capacitats de renderització en temps real, reconeixen els autors. No obstant això, Mega-NeRF s'allunya d'aquest enfocament realitzant realment "sharding" (desviació discreta de les facetes d'una escena) durant l'entrenament, en lloc de l'enfocament de postprocessament de KiloNeRF, que pren una escena NeRF ja calculada i, posteriorment, la transforma en una explorable. espai.

Es crea un conjunt d'entrenament discret per a submòduls, format per píxels d'imatge d'entrenament la trajectòria dels quals pot abastar la cel·la que representa. En conseqüència, cada mòdul s'entrena completament per separat de les cel·les adjacents. Font: https://arxiv.org/pdf/2112.10703.pdf

Es crea un conjunt d'entrenament discret per a submòduls, format per píxels d'imatge d'entrenament la trajectòria dels quals pot abastar la cel·la que representa. En conseqüència, cada mòdul s'entrena completament per separat de les cel·les adjacents. Font: https://arxiv.org/pdf/2112.10703.pdf

Els autors caracteritzen Mega-NeRF com "una reformulació de l'arquitectura NeRF que dispersa les connexions de capes d'una manera espacialment conscient, facilitant millores d'eficiència en l'entrenament i el temps de renderització"..

Comparació conceptual de la formació i la discretització de dades en NeRF, NeRF++ i Mega-NeRF. Font: https://meganerf.cmusatyalab.org/

Comparació conceptual de la formació i la discretització de dades en NeRF, NeRF++, i Mega-NeRF. Font: https://meganerf.cmusatyalab.org/

Els autors afirmen que l'ús de noves estratègies de coherència temporal per part de Mega-NeRF evita la necessitat d'un preprocessament excessiu, supera els límits intrínsecs d'escala i promulga un nivell de detall més alt que els treballs similars anteriors, sense sacrificar la interactivitat o la necessitat de diversos dies de formació. .

Els investigadors també estan posant a disposició conjunts de dades a gran escala que contenen milers d'imatges d'alta definició obtingudes a partir d'imatges de drons capturades en 100,000 metres quadrats de terreny al voltant d'un complex industrial. Els dos conjunts de dades disponibles són 'Edifici' i 'Runes'.

Millora del treball previ

El document assenyala que els esforços anteriors en una línia similar, inclosos SneRG, PlenOctree i FastNeRF, tots es basen en algun tipus d'emmagatzematge en memòria cau o preprocessament que afegeix despeses generals de càlcul i/o temps que no són adequats per a la creació d'entorns virtuals de cerca i rescat.

Si bé KiloNeRF deriva sub-NeRF d'una col·lecció existent de perceptrons multicapa (MLP), es limita arquitectònicament a escenes interiors amb una extensibilitat limitada o capacitat per abordar entorns a gran escala. FastNeRF, per la seva banda, emmagatzema una versió precalculada "al forn" del model NeRF en una estructura de dades dedicada i permet a l'usuari final navegar per ella mitjançant un MLP dedicat o mitjançant un càlcul de base esfèrica.

En l'escenari KiloNeRF, la resolució màxima de cada faceta de l'escena ja està calculada i no hi haurà una resolució més gran si l'usuari decideix "apropar".

Per contra, NeRF++ pot gestionar de manera nativa entorns exteriors no limitats seccionant l'espai potencial explorable en regions de primer pla i de fons, cadascuna de les quals està supervisada per un model MLP dedicat, que realitza la fosa de raigs abans de la composició final.

Finalment, NeRF a la natura, que no aborda directament espais il·limitats, però millora la qualitat de la imatge en el Conjunt de dades de fototurisme, i les incrustacions d'aparença s'han seguit a l'arquitectura de Mega-NeRF.

Els autors també admeten que Mega-NeRF s'inspira en projectes Structure-from-Motion (SfM), en particular els de la Universitat de Washington. Construint Roma en un dia projecte.

Coherència temporal

Igual que PlenOctree, Mega-NeRF calcula prèviament una memòria cau aproximada de color i opacitat a la regió d'enfocament actual de l'usuari. No obstant això, en lloc de calcular camins cada vegada que es troben a les proximitats del camí calculat, com fa PlenOctree, Mega-NeRF "desa" i reutilitza aquesta informació subdividint l'arbre calculat, seguint una tendència creixent per desenredar l'etiqueta de processament estretament vinculada de NeRF. .

A l'esquerra, el càlcul d'un sol ús de PlenOctree. Mitjana, l'expansió dinàmica de Mega-NeRF de l'octree, en relació amb la posició actual del pas. A la dreta, l'octree es reutilitza per a la navegació posterior.

A l'esquerra, el càlcul d'un sol ús de PlenOctree. Mitjana, l'expansió dinàmica de Mega-NeRF de l'octree, en relació amb la posició actual del pas. A la dreta, l'octree es reutilitza per a la navegació posterior.

Aquesta economia de càlcul, segons els autors, redueix notablement la càrrega de processament utilitzant càlculs sobre la marxa com a memòria cau local, en lloc d'estimar-los i guardar-los tots de manera preventiva, segons la pràctica recent.

Mostreig guiat

Després del mostreig inicial, d'acord amb els models estàndard fins ara, Mega-NeRF promulga una segona ronda de mostreig de raigs guiat després del refinament d'octree, per tal de millorar la qualitat de la imatge. Per a això, Mega-NeRF només utilitza una única passada basada en els pesos existents a l'estructura de dades d'octree.

Com es pot veure a la imatge de dalt, a partir del nou article, el mostreig estàndard malgasta recursos de càlcul avaluant una quantitat excessiva de l'àrea objectiu, mentre que Mega-NeRF limita els càlculs basant-se en el coneixement d'on hi ha la geometria, limitant els càlculs per sobre d'un pre - establir el llindar.

Dades i Formació

Els investigadors van provar Mega-NeRF en diversos conjunts de dades, inclosos els dos conjunts fets a mà esmentats anteriorment extrets de imatges de drons sobre terreny industrial. El primer conjunt de dades, Molí 19 – Edifici, inclou imatges preses en una àrea de 500 x 250 metres quadrats. El segon, Molí 19 – Enderrocs, representa imatges similars preses en un lloc de construcció adjacent, en què els investigadors van col·locar maniquís que representen supervivents potencials en un escenari de recerca i rescat.

A partir del material suplementari del paper: A l'esquerra, els quadrants que ha de cobrir el dron Parrot Anafi (a la foto al centre i a la distància a la foto de la dreta).

A partir del material suplementari del paper: Esquerra, els quadrants que s'han de cobrir Drone Parrot Anafi (a la foto al centre, i a la distància a la foto de la dreta).

A més, l'arquitectura es va provar amb diverses escenes de UrbanScene3D, del Visual Computing Research Center de la Universitat de Shenzhen a la Xina, que consisteix en imatges HD capturades amb drons de grans entorns urbans; i la Conjunt de dades quad 6k, del IU Computer Vision Lab de la Universitat d'Indiana.

La formació es va dur a terme a través de 8 submòduls, cadascun amb 8 capes de 256 unitats ocultes i una capa de ReLU de 128 canals posterior. A diferència de NeRF, el mateix MLP es va utilitzar per consultar mostres gruixudes i refinades, reduint la mida global del model i permetent la reutilització de sortides de xarxa gruixudes en la fase de renderització posterior. Els autors estimen que això estalvia un 25% de les consultes de models per a cada raig.

Es van mostrejar 1024 raigs per lot sota Adam a una velocitat d'aprenentatge inicial de 5 × 104, disminuint a 5×10-5. Les incrustacions d'aspectes es van tractar de la mateixa manera que les anteriors NeRF a la natura. Mostreig de precisió mixt (entrenament amb una precisió inferior a la de coma flotant de 32 bits) i l'amplada MLP es va fixar en 2048 unitats ocultes.

Proves i resultats

En les proves dels investigadors, Mega-NeRF va ser capaç de superar amb força NeRF, NeRF ++ i DeepView després d'entrenar durant 500,000 iteracions als conjunts de dades esmentats. Com que l'escenari objectiu de Mega-NeRF té un temps limitat, els investigadors van permetre als marcs anteriors més lents un temps addicional més enllà del límit de 24 hores i informen que Mega-NeRF encara els va superar, fins i tot tenint en compte aquests avantatges.

Les mètriques utilitzades van ser la relació màxima senyal/soroll (PSNR), La Versió VGG de LPIPSi SSIM. La formació es va dur a terme en una única màquina equipada amb vuit GPU V100, efectivament, amb 256 GB de VRAM i 5120 nuclis Tensor.

Els resultats de mostra dels experiments Mega-NeRF (consulteu el document per obtenir resultats més amplis a tots els marcs i conjunts de dades) mostren que PlenOctree provoca una voxelització notable, mentre que KiloNeRF produeix artefactes i, en general, resultats més borrosos.

Els resultats de mostra dels experiments Mega-NeRF (consulteu el document per obtenir resultats més amplis a tots els marcs i conjunts de dades) mostren que PlenOctree provoca una voxelització notable, mentre que KiloNeRF produeix artefactes i, en general, resultats més borrosos.

La pàgina del projecte és a https://meganerf.cmusatyalab.org/, i el codi publicat és a https://github.com/cmusatyalab/mega-nerf.

Publicat per primera vegada el 21 de desembre de 2021.