Stummel Erstellen neuronaler Such- und Rettungs-Fly-Through-Umgebungen mit Mega-NeRF – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Erstellen neuronaler Such- und Rettungs-Fly-Through-Umgebungen mit Mega-NeRF

mm
Aktualisiert on

Eine neue Forschungskooperation zwischen Carnegie Mellon und dem Technologieunternehmen für autonomes Fahren Argo AI hat eine wirtschaftliche Methode zur Erzeugung dynamischer Durchflugumgebungen basierend auf Neural Radiance Fields (NeRF) unter Verwendung von von Drohnen aufgenommenem Filmmaterial entwickelt.

Mega-NeRF bietet interaktive Vorbeiflüge auf Basis von Drohnenaufnahmen mit LOD auf Abruf. Quelle: Mega-NeRF-Full – Rubble Flythrough. Weitere Einzelheiten (in besserer Auflösung) finden Sie im Video am Ende dieses Artikels. - https://www.youtube.com/watch?v=t_xfRmZtR7k

Mega-NeRF bietet interaktive Vorbeiflüge auf Basis von Drohnenaufnahmen mit LOD auf Abruf. Weitere Einzelheiten (in besserer Auflösung) finden Sie im Video am Ende dieses Artikels. Quelle: Mega-NeRF-Full – Rubble Flythrough  – https://www.youtube.com/watch?v=t_xfRmZtR7k

Der neue Ansatz namens Mega-NeRF erzielt eine 40-fache Geschwindigkeitssteigerung im Vergleich zum durchschnittlichen Rendering-Standard für Neural Radiance Fields und bietet darüber hinaus etwas, das sich deutlich vom Standard unterscheidet Panzer und Tempel die in neuen NeRF-Papieren wiederkehren.

Das neues Papier ist betitelt Mega-NeRF: Skalierbare Konstruktion von NeRFs im großen Maßstab für virtuelle Durchflüge, und stammt von drei Forschern an der Carnegie Mellon, von denen einer auch Argo AI vertritt.

Modellierung der NeRF-Landschaft für Suche und Rettung

Die Autoren sind der Ansicht, dass Search and Rescue (SAR) ein wahrscheinlich optimaler Anwendungsfall für ihre Technik ist. Bei der Bewertung einer SAR-Landschaft sind Drohnen derzeit sowohl durch Bandbreiten- als auch Batterielebensdauerbeschränkungen eingeschränkt und können daher in der Regel keine detaillierte oder umfassende Abdeckung erhalten, bevor sie zur Basis zurückkehren müssen, an der sich ihre gesammelten Daten befinden umgewandelt zu statischen 2D-Luftbildkarten.

Die Autoren geben an:

„Wir stellen uns eine Zukunft vor, in der neuronales Rendering diese Analyse in 3D überträgt und es Reaktionsteams ermöglicht, das Feld in Echtzeit zu inspizieren, als würden sie eine Drohne fliegen, und zwar mit einem Detaillierungsgrad, der weit über das hinausgeht, was mit klassischer Struktur aus Bewegung erreichbar ist.“ SfM).'

Mit diesem Anwendungsfall beauftragt, haben die Autoren versucht, ein komplexes NeRF-basiertes Modell zu erstellen, das innerhalb eines Tages trainiert werden kann, da die Lebenserwartung von Überlebenden bei Such- und Rettungseinsätzen währenddessen um bis zu 80 % sinkt die ersten 24 Stunden.

Die Autoren weisen darauf hin, dass die Drohnenerfassungsdatensätze, die zum Trainieren eines Mega-NeRF-Modells erforderlich sind, „um Größenordnungen“ größer sind als ein Standarddatensatz für NeRF, und dass die Modellkapazität deutlich höher sein muss als in einem Standardzweig oder Derivat von NeRF. Darüber hinaus sind Interaktivität und Erkundbarkeit in einer Such- und Rettungsgeländekarte von entscheidender Bedeutung, während Standard-Echtzeit-NeRF-Renderings einen viel begrenzteren Bereich vorberechneter möglicher Bewegungen erwarten.

Teilen und Erobern

Um diese Probleme anzugehen, haben die Autoren einen geometrischen Clustering-Algorithmus entwickelt, der die Aufgabe in Submodule aufteilt und effektiv eine Matrix von Sub-NeRFs erstellt, die gleichzeitig trainiert werden.

Beim Rendern implementieren die Autoren außerdem einen Just-in-Time-Visualisierungsalgorithmus, der reaktionsschnell genug ist, um volle Interaktivität ohne übermäßige Vorverarbeitung zu ermöglichen, ähnlich wie Videospiele die Details von Elementen erhöhen, wenn sie sich dem Objekt des Benutzers nähern aus der Ferne jedoch in einem energiesparenden und rudimentäreren Maßstab bleiben.

Diese Ökonomien, so behaupten die Autoren, führen zu einer besseren Detaillierung als frühere Methoden, die versuchen, sehr breite Themenbereiche in einem interaktiven Kontext zu behandeln. Im Hinblick auf die Extrapolation von Details aus Videomaterial mit begrenzter Auflösung weisen die Autoren auch auf die visuelle Verbesserung von Mega-NeRF gegenüber der entsprechenden Funktionalität in hin PlenOctrees der UC Berkeley.

Die Verwendung verketteter Sub-NeRFs im Projekt basiert auf KiloNeRFs Echtzeit-Rendering-Funktionen, geben die Autoren zu. Allerdings weicht Mega-NeRF von diesem Ansatz ab, indem es während des Trainings tatsächlich „Sharding“ (diskretes Shunting von Facetten einer Szene) durchführt, und nicht den Post-Processing-Ansatz von KiloNeRF, der eine bereits berechnete NeRF-Szene nimmt und sie anschließend in eine erkundbare Szene umwandelt Raum.

Für Submodule wird ein diskreter Trainingssatz erstellt, der aus Trainingsbildpixeln besteht, deren Flugbahn die Zelle umfassen könnte, die sie darstellt. Folglich wird jedes Modul völlig getrennt von benachbarten Zellen trainiert. Quelle: https://arxiv.org/pdf/2112.10703.pdf

Für Submodule wird ein diskreter Trainingssatz erstellt, der aus Trainingsbildpixeln besteht, deren Flugbahn die Zelle umfassen könnte, die sie darstellt. Folglich wird jedes Modul völlig getrennt von benachbarten Zellen trainiert. Quelle: https://arxiv.org/pdf/2112.10703.pdf

Die Autoren charakterisieren Mega-NeRF als „Eine Neuformulierung der NeRF-Architektur, die Schichtverbindungen auf räumlich bewusste Weise spärlich macht und so Effizienzverbesserungen bei der Trainings- und Renderzeit ermöglicht.“.

Konzeptioneller Vergleich von Training und Datendiskretisierung in NeRF, NeRF++ und Mega-NeRF. Quelle: https://meganerf.cmusatyalab.org/

Konzeptioneller Vergleich von Training und Datendiskretisierung in NeRF, NeRF++und Mega-NeRF. Quelle: https://meganerf.cmusatyalab.org/

Die Autoren behaupten, dass Mega-NeRF durch den Einsatz neuartiger zeitlicher Kohärenzstrategien die Notwendigkeit einer übermäßigen Vorverarbeitung vermeidet, intrinsische Größenbeschränkungen überwindet und einen höheren Detaillierungsgrad als frühere ähnliche Arbeiten ermöglicht, ohne dass die Interaktivität darunter leidet oder mehrere Schulungstage erforderlich sind .

Die Forscher stellen außerdem umfangreiche Datensätze mit Tausenden hochauflösenden Bildern zur Verfügung, die aus Drohnenaufnahmen stammen, die auf über 100,000 Quadratmetern Land rund um einen Industriekomplex aufgenommen wurden. Die beiden verfügbaren Datensätze sind 'Gebäude' und 'Schutt'.

Verbesserung früherer Arbeiten

Das Papier stellt fest, dass frühere Bemühungen in ähnlicher Richtung, einschließlich SneRG, PlenOctree und FastNeRF, alle basieren auf einer Art Caching oder Vorverarbeitung, die Rechen- und/oder Zeitaufwand verursacht, der für die Erstellung virtueller Such- und Rettungsumgebungen ungeeignet ist.

Während KiloNeRF Sub-NeRFs aus einer bestehenden Sammlung mehrschichtiger Perzeptrone (MLPs) ableitet, ist es architektonisch auf Innenszenen mit begrenzter Erweiterbarkeit oder Kapazität zur Adressierung höherskaliger Umgebungen beschränkt. FastNeRF hingegen speichert eine „gebackene“, vorberechnete Version des NeRF-Modells in einer dedizierten Datenstruktur und ermöglicht es dem Endbenutzer, über ein dediziertes MLP oder durch sphärische Basisberechnung darin zu navigieren.

Im KiloNeRF-Szenario ist die maximale Auflösung jeder Facette in der Szene bereits berechnet und es ist keine höhere Auflösung verfügbar, wenn der Benutzer sich zum „Heranzoomen“ entscheidet.

Dagegen NeRF++ kann nativ unbegrenzte Außenumgebungen bewältigen, indem der potenziell erforschbare Raum in Vordergrund- und Hintergrundbereiche unterteilt wird, die jeweils von einem speziellen MLP-Modell überwacht werden, das vor der endgültigen Komposition ein Raycasting durchführt.

Schließlich NeRF in freier Wildbahn, das sich nicht direkt auf unbegrenzte Räume bezieht, verbessert dennoch die Bildqualität im Fototourismus-Datensatz, und die Einbettungen seines Aussehens wurden in die Architektur von Mega-NeRF übernommen.

Die Autoren räumen auch ein, dass Mega-NeRF von Structure-from-Motion-Projekten (SfM) inspiriert ist, insbesondere denen der Washington University Rom an einem Tag bauen Projekt.

Zeitliche Kohärenz

Wie PlenOctree berechnet Mega-NeRF vorab einen groben Farb- und Deckkraftcache im Bereich des aktuellen Benutzerfokus. Anstatt jedoch jedes Mal Pfade zu berechnen, die sich in der Nähe des berechneten Pfads befinden, wie es PlenOctree tut, „speichert“ Mega-NeRF diese Informationen und verwendet sie wieder, indem es den berechneten Baum unterteilt, und folgt damit einem wachsenden Trend, die eng gebundene Verarbeitungsetikette von NeRF zu entwirren .

Links die Einmalberechnung von PlenOctree. Mitte: Die dynamische Erweiterung des Octrees durch Mega-NeRF relativ zur aktuellen Position des Durchflugs. Richtig, der Octree wird für die nachfolgende Navigation wiederverwendet.

Links die Einmalberechnung von PlenOctree. Mitte: Die dynamische Erweiterung des Octrees durch Mega-NeRF relativ zur aktuellen Position des Durchflugs. Richtig, der Octree wird für die nachfolgende Navigation wiederverwendet.

Diese Berechnungsökonomie reduziert nach Ansicht der Autoren den Verarbeitungsaufwand erheblich, indem sie On-the-fly-Berechnungen als lokalen Cache verwendet, anstatt sie alle präventiv zu schätzen und zwischenzuspeichern, wie es in der jüngsten Praxis üblich ist.

Geführte Probenahme

Nach der ersten Abtastung führt Mega-NeRF in Übereinstimmung mit den bisherigen Standardmodellen eine zweite Runde der geführten Strahlabtastung nach der Octree-Verfeinerung durch, um die Bildqualität zu verbessern. Hierzu verwendet Mega-NeRF nur einen einzigen Durchgang basierend auf den vorhandenen Gewichten in der Octree-Datenstruktur.

Wie im Bild oben zu sehen ist, verschwendet die Standard-Stichprobenentnahme Berechnungsressourcen, indem sie einen übermäßig großen Teil des Zielbereichs auswertet, während Mega-NeRF die Berechnungen basierend auf der Kenntnis darüber, wo Geometrie vorhanden ist, einschränkt und die Berechnungen über einen vorgegebenen Wert hinaus drosselt -Grenzwert festlegen.

Daten und Schulung

Die Forscher testeten Mega-NeRF anhand verschiedener Datensätze, darunter die beiden oben genannten, handgefertigten Sätze, die aus Drohnenaufnahmen über Industriegelände erstellt wurden. Der erste Datensatz, Mühle 19 – Gebäudezeigt Aufnahmen, die auf einer Fläche von 500 x 250 Quadratmetern aufgenommen wurden. Der Zweite, Mühle 19 – Schuttstellt ähnliches Filmmaterial dar, das über einer angrenzenden Baustelle aufgenommen wurde und in dem die Forscher Attrappen platzierten, die potenzielle Überlebende in einem Such- und Rettungsszenario darstellen.

Aus dem ergänzenden Material der Arbeit: Links die Quadranten, die von der Parrot Anafi-Drohne abgedeckt werden sollen (Bildmitte und in der Ferne auf dem rechten Foto).

Aus dem ergänzenden Material des Papiers: Links die Quadranten, die abgedeckt werden sollen Parrot Anafi-Drohne (Bildmitte und in der Ferne auf dem rechten Foto).

Darüber hinaus wurde die Architektur anhand mehrerer Szenen aus getestet UrbanScene3D, vom Visual Computing Research Center an der Universität Shenzhen in China, das aus HD-Drohnenaufnahmen großer städtischer Umgebungen besteht; und das Quad 6k-Datensatz, vom IU Computer Vision Lab der Indiana University.

Das Training erfolgte über 8 Submodule mit jeweils 8 Schichten von 256 versteckten Einheiten und einer anschließenden 128-Kanal-ReLU-Schicht. Im Gegensatz zu NeRF wurde dasselbe MLP zum Abfragen grober und verfeinerter Stichproben verwendet, wodurch die Gesamtgröße des Modells verringert und die Wiederverwendung grober Netzwerkausgaben in der nachfolgenden Rendering-Phase ermöglicht wurde. Die Autoren schätzen, dass dadurch 25 % der Modellabfragen für jeden Strahl eingespart werden.

Pro Charge wurden unter Adam 1024 Strahlen mit einer anfänglichen Lernrate von 5×10 abgetastet4, abfallend auf 5×10-5. Die Einbettungen des Erscheinungsbilds wurden auf die gleiche Weise wie oben beschrieben gehandhabt NeRF in freier Wildbahn. Gemischte Präzisionsprobenahme (Training mit geringerer Präzision als 32-Bit-Gleitkomma) wurde verwendet und die MLP-Breite auf 2048 versteckte Einheiten festgelegt.

Tests und Ergebnisse

In den Tests der Forscher konnte Mega-NeRF NeRF, NeRF++ und deutlich übertreffen DeepView nach dem Training für 500,000 Iterationen in den oben genannten Datensätzen. Da das Mega-NeRF-Zielszenario zeitlich begrenzt ist, haben die Forscher den langsameren Vorgänger-Frameworks zusätzliche Zeit über das 24-Stunden-Limit hinaus gewährt und berichten, dass Mega-NeRF sie trotz dieser Vorteile immer noch übertrifft.

Die verwendeten Metriken waren das Spitzen-Signal-Rausch-Verhältnis (PSNR), Die VGG-Version von LPIPS und SSIM. Das Training fand auf einer einzelnen Maschine statt, die mit acht V100-GPUs ausgestattet war – effektiv mit 256 GB VRAM und 5120 Tensor-Kernen.

Beispielergebnisse aus den Mega-NeRF-Experimenten (weitere Ergebnisse für alle Frameworks und Datensätze finden Sie im Artikel) zeigen, dass PlenOctree eine deutliche Voxelisierung verursacht, während KiloNeRF Artefakte und allgemein unschärfere Ergebnisse erzeugt.

Beispielergebnisse aus den Mega-NeRF-Experimenten (weitere Ergebnisse für alle Frameworks und Datensätze finden Sie im Artikel) zeigen, dass PlenOctree eine deutliche Voxelisierung verursacht, während KiloNeRF Artefakte und allgemein unschärfere Ergebnisse erzeugt.

Die Projektseite finden Sie unter https://meganerf.cmusatyalab.org/, und der veröffentlichte Code ist unter https://github.com/cmusatyalab/mega-nerf.

Erstveröffentlichung am 21. Dezember 2021.