Stummel Das neue CGI: Erstellen neuronaler Nachbarschaften mit Block-NeRF – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Das neue CGI: Erstellen neuronaler Nachbarschaften mit Block-NeRF

mm
Aktualisiert on

Neuronale Strahlungsfelder (Nerf) ermöglichen die Neuerstellung und Erkundung von Objekten innerhalb neuronaler Netze, indem nur Fotos aus mehreren Blickwinkeln als Eingabe verwendet werden, ohne die Komplexität und Kosten herkömmlicher CGI-Methoden.

Der Prozess ist jedoch rechenintensiv, was NeRF-Umgebungen zunächst auf beschränkte Tischmodell Szenarien. Nichtsdestotrotz wurde NeRF im letzten Jahr von einer engagierten, ja sogar hektischen Forschungsgemeinschaft übernommen ermöglichte Außenrekonstruktionen und auch der Bearbeitbare neuronale Menschen, neben vielen anderen Innovationen.

Jetzt erkennt eine neue Forschungsinitiative, an der auch Google Research beteiligt ist, die möglichen harten Grenzen bei der Optimierung von NeRF und konzentriert sich stattdessen auf das Zusammenfügen von NeRF-Umgebungen, um On-Demand-Nachbarschaften zu schaffen, die mehrere koordinierte NeRF-Instanzen umfassen.

Standpunkt aus einem Block-NeRF-Netzwerk verknüpfter NeRFs. . Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Standpunkt aus einem Block-NeRF-Netzwerk verknüpfter NeRFs. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Durch die effektive Navigation im Netzwerk verknüpfter NeRFs wird NeRF skalierbar und modular und bietet navigierbare Umgebungen, die bei Bedarf zusätzliche Teile der Nachbarschaft laden, ähnlich wie bei den Ressourcenoptimierungsmethoden von Videospielen, bei denen das, was vor der Tür steht, selten geladen wird Es wird klar, dass die Umgebung gebraucht wird.

In einer großen Fahrt nach entwirren Neben separaten Facetten wie Wetter und Stunde führt Block-NeRF auch „Erscheinungscodes“ ein, die es ermöglichen, die Tageszeit dynamisch zu ändern:

Ändern der Tageszeit mit Block-NeRF. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Ändern der Tageszeit mit Block-NeRF. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Das neue Papier legt nahe, dass sich die NeRF-Optimierung ihrer eigenen thermischen Grenze nähert und dass zukünftige Einsätze neuronaler Strahlungsumgebungen in der virtuellen Realität, anderen Arten interaktiver Sphären und VFX-Arbeiten wahrscheinlich von parallelen Vorgängen abhängen, ähnlich wie bei Moore Das Gesetz machte schließlich Multi-Core-Architekturen, parallelen Optimierungen und neuen Caching-Ansätzen Platz.

Die Autoren des Krepppapier (berechtigt Block-NeRF: Skalierbare Synthese großer neuronaler Ansichten für große Szenen verwendete 2.8 Millionen Bilder, um die größte neuronale Szene zu erstellen, die jemals versucht wurde – eine Reihe von Stadtvierteln in San Francisco.

Block-NeRF navigiert durch die Grace Cathedral in San Francisco. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Block-NeRF navigiert durch die Grace Cathedral in San Francisco. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Der Hauptautor des Papiers, der die UC Berkley vertritt, ist Matthew Tancik, der Miterfinder der Neural Radiance Fields, der die Arbeit als Praktikant beim Entwicklungsunternehmen für autonome Fahrtechnologie Waymo, Gastgeber des., durchführte Projekt-Seite. Die Initiative bietet auch eine Videoübersicht auf YouTube an, die am Ende dieses Artikels eingebettet ist, sowie viele unterstützende und ergänzende Videobeispiele auf der Projektseite.

Das Papier wurde von mehreren anderen NeRF-Urhebern gemeinsam verfasst, darunter Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) und Jonathan T. Barron (Google Research). Die anderen Mitwirkenden sind Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar und Vincent Casser, alle von Waymo.

Block-NeRF wurde in erster Linie zur Erforschung virtueller Umgebungen für autonome Fahrzeugsysteme, einschließlich selbstfahrender Autos und Drohnen, entwickelt.

Die Embarcadero-Straße aus einer 180-Grad-Ansichtsposition in Block-NeRF. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Die Embarcadero-Straße aus einer 180-Grad-Ansichtsposition in Block-NeRF. Sehen Sie sich das eingebettete Video am Ende des Artikels sowie den Quelllink für hochauflösende Zusatzvideos in voller Länge an. Quelle: https://waymo.com/research/block-nerf/

Weitere Faktoren, die in Block-NeRF dynamisch geändert werden können, sind die Objektivöffnung (siehe Bild oben), das Wetter und die Jahreszeiten.

Der Wechsel der Jahreszeit kann jedoch zu entsprechenden Veränderungen in der Umgebung führen, beispielsweise zu Bäumen ohne Blätter, was einen noch umfangreicheren Eingabedatensatz erfordert, als für Block-NeRF erstellt wurde. In dem Papier heißt es:

„[Laub] ändert sich saisonal und bewegt sich im Wind; Dies führt zu unscharfen Darstellungen von Bäumen und Pflanzen. Ebenso werden zeitliche Inkonsistenzen in den Trainingsdaten, wie z. B. Bauarbeiten, nicht automatisch behandelt und erfordern eine manuelle Neuschulung der betroffenen Blöcke.'

Apokalyptisches Rendering

Wenn Sie sich das am Ende eingebettete Video ansehen, werden Sie Folgendes bemerken: Walking Dead-artige Sparsamkeit in der vernetzten Block-NeRF-Umgebung. Aus verschiedenen Gründen, nicht zuletzt um eine simulierte Startumgebung für Robotersysteme bereitzustellen, wurden Autos, Fußgänger und andere vorübergehende Objekte absichtlich aus dem Quellmaterial ausgeblendet, was jedoch einige Artefakte zurückgelassen hat, wie zum Beispiel die Schatten „gelöschter“ geparkter Fahrzeuge :

Der Phantomschatten eines ausgelöschten Autos. Quelle: https://waymo.com/research/block-nerf/

Der Phantomschatten eines ausgelöschten Autos. Quelle: https://waymo.com/research/block-nerf/

Um eine Reihe von Beleuchtungsumgebungen wie Tag oder Nacht zu berücksichtigen, wurden die Netzwerke darauf trainiert, entwirrte Datenströme zu jedem gewünschten Zustand zu integrieren. Im Bild unten sehen wir die beitragenden Streams für Block-NeRF-Aufnahmen einer Autobahn bei Tag und bei Nacht:

Die On-Demand-Facetten hinter einem scheinbar „gebackenen“ Block-NeRF-Rendering, die es einem Benutzer ermöglichen, die Nacht nach Bedarf einzuschalten. Quelle: https://waymo.com/research/block-nerf/

Die On-Demand-Facetten hinter einem scheinbar „gebackenen“ Block-NeRF-Rendering, die es einem Benutzer ermöglichen, die Nacht nach Bedarf einzuschalten. Quelle: https://waymo.com/research/block-nerf/

Umwelt- und ethische Überlegungen

In den letzten Jahren wurden in Forschungsbeiträgen immer wieder Vorbehalte und Haftungsausschlüsse hinsichtlich möglicher ethischer und ökologischer Auswirkungen der vorgeschlagenen Arbeit aufgenommen. Im Fall von Block-NeRF stellen die Autoren fest, dass der Energiebedarf hoch ist und dass die Berücksichtigung kurz- und langfristiger transienter Objekte (z. B. Blätter an Bäumen bzw. Bauarbeiten) ein regelmäßiges erneutes Scannen erfordern würde die Quelldaten, was zu einer verstärkten „Überwachung“ in städtischen Gebieten führt, deren neuronale Modelle auf dem neuesten Stand gehalten werden müssen.

Die Autoren geben an:

„Je nachdem, in welchem ​​Umfang diese Arbeit durchgeführt wird, kann der Rechenbedarf zu Umweltschäden führen oder diese verschlimmern, wenn die für die Rechenleistung verwendete Energie zu erhöhten COXNUMX-Emissionen führt.“ Wie in dem Papier erwähnt, erwarten wir weitere Arbeiten, wie z. B. Caching-Methoden, die den Rechenbedarf reduzieren und so die Umweltschäden abmildern könnten.“

Bezüglich der Überwachung fahren sie fort:

„Zukünftige Anwendungen dieser Arbeit könnten einen noch größeren Datenerfassungsaufwand mit sich bringen, was weitere Bedenken hinsichtlich des Datenschutzes aufwirft.“ Während detaillierte Bilder öffentlicher Straßen bereits auf Diensten wie Google Street View zu finden sind, könnte unsere Methodik wiederholte und regelmäßigere Scans der Umgebung fördern. Es ist auch bekannt, dass mehrere Unternehmen im Bereich autonomer Fahrzeuge regelmäßige Bereichsscans mit ihrer Fahrzeugflotte durchführen. Einige verwenden jedoch möglicherweise nur LiDAR-Scans, die weniger empfindlich sein können als das Sammeln von Kamerabildern.“

Methoden und Lösungen

Die einzelnen NeRF-Umgebungen können theoretisch auf jede beliebige Größe verkleinert werden, bevor sie zu einem Block-NeRF-Array zusammengesetzt werden. Dies eröffnet den Weg für die granulare Einbeziehung von Inhalten, die definitiv Veränderungen unterliegen, wie z. B. Bäume, und für die Identifizierung und Verwaltung von Bauarbeiten, die nach der Neuerfassung möglicherweise über Jahre hinweg bestehen bleiben, sich aber wahrscheinlich weiterentwickeln und verändern schließlich zu konsistenten Einheiten werden.

Allerdings sind bei diesem ersten Forschungsausflug diskrete NeRF-Blöcke auf die tatsächlichen Stadtblöcke jeder dargestellten Umgebung beschränkt und zusammengefügt, wobei eine Überlappung von 50 % einen konsistenten Übergang von einem Block zum nächsten gewährleistet, während der Benutzer durch das Netzwerk navigiert.

Jeder Block ist durch einen geografischen Filter eingeschränkt. Die Autoren stellen fest, dass dieser Teil des Frameworks für Automatisierung offen ist und dass ihre Implementierung überraschenderweise auf OpenStreetMap und nicht auf Google Maps basiert.

Der Schnittradius für einen „aktiven“ Block-NeRF-Renderraum. Quelle: Waymo

Der Schnittradius für einen „aktiven“ Block-NeRF-Renderraum. Quelle: Waymo

Blöcke werden parallel trainiert, wobei benötigte Blöcke bei Bedarf gerendert werden. Die innovativen Erscheinungscodes sind auch auf das Blockset abgestimmt und stellen sicher, dass man nicht unerwartet in ein anderes Wetter, eine andere Tageszeit oder sogar eine andere Jahreszeit reist.

Block-NeRF-Segmente werden bei der Belichtung auf eine Weise konditioniert, die dem High Dynamic Range (HDR) in fotografischem Quellmaterial entspricht. Quelle: Waymo

Block-NeRF-Segmente werden bei der Belichtung auf eine Weise konditioniert, die dem High Dynamic Range (HDR) in fotografischem Quellmaterial ähnelt. Quelle: Waymo

Die Möglichkeit, Beleuchtung und andere Umgebungsvariablen zu wechseln, wird aus den in eingeführten generativen latenten Optimierungen abgeleitet NeRF in freier Wildbahn (NeRF-W), das die Methode selbst von der Facebook-KI aus dem Jahr 2019 abgeleitet hat Forschungsarbeit Optimierung des latenten Raums generativer Netzwerke.

Ein semantisches Segmentierungsmodell entstand für Panoptic-DeepLab im Jahr 2020 wird verwendet, um unerwünschte Elemente (wie Personen und Fahrzeuge) auszublenden

Datum

Finden Sie heraus, dass gängige städtische Datensätze wie z Stadtlandschaften Da sie für eine so intensive Detailarbeit wie Block-NeRF nicht geeignet waren, erstellten die Forscher einen eigenen Datensatz. Die Bilddaten wurden von 12 Kameras erfasst und umfassten eine 360-Grad-Ansicht, wobei das Filmmaterial mit 10 Hz und einem skalaren Belichtungswert aufgenommen wurde.

Die abgedeckten Stadtteile von San Francisco waren Alamo Square und Mission Bay. Für die Alamo Square-Erfassungen wurde ein Bereich von etwa 960 m x 570 m abgedeckt, aufgeteilt in 35 Block-NeRF-Instanzen, die jeweils auf Daten von 38 bis 48 verschiedenen Datenerfassungsläufen trainiert wurden, mit einer Gesamtfahrzeit von 18–28 Minuten.

Die Anzahl der beitragenden Bilder für jedes Block-NeRF lag zwischen 64,575 und 108,216, und die Gesamtfahrzeit für diesen Bereich betrug 13.4 Stunden bei 1,330 verschiedenen Datenerfassungsläufen. Dies führte allein für Alamo Square zu 2,818,745 Trainingsbildern. Weitere Einzelheiten zur Datenerfassung für Mission Bay finden Sie im Dokument.

 

Erstveröffentlichung am 11. Februar 2022.