Stummel Robotern Werkzeuge mit neuronalen Strahlungsfeldern beibringen (NeRF) – Unite.AI
Vernetzen Sie sich mit uns

Robotik

Robotern Werkzeuge mit neuronalen Strahlungsfeldern beibringen (NeRF)

mm

Veröffentlicht

 on

Neue Forschungsergebnisse der University of Michigan bieten Robotern die Möglichkeit, die Mechanismen von Werkzeugen und anderen artikulierten Objekten in der realen Welt zu verstehen, indem sie sie erschaffen Neuronale Strahlungsfelder (NeRF)-Objekte, die die Art und Weise demonstrieren, wie sich diese Objekte bewegen, sodass der Roboter möglicherweise mit ihnen interagieren und sie ohne langwierige dedizierte Vorkonfiguration verwenden kann.

Durch die Verwendung bekannter Quellenreferenzen für die interne Beweglichkeit von Werkzeugen (oder eines beliebigen Objekts mit einer geeigneten Referenz) kann NARF22 eine fotorealistische Annäherung an das Werkzeug und seinen Bewegungsbereich und die Art der Operation synthetisieren. Quelle: https://progress.eecs.umich.edu/projects/narf/

Durch die Verwendung bekannter Quellenreferenzen für die interne Beweglichkeit von Werkzeugen (oder eines beliebigen Objekts mit einer geeigneten Referenz) kann NARF22 eine fotorealistische Annäherung an das Werkzeug und seinen Bewegungsbereich und die Art der Operation synthetisieren. Quelle: https://progress.eecs.umich.edu/projects/narf/

Roboter, die mehr tun müssen, als Fußgängern auszuweichen oder aufwändig vorprogrammierte Routinen auszuführen (für die nicht wiederverwendbare Datensätze wahrscheinlich mit einem gewissen Aufwand gekennzeichnet und trainiert wurden), benötigen diese Art von Anpassungsfähigkeit, wenn sie mit den gleichen Materialien und arbeiten sollen Objekte, mit denen sich der Rest von uns auseinandersetzen muss.

Bisher gab es eine Reihe von Hindernissen, Robotersystemen diese Art von Vielseitigkeit zu verleihen. Dazu gehört der Mangel an anwendbaren Datensätzen, von denen viele nur eine sehr begrenzte Anzahl von Objekten enthalten; der schiere Aufwand, der mit der Erstellung fotorealistischer, netzbasierter 3D-Modelle verbunden ist, die Robotern helfen können, Instrumentalität im Kontext der realen Welt zu erlernen; und die nicht-fotorealistische Qualität solcher Datensätze, die tatsächlich für die Herausforderung geeignet sein könnten, führt dazu, dass die Objekte unzusammenhängend mit dem erscheinen, was der Roboter in der Welt um ihn herum wahrnimmt, und ihn darauf trainiert, nach einem cartoonähnlichen Objekt zu suchen, das niemals auftauchen wird Wirklichkeit.

Um dieses Problem anzugehen, haben die Forscher aus Michigan, deren Krepppapier ist betitelt NARF22: Neuronale artikulierte Strahlungsfelder für konfigurationsbewusstes Renderinghaben eine zweistufige Pipeline zur Generierung von NeRF-basierten artikulierten Objekten entwickelt, die ein „reales“ Erscheinungsbild haben und die Bewegung und die daraus resultierenden Einschränkungen jedes bestimmten artikulierten Objekts berücksichtigen.

Obwohl es komplexer erscheint, bestehen die wesentlichen zwei Phasen der NARF22-Pipeline darin, statische Teile beweglicher Werkzeuge zu rendern und diese Elemente dann in einem zweiten Datensatz zusammenzusetzen, der über die Bewegungsparameter dieser Teile relativ zueinander informiert ist. Quelle: https://arxiv.org/pdf/2210.01166.pdf

Obwohl es komplexer erscheint, bestehen die wesentlichen zwei Phasen der NARF22-Pipeline darin, statische Teile beweglicher Werkzeuge zu rendern und diese Elemente dann in einem zweiten Datensatz zusammenzusetzen, der über die Bewegungsparameter dieser Teile relativ zueinander informiert ist. Quelle: https://arxiv.org/pdf/2210.01166.pdf

Das System heißt Neuronal artikuliertes Strahlungsfeld – oder NARF22, um es von einem anderen Projekt mit ähnlichem Namen zu unterscheiden.

NARF22

Um festzustellen, ob ein unbekanntes Objekt möglicherweise artikuliert ist oder nicht, ist ein nahezu unvorstellbares Maß an Vorwissen im menschlichen Stil erforderlich. Wenn Sie zum Beispiel noch nie zuvor eine geschlossene Schublade gesehen haben, könnte es wie eine andere Art von dekorativer Verkleidung aussehen – erst wenn Sie sie tatsächlich geöffnet haben, verinnerlichen Sie „Schublade“ als bewegliches Objekt mit einer einzigen Bewegungsachse (Vorwärts und Rückwärts).

Daher ist NARF22 nicht als Erkundungssystem gedacht, um Dinge aufzusammeln und zu sehen, ob sie verwertbare bewegliche Teile haben – ein fast affenartiges Verhalten, das eine Reihe potenziell katastrophaler Szenarien mit sich bringen würde. Der Rahmen basiert vielmehr auf dem verfügbaren Wissen Universelles Roboterbeschreibungsformat (URDF) – ein Open-Source-XML-basiertes Format, das breit anwendbar und für die Aufgabe geeignet ist. Eine URDF-Datei enthält die verwendbaren Parameter der Bewegung in einem Objekt sowie Beschreibungen und andere beschriftete Aspekte der Teile des Objekts.

In herkömmlichen Pipelines ist es im Wesentlichen notwendig, die Artikulationsfähigkeiten eines Objekts zu beschreiben und die zugehörigen Gelenkwerte zu kennzeichnen. Dies ist keine kostengünstige oder leicht skalierbare Aufgabe. Stattdessen rendert der NaRF22-Workflow die einzelnen Komponenten des Objekts, bevor er jede statische Komponente zu einer artikulierten NeRF-basierten Darstellung „zusammensetzt“, wobei die von URDF bereitgestellten Bewegungsparameter bekannt sind.

Im zweiten Schritt des Prozesses wird ein völlig neuer Renderer erstellt, der alle Teile einbezieht. Obwohl es möglicherweise einfacher ist, die einzelnen Teile zu einem früheren Zeitpunkt einfach zu verketten und diesen nachfolgenden Schritt zu überspringen, stellen die Forscher fest, dass das endgültige Modell – das auf einer NVIDIA RTX 3080-GPU unter einer AMD 5600X-CPU trainiert wurde – währenddessen geringere Rechenanforderungen aufweist Backpropagation als solch eine abrupte und verfrühte Versammlung.

Darüber hinaus läuft das Modell der zweiten Stufe mit der doppelten Geschwindigkeit einer verketteten, „brute-forced“-Assembly, und alle sekundären Anwendungen, die möglicherweise Informationen über statische Teile des Modells nutzen müssen, benötigen keinen eigenen Zugriff auf URDF-Informationen, weil Dies wurde bereits in den Endstufen-Renderer integriert.

Daten und Experimente

Die Forscher führten eine Reihe von Experimenten durch, um NARF22 zu testen: eines zur Bewertung der qualitativen Darstellung für die Konfiguration und Pose jedes Objekts; ein quantitativer Test, um die gerenderten Ergebnisse mit ähnlichen Standpunkten realer Roboter zu vergleichen; und eine Demonstration der Konfigurationsschätzung und einer 6 DOF (Schärfentiefe)-Verfeinerungsherausforderung, bei der NARF22 zur Durchführung einer gradientenbasierten Optimierung verwendet wurde.

Die Trainingsdaten wurden dem entnommen Fortschrittswerkzeuge Datensatz aus einem früheren Artikel mehrerer Autoren des aktuellen Werks. Progress Tools enthält rund sechstausend RGB-D-Bilder (einschließlich Tiefeninformationen, die für das Sehen in der Robotik unerlässlich sind) mit einer Auflösung von 640 x 480. Zu den verwendeten Szenen gehörten acht Handwerkzeuge, die in ihre Bestandteile unterteilt waren, komplett mit Netzmodellen und Informationen über die kinematischen Eigenschaften der Objekte (dh die Art und Weise, wie sie sich bewegen sollen, und die Parameter dieser Bewegung).

Der Progress Tools-Datensatz enthält vier artikulierte Werkzeuge. Die Bilder oben sind NeRF-basierte Renderings von NARF22.

Der Progress Tools-Datensatz enthält vier artikulierte Werkzeuge. Die Bilder oben sind NeRF-basierte Renderings von NARF22.

Für dieses Experiment wurde ein endgültiges konfigurierbares Modell trainiert, bei dem nur eine Linienrichterzange, eine Spitzzange und eine Klemme zum Einsatz kamen (siehe Abbildung oben). Die Trainingsdaten enthielten eine einzelne Konfiguration der Klemme und eine für jede Zange.

Die Implementierung von NARF22 basiert auf FastNeRF, wobei die Eingabeparameter geändert wurden, um sich auf die verkettete und räumlich codierte Pose der Werkzeuge zu konzentrieren. FastNeRF verwendet faktorisiertes Multilayer-Perzeptron (MLP) gepaart mit einem voxelisierten Abtastmechanismus (Voxel sind im Wesentlichen Pixel, aber mit vollständigen 3D-Koordinaten, sodass sie in einem dreidimensionalen Raum arbeiten können).

Für den qualitativen Test stellen die Forscher fest, dass es mehrere verschlossene Teile der Klemme gibt (d. h. die zentrale Wirbelsäule), die nicht durch Beobachtung des Objekts erkannt oder erraten werden können, sondern nur durch Interaktion mit ihm, und dass das System Schwierigkeiten hat, dies zu erzeugen „unbekannte“ Geometrie.

Qualitative Darstellungen von Werkzeugen.

Qualitative Darstellungen von Werkzeugen.

Im Gegensatz dazu konnten die Zangen gut auf neuartige Konfigurationen generalisiert werden (d. h. auf Verlängerungen und Bewegungen ihrer Teile, die innerhalb der URDF-Parameter liegen, aber im Trainingsmaterial für das Modell nicht explizit angesprochen werden).

Die Forscher stellen jedoch fest, dass Beschriftungsfehler bei den Zangen zu einer Verschlechterung der Rendering-Qualität der sehr detaillierten Spitzen der Werkzeuge führten, was sich negativ auf die Renderings auswirkte – ein Problem, das mit viel umfassenderen Bedenken hinsichtlich der Beschriftungslogistik, der Budgetierung und der Genauigkeit im Computer zusammenhängt Bereich der Sehforschung und nicht etwaige Verfahrensmängel in der NARF22-Pipeline.

Ergebnisse des Rendergenauigkeitstests.

Ergebnisse des Rendergenauigkeitstests.

Für die Konfigurationsschätzungstests führten die Forscher eine Posenverfeinerung und Konfigurationsschätzung ausgehend von einer anfänglichen „starren“ Pose durch und vermieden dabei Caching oder andere beschleunigende Problemumgehungen, die von FastNeRF selbst verwendet werden.

Anschließend trainierten sie 17 wohlgeordnete Szenen aus dem Testsatz von Progress Tools (der während des Trainings beiseite gelegt worden war) und führten dabei 150 Iterationen der Gradientenabstiegsoptimierung unter dem Adam-Optimierer durch. Dieses Verfahren habe die Konfigurationsschätzung „extrem gut“ wiederhergestellt, so die Forscher.

Ergebnisse des Konfigurationsschätzungstests.

Ergebnisse des Konfigurationsschätzungstests.

 

Erstveröffentlichung am 5. Oktober 2022.