talon Enseigner aux robots les outils avec les champs de rayonnement neuronal (NeRF) - Unite.AI
Suivez nous sur

Robotique

Enseigner aux robots les outils avec les champs de rayonnement neuronal (NeRF)

mm

Publié le

 on

Une nouvelle recherche de l'Université du Michigan offre aux robots un moyen de comprendre les mécanismes des outils et d'autres objets articulés du monde réel, en créant Champs de rayonnement neuronal (NeRF) qui démontrent la façon dont ces objets se déplacent, permettant potentiellement au robot d'interagir avec eux et de les utiliser sans préconfiguration dédiée fastidieuse.

En utilisant des références sources connues pour la motilité interne des outils (ou de tout objet avec une référence appropriée), NARF22 peut synthétiser une approximation photoréaliste de l'outil et de sa plage de mouvement et du type d'opération. Source : https://progress.eecs.umich.edu/projects/narf/

En utilisant des références sources connues pour la motilité interne des outils (ou de tout objet avec une référence appropriée), NARF22 peut synthétiser une approximation photoréaliste de l'outil et de sa plage de mouvement et du type d'opération. Source : https://progress.eecs.umich.edu/projects/narf/

Les robots qui doivent faire plus qu'éviter les piétons ou exécuter des routines minutieusement préprogrammées (pour lesquelles des ensembles de données non réutilisables ont probablement été étiquetés et formés à certains frais) ont besoin de ce type de capacité d'adaptation s'ils doivent travailler avec les mêmes matériaux et des objets avec lesquels le reste d'entre nous doit faire face.

À ce jour, il y a eu un certain nombre d'obstacles à l'imprégnation des systèmes robotiques avec ce type de polyvalence. Ceux-ci incluent la rareté des ensembles de données applicables, dont beaucoup comportent un nombre très limité d'objets ; les dépenses considérables impliquées dans la génération du type de modèles 3D photoréalistes à base de maillage qui peuvent aider les robots à apprendre l'instrumentalité dans le contexte du monde réel ; et la qualité non photoréaliste des ensembles de données qui peuvent réellement convenir au défi, faisant apparaître les objets disjoints de ce que le robot perçoit dans le monde qui l'entoure, et l'entraînant à rechercher un objet de type dessin animé qui n'apparaîtra jamais dans réalité.

Pour y remédier, les chercheurs du Michigan, dont papier est intitulé NARF22 : Champs de rayonnement articulés neuronaux pour un rendu prenant en compte la configuration, ont développé un pipeline en deux étapes pour générer des objets articulés basés sur NeRF qui ont une apparence de « monde réel » et qui intègrent le mouvement et les limitations qui en découlent de tout objet articulé particulier.

Bien qu'il semble plus complexe, les deux étapes essentielles du pipeline NARF22 consistent à rendre des parties statiques d'outils mobiles, puis à composer ces éléments dans un deuxième ensemble de données qui est informé des paramètres de mouvement de ces parties les unes par rapport aux autres. Source : https://arxiv.org/pdf/2210.01166.pdf

Bien qu'il semble plus complexe, les deux étapes essentielles du pipeline NARF22 consistent à rendre des parties statiques d'outils mobiles, puis à composer ces éléments dans un deuxième ensemble de données qui est informé des paramètres de mouvement de ces parties les unes par rapport aux autres. Source : https://arxiv.org/pdf/2210.01166.pdf

Le système s'appelle Champ de rayonnement articulé neuronal – ou NARF22, pour le distinguer d'un autre projet portant le même nom.

NARF22

Déterminer si oui ou non un objet inconnu est potentiellement articulé nécessite une quantité presque inconcevable de connaissances préalables de type humain. Par exemple, si vous n'aviez jamais vu de tiroir fermé auparavant, il pourrait sembler s'agir de n'importe quel autre type de panneau décoratif - ce n'est que lorsque vous en avez ouvert un que vous intériorisez le "tiroir" comme un objet articulé avec un seul axe de mouvement (en avant et en arrière).

Par conséquent, NARF22 n'est pas conçu comme un système exploratoire pour ramasser des objets et voir s'ils ont des pièces mobiles actionnables - un comportement presque simien qui entraînerait un certain nombre de scénarios potentiellement désastreux. Le cadre repose plutôt sur les connaissances disponibles dans Format universel de description de robot (URDF) - un format open source basé sur XML qui est largement applicable et adapté à la tâche. Un fichier URDF contiendra les paramètres utilisables de mouvement dans un objet, ainsi que des descriptions et d'autres facettes étiquetées des parties de l'objet.

Dans les pipelines conventionnels, il est nécessaire de décrire essentiellement les capacités d'articulation d'un objet et d'étiqueter les valeurs conjointes pertinentes. Ce n'est pas une tâche bon marché ou facilement évolutive. Au lieu de cela, le flux de travail NaRF22 rend les composants individuels de l'objet avant « d'assembler » chaque composant statique dans une représentation articulée basée sur NeRF, avec la connaissance des paramètres de mouvement fournis par URDF.

Dans la deuxième étape du processus, un moteur de rendu entièrement nouveau est créé qui intègre toutes les parties. Bien qu'il puisse être plus facile de concaténer simplement les parties individuelles à un stade antérieur et d'ignorer cette étape suivante, les chercheurs observent que le modèle final - qui a été formé sur un GPU NVIDIA RTX 3080 sous un processeur AMD 5600X - a des exigences de calcul inférieures pendant rétropropagation qu'une assemblée aussi abrupte et prématurée.

De plus, le modèle de la deuxième étape s'exécute à deux fois la vitesse d'un assemblage concaténé, "brute-forced", et toutes les applications secondaires qui peuvent avoir besoin d'utiliser des informations sur les parties statiques du modèle n'auront pas besoin de leur propre accès aux informations URDF, car cela a déjà été intégré dans le moteur de rendu final.

Données et expériences

Les chercheurs ont mené un certain nombre d'expériences pour tester NARF22 : une pour évaluer le rendu qualitatif pour la configuration et la pose de chaque objet ; un test quantitatif pour comparer les résultats rendus à des points de vue similaires vus par des robots du monde réel ; et une démonstration de l'estimation de la configuration et un défi de raffinement de 6 DOF (profondeur de champ) qui a utilisé NARF22 pour effectuer une optimisation basée sur le gradient.

Les données d'entraînement ont été extraites du Outils de progression ensemble de données d'un article antérieur de plusieurs des auteurs des travaux actuels. Progress Tools contient environ six mille images RVB-D (c'est-à-dire, y compris les informations de profondeur, essentielles pour la vision robotique) à une résolution de 640 × 480. Les scènes utilisées comprenaient huit outils à main, divisés en leurs parties constitutives, avec des modèles de maillage et des informations sur les propriétés cinématiques des objets (c'est-à-dire la façon dont ils sont conçus pour se déplacer et les paramètres de ce mouvement).

L'ensemble de données Progress Tools comprend quatre outils articulés. Les images ci-dessus sont des rendus basés sur NeRF de NARF22.

L'ensemble de données Progress Tools comprend quatre outils articulés. Les images ci-dessus sont des rendus basés sur NeRF de NARF22.

Pour cette expérience, un modèle configurable final a été formé en utilisant uniquement des pinces de poseur de lignes, des pinces à bec long et une pince (voir l'image ci-dessus). Les données d'apprentissage contenaient une configuration unique de la pince et une pour chacune des pinces.

La mise en œuvre du NARF22 repose sur FastNeRF, avec les paramètres d'entrée modifiés pour se concentrer sur la pose concaténée et spatialement codée des outils. FastNeRF utilise un perceptron multicouche factorisé (MLP) associé à un mécanisme d'échantillonnage voxélisé (les voxels sont essentiellement des pixels, mais avec des coordonnées 3D complètes, de sorte qu'ils peuvent fonctionner dans un espace tridimensionnel).

Pour le test qualitatif, les chercheurs observent qu'il y a plusieurs parties occluses de la pince (c'est-à-dire la colonne vertébrale centrale, qui ne peuvent pas être connues ou devinées en observant l'objet, mais seulement en interagissant avec lui, et que le système a du mal à créer cette géométrie "inconnue".

Rendus qualitatifs des outils.

Rendus qualitatifs des outils.

En revanche, les pinces ont pu bien généraliser à de nouvelles configurations (c'est-à-dire aux extensions et mouvements de leurs pièces qui sont dans les paramètres URDF, mais qui ne sont pas explicitement abordés dans le matériel de formation pour le modèle.

Les chercheurs observent cependant que les erreurs d'étiquetage des pinces ont entraîné une diminution de la qualité du rendu pour les pointes très détaillées des outils, affectant négativement les rendus - un problème lié à des préoccupations beaucoup plus larges concernant la logistique de l'étiquetage, la budgétisation et la précision de l'ordinateur. secteur de la recherche sur la vision, plutôt que toute lacune procédurale dans le pipeline NARF22.

Résultats du test de précision de rendu.

Résultats du test de précision de rendu.

Pour les tests d'estimation de la configuration, les chercheurs ont effectué un raffinement de la pose et une estimation de la configuration à partir d'une pose « rigide » initiale, en évitant la mise en cache ou d'autres solutions de contournement accélérées utilisées par FastNeRF lui-même.

Ils ont ensuite entraîné 17 scènes bien ordonnées de l'ensemble de tests de Progress Tools (qui avaient été mises de côté pendant la formation), en passant par 150 itérations d'optimisation de descente de gradient sous l'optimiseur Adam. Cette procédure a permis de récupérer « extrêmement bien » l'estimation de la configuration, selon les chercheurs.

Résultats du test d'estimation de la configuration.

Résultats du test d'estimation de la configuration.

 

Première publication le 5 octobre 2022.