Robotique

Enseigner aux robots à propos d’outils avec des champs de rayonnement neuronaux (NeRF)

Published October 5, 2022

Updated April 5, 2026

Martin Anderson

De nouvelles recherches de l’Université du Michigan proposent un moyen pour les robots de comprendre les mécanismes des outils et d’autres objets articulés du monde réel, en créant des objets de champs de rayonnement neuronaux (NeRF) qui démontrent la façon dont ces objets bougent, permettant potentiellement au robot de les manipuler et de les utiliser sans configuration préalable fastidieuse.

En utilisant des références sources connues pour la motilité interne des outils (ou tout objet avec une référence appropriée), NARF22 peut synthétiser une approximation photoréaliste de l’outil et de sa plage de mouvement et de type d’opération. Source : https://progress.eecs.umich.edu/projects/narf/

Les robots qui doivent faire plus que d’éviter les piétons ou exécuter des routines préprogrammées de manière élaborée (pour lesquelles des jeux de données non réutilisables ont probablement été étiquetés et formés à grands frais) ont besoin de ce type de capacité d’adaptation s’ils veulent travailler avec les mêmes matériaux et objets que le reste d’entre nous.

Jusqu’à présent, il y a eu un certain nombre d’obstacles pour doter les systèmes robotiques de ce type de polyvalence. Cela inclut la rareté de jeux de données applicables, dont beaucoup présentent un nombre très limité d’objets ; le coût élevé impliqué dans la génération de modèles 3D photoréalistes et basés sur des maillages qui peuvent aider les robots à apprendre l’instrumentalité dans le contexte du monde réel ; et la qualité non photoréaliste de ces jeux de données, ce qui fait que les objets apparaissent disjointes de ce que le robot perçoit dans le monde qui l’entoure, et l’entraîne à rechercher un objet ressemblant à un dessin animé qui n’apparaîtra jamais dans la réalité.

Pour répondre à cela, les chercheurs de Michigan, dont l’article article est intitulé NARF22 : Champs de rayonnement neuronaux articulés pour le rendu sensible à la configuration, ont développé un pipeline à deux étapes pour générer des objets articulés basés sur NeRF qui ont une apparence de « monde réel » et qui intègrent le mouvement et les limitations qui en découlent pour tout objet articulé particulier.

Bien que cela paraisse plus complexe, les deux étapes essentielles du pipeline NARF22 consistent à rendre les parties statiques des outils mobiles, puis à les composer dans un deuxième jeu de données qui est informé des paramètres de mouvement que ces parties ont les unes par rapport aux autres. Source : https://arxiv.org/pdf/2210.01166.pdf

Le système est appelé Champ de rayonnement neuronaux articulé – ou NARF22, pour le distinguer d’un autre projet portant un nom similaire.

NARF22

Déterminer si un objet inconnu est potentiellement articulé nécessite une quantité presque incroyable de connaissances a priori de type humain. Par exemple, si vous n’aviez jamais vu un tiroir fermé auparavant, il pourrait ressembler à n’importe quel autre type de panneau de décoration – ce n’est que lorsque vous l’avez réellement ouvert que vous internalisez « tiroir » comme un objet articulé avec un seul axe de mouvement (avant et arrière).

Par conséquent, NARF22 n’est pas destiné à être un système d’exploration pour ramasser des choses et voir si elles ont des parties mobiles actionnables – un comportement presque simien qui entraînerait un certain nombre de scénarios potentiellement désastreux. Au lieu de cela, le cadre est basé sur les connaissances disponibles dans le format de description de robot universel (URDF) – un format XML open source largement applicable et approprié pour la tâche. Un fichier URDF contiendra les paramètres de mouvement utilisables d’un objet, ainsi que des descriptions et d’autres facettes étiquetées des parties de l’objet.

Dans les pipelines conventionnels, il est nécessaire d’essentiellement décrire les capacités d’articulation d’un objet et d’étiqueter les valeurs de jointure pertinentes. Ce n’est pas une tâche bon marché ou facilement évolutives. Au lieu de cela, le flux de travail NaRF22 rend les composants individuels de l’objet avant de les « assembler » en une représentation articulée basée sur NeRF, avec des connaissances des paramètres de mouvement fournies par URDF.

Dans la deuxième étape du processus, un nouveau rendu est créé qui intègre toutes les parties. Même si il pourrait être plus facile de simplement concaténer les parties individuelles à une étape antérieure et de sauter cette étape ultérieure, les chercheurs observent que le modèle final – qui a été formé sur une carte graphique NVIDIA RTX 3080 sous un processeur AMD 5600X – a des exigences de calcul inférieures pendant la rétropropagation que tel un assemblage abrupt et prématuré.

De plus, le modèle de deuxième étape s’exécute à deux fois la vitesse d’un assemblage concaténé et « forcé », et les applications secondaires qui peuvent avoir besoin d’utiliser des informations sur les parties statiques du modèle n’auront pas besoin de leur propre accès aux informations URDF, car celles-ci ont déjà été intégrées dans le rendu final.

Données et expériences

Les chercheurs ont mené un certain nombre d’expériences pour tester NARF22 : une pour évaluer le rendu qualitatif pour chaque configuration et pose d’objet ; un test quantitatif pour comparer les résultats de rendu à des points de vue similaires vus par des robots du monde réel ; et une démonstration de l’estimation de configuration et d’un défi de raffinement de 6 DOF (profondeur de champ) qui a utilisé NARF22 pour effectuer une optimisation basée sur le gradient.

Les données de formation ont été tirées du jeu de données Progress Tools d’un article précédent de plusieurs des auteurs actuels. Progress Tools contient environ six mille images RGB-D (c’est-à-dire incluant des informations de profondeur, essentielles pour la vision robotique) à une résolution de 640×480. Les scènes utilisées comprenaient huit outils à main, divisés en leurs parties constituantes, avec des modèles de maillage et des informations sur les propriétés cinématiques des objets (c’est-à-dire la façon dont ils sont conçus pour bouger, et les paramètres de ce mouvement).

Le jeu de données Progress Tools présente quatre outils articulés. Les images ci-dessus sont des rendus basés sur NeRF à partir de NARF22.

Pour cette expérience, un modèle configurable final a été formé en utilisant uniquement des pinces à lignes, des pinces à long nez et un serre-joint (voir image ci-dessus). Les données de formation contenaient une seule configuration du serre-joint et une pour chaque paire de pinces.

La mise en œuvre de NARF22 est basée sur FastNeRF, avec les paramètres d’entrée modifiés pour se concentrer sur la pose concaténée et spatialement encodée des outils. FastNeRF utilise un perceptron multicouche factorisé (MLP) apparié à un mécanisme d’échantillonnage voxelisé (les voxels sont essentiellement des pixels, mais avec des coordonnées 3D complètes, afin qu’ils puissent fonctionner dans un espace tridimensionnel).

Pour le test qualitatif, les chercheurs observent qu’il y a plusieurs parties occluses du serre-joint (c’est-à-dire la colonne vertébrale centrale, qui ne peut pas être connue ou devinée en observant l’objet, mais seulement en interagissant avec lui, et que le système a du mal à créer cette géométrie « inconnue ».

Rendus qualitatifs d’outils.

En revanche, les pinces ont pu généraliser bien à de nouvelles configurations (c’est-à-dire à des extensions et des mouvements de leurs parties qui sont dans les paramètres URDF, mais qui ne sont pas explicitement abordés dans le matériel de formation pour le modèle.

Les chercheurs observent, cependant, que les erreurs d’étiquetage pour les pinces ont entraîné une diminution de la qualité de rendu pour les extrémités très détaillées des outils, affectant négativement les rendus – un problème lié à des préoccupations plus larges autour de la logistique d’étiquetage, du budget et de la précision dans le secteur de la recherche en vision par ordinateur, plutôt qu’à une lacune procédurale dans le pipeline NARF22.

Résultats du test d’exactitude de rendu.

Pour les tests d’estimation de configuration, les chercheurs ont effectué un raffinement de pose et une estimation de configuration à partir d’une pose « rigide » initiale, en évitant tout cache ou autre accélérateur utilisé par FastNeRF lui-même.

Ils ont ensuite formé 17 scènes bien ordonnées du jeu de test de Progress Tools (qui avaient été mises de côté pendant la formation), en exécutant 150 itérations d’optimisation par descente de gradient sous l’optimiseur Adam. Cette procédure a récupéré l’estimation de configuration « extrêmement bien », selon les chercheurs.