Ángulo de Anderson
Enseñar a los robots sobre herramientas con campos de radiación neural (NeRF)

Nueva investigación de la Universidad de Michigan ofrece una forma para que los robots entiendan los mecanismos de las herramientas y otros objetos articulados del mundo real, creando campos de radiación neural (NeRF) que demuestran cómo se mueven estos objetos, lo que podría permitir que el robot interactúe con ellos y los utilice sin una configuración predefinida tediosa.

Al utilizar referencias de fuente conocidas para la motilidad interna de las herramientas (o cualquier objeto con una referencia adecuada), NARF22 puede sintetizar una aproximación fotorealista de la herramienta y su rango de movimiento y tipo de operación. Fuente: https://progress.eecs.umich.edu/projects/narf/
Los robots que deben hacer más que evitar a los peatones o realizar rutinas preprogramadas de manera elaborada (para las cuales es probable que se hayan etiquetado y entrenado conjuntos de datos no reutilizables a expensas considerables) necesitan esta capacidad adaptativa si van a trabajar con los mismos materiales y objetos con los que el resto de nosotros debe lidiar.
Hasta la fecha, ha habido varios obstáculos para infundir a los sistemas robóticos esta clase de versatilidad. Estos incluyen la escasez de conjuntos de datos aplicables, muchos de los cuales presentan un número muy limitado de objetos; el gran gasto involucrado en la generación de modelos 3D fotorealistas basados en malla que puedan ayudar a los robots a aprender instrumentos en el contexto del mundo real; y la calidad no fotorealista de dichos conjuntos de datos que pueden ser adecuados para el desafío, lo que hace que los objetos parezcan desconectados de lo que el robot percibe en el mundo que lo rodea, y lo entrena para buscar un objeto de aspecto caricaturesco que nunca aparecerá en la realidad.
Para abordar esto, los investigadores de Michigan, cuyo artículo se titula NARF22: Campos de radiación neural articulados para renderizado consciente de la configuración, han desarrollado una canalización de dos etapas para generar objetos articulados basados en NeRF que tienen un aspecto de “mundo real” y que incorporan el movimiento y las limitaciones resultantes de cualquier objeto articulado en particular.

Aunque parece más complejo, las dos etapas esenciales de la canalización NARF22 implican renderizar partes estáticas de herramientas móviles, y luego componer estos elementos en un segundo conjunto de datos que está informado sobre los parámetros de movimiento que estos elementos tienen, relativos entre sí. Fuente: https://arxiv.org/pdf/2210.01166.pdf
El sistema se llama Campo de radiación neural articulado – o NARF22, para distinguirlo de otro proyecto con un nombre similar.
NARF22
Determinar si un objeto desconocido es potencialmente articulado requiere una cantidad casi inconcebible de conocimiento previo de estilo humano. Por ejemplo, si nunca hubieras visto un cajón cerrado antes, podría parecer cualquier otro tipo de panel decorativo – no es hasta que lo has abierto que internalizas ‘cajón’ como un objeto articulado con un solo eje de movimiento (hacia adelante y hacia atrás).
Por lo tanto, NARF22 no está destinado como un sistema exploratorio para recoger cosas y ver si tienen partes móviles accionables – un comportamiento casi simio que implicaría una serie de escenarios potencialmente desastrosos. Más bien, el marco se basa en el conocimiento disponible en Formato de descripción de robot universal (URDF) – un formato de código abierto basado en XML que es ampliamente aplicable y adecuado para la tarea. Un archivo URDF contendrá los parámetros de movimiento utilizables de un objeto, así como descripciones y otras facetas etiquetadas de las partes del objeto.
En las canalizaciones convencionales, es necesario describir esencialmente las capacidades de articulación de un objeto, y etiquetar los valores de las articulaciones pertinentes. Esto no es una tarea barata ni fácilmente escalable. En cambio, el flujo de trabajo de NaRF22 renderiza los componentes individuales del objeto antes de ‘ensamblar’ cada componente estático en una representación articulada basada en NeRF, con conocimiento de los parámetros de movimiento proporcionados por URDF.

En la segunda etapa del proceso, se crea un renderizador completamente nuevo que incorpora todas las partes. Aunque podría ser más fácil simplemente concatenar las partes individuales en una etapa anterior y saltar este paso posterior, los investigadores observan que el modelo final – que se entrenó en una GPU NVIDIA RTX 3080 bajo un CPU AMD 5600X – tiene demandas computacionales más bajas durante la retropropagación que una concatenación abrupta y prematura.
Además, el modelo de la segunda etapa se ejecuta a dos veces la velocidad de una concatenación ‘bruta’ y forzada, y cualquier aplicación secundaria que pueda necesitar utilizar información sobre partes estáticas del modelo no necesitará su propio acceso a la información de URDF, porque esto ya se ha incorporado en el renderizador de la segunda etapa.
Datos y experimentos
Los investigadores realizaron una serie de experimentos para probar NARF22: uno para evaluar la renderización cualitativa para cada configuración y pose del objeto; una prueba cuantitativa para comparar los resultados renderizados con puntos de vista similares vistos por robots del mundo real; y una demostración de la estimación de configuración y un desafío de refinamiento de 6 grados de libertad que utilizó NARF22 para realizar una optimización basada en gradiente.
Los datos de entrenamiento se tomaron del conjunto de datos Herramientas de progreso de un artículo anterior de varios de los autores actuales. Herramientas de progreso contiene alrededor de seis mil imágenes RGB-D (es decir, que incluyen información de profundidad, esencial para la visión robótica) a una resolución de 640×480. Las escenas utilizadas incluyeron ocho herramientas manuales, divididas en sus partes constituyentes, completas con modelos de malla e información sobre las propiedades cinemáticas de los objetos (es decir, la forma en que están diseñados para moverse y los parámetros de ese movimiento).

El conjunto de datos de herramientas de progreso presenta cuatro herramientas articuladas. Las imágenes de arriba son renderizaciones basadas en NeRF de NARF22.
Para este experimento, se entrenó un modelo configurable final utilizando solo alicates de línea, alicates de punta larga y un clamp (ver imagen de arriba). Los datos de entrenamiento contenían una sola configuración del clamp y una para cada uno de los alicates.
La implementación de NARF22 se basa en FastNeRF, con los parámetros de entrada modificados para concentrarse en la pose concatenada y codificada espacialmente de las herramientas. FastNeRF utiliza un perceptrón multicapa factorizado emparejado con un mecanismo de muestreo voxelizado (voxels son esencialmente píxeles, pero con coordenadas 3D completas, para que puedan operar en un espacio tridimensional).
Para la prueba cualitativa, los investigadores observan que hay varias partes ocultas del clamp (es decir, la columna vertebral central, que no puede ser conocida o adivinada observando el objeto, sino solo interactuando con él, y que el sistema tiene dificultades para crear esta geometría ‘desconocida’.

Renderizaciones cualitativas de herramientas.
Por contraste, los alicates fueron capaces de generalizar bien a configuraciones novedosas (es decir, a extensiones y movimientos de sus partes que están dentro de los parámetros de URDF, pero que no se abordan explícitamente en el material de entrenamiento para el modelo.
Los investigadores observan, sin embargo, que los errores de etiquetado para los alicates llevaron a una disminución de la calidad de la renderización para las puntas muy detalladas de las herramientas, lo que afectó negativamente las renderizaciones – un problema relacionado con preocupaciones más amplias sobre la logística de etiquetado, presupuesto y precisión en el sector de investigación de visión por computadora, en lugar de cualquier fallo procedimental en la canalización NARF22.

Resultados de la prueba de precisión de renderizado.
Para las pruebas de estimación de configuración, los investigadores realizaron un refinamiento de pose y una estimación de configuración a partir de una pose ‘rígida’ inicial, evitando cualquier tipo de aceleración o atajo utilizado por FastNeRF en sí.
Luego entrenaron 17 escenas bien ordenadas del conjunto de pruebas de Herramientas de progreso (que se habían mantenido aparte durante el entrenamiento), ejecutando 150 iteraciones de optimización de gradiente bajo el optimizador Adam. Este procedimiento recuperó la estimación de configuración ‘extremadamente bien’, según los investigadores.

Resultados de la prueba de estimación de configuración.
Publicado por primera vez el 5 de octubre de 2022.












