Robótica

Avance en “Spatial-AI” permite a los robots percibir entornos físicos como un ser humano

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

Los ingenieros en MIT están trabajando para dar a los robots la capacidad de seguir comandos de alto nivel, como ir a otra habitación para recuperar un artículo para un individuo. Para que esto sea posible, los robots necesitarán tener la capacidad de percibir sus entornos físicos de manera similar a como lo hacemos los humanos.

Luca Carlone es profesor asistente de aeronáutica y astronáutica en MIT.

“Para tomar cualquier decisión en el mundo, necesitas tener un modelo mental del entorno que te rodea”, dice Carlone. “Esto es algo tan esfuerzo para los humanos. Pero para los robots es un problema dolorosamente difícil, donde se trata de transformar valores de píxeles que ven a través de una cámara, en una comprensión del mundo.”

Para abordar este desafío, los investigadores modelaron una representación de la percepción espacial para robots basada en cómo los humanos perciben y navegan sus entornos físicos.

Gráficos de escena dinámicos 3D

El nuevo modelo se llama Gráficos de escena dinámicos 3D, y permite a un robot generar un mapa 3D de su entorno físico, incluyendo objetos y sus etiquetas semánticas. El robot también puede mapear personas, habitaciones, paredes y otras estructuras en el entorno.

El modelo luego permite al robot extraer información del mapa 3D, información que se puede utilizar para localizar objetos, habitaciones y el movimiento de personas.

“Esta representación comprimida del entorno es útil porque permite a nuestro robot tomar decisiones rápidas y planificar su ruta”, dice Carlone. “Esto no está muy lejos de lo que hacemos como humanos. Si necesitas planificar una ruta desde tu casa hasta MIT, no planificas cada posición individual que necesitas tomar. Solo piensas en el nivel de calles y puntos de referencia, lo que te ayuda a planificar tu ruta más rápido.”

Según Carlone, los robots que confían en este modelo podrían hacer mucho más que solo tareas domésticas. También podrían ser utilizados para habilidades de alto nivel y trabajar junto a personas en fábricas, o ayudar a localizar a sobrevivientes de un sitio de desastre.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Métodos actuales vs Nuevo modelo

Los métodos actuales para la visión y navegación robótica se centran principalmente en el mapeo 3D que permite a los robots reconstruir su entorno en tres dimensiones en tiempo real, o la segmentación semántica, que ocurre cuando los robots clasifican características del entorno como objetos semánticos, como un coche versus una bicicleta. La segmentación semántica a menudo se realiza en imágenes 2D.

El modelo recién desarrollado de percepción espacial es el primero de su tipo en generar un mapa 3D del entorno en tiempo real y etiquetar objetos, personas y estructuras dentro del mapa 3D al mismo tiempo.

Para lograr este nuevo modelo, los investigadores confiaron en Kimera, una biblioteca de código abierto. Kimera fue desarrollada previamente por el mismo equipo para construir un modelo geométrico 3D de un entorno, al mismo tiempo que codifica qué objeto es probable que sea, como una silla versus un escritorio.

“Al igual que la criatura mitológica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D”, dice Carlone.

Kimera utilizó imágenes de la cámara de un robot y mediciones inerciales de sensores a bordo para reconstruir la escena como una malla 3D en tiempo real. Para hacer esto, Kimera utilizó una red neuronal que ha sido entrenada con millones de imágenes del mundo real. Luego podía predecir la etiqueta de cada píxel y utilizar ray-casting para proyectarlos en 3D.

A través del uso de esta técnica, el entorno del robot se puede mapear en una malla tridimensional donde cada cara está codificada por colores, identificándola como parte de objetos, estructuras o personas en el entorno.

Malla 3D a gráficos de escena dinámicos 3D

Dado que el modelo de malla semántica 3D requiere mucha potencia computacional y es tiempo-consumidor, los investigadores utilizaron Kimera para desarrollar algoritmos que resultaron en gráficos de escena dinámicos 3D.

La malla semántica 3D se descompone en capas semánticas distintas, y el robot puede ver una escena a través de una capa. Las capas van desde objetos y personas, hasta espacios abiertos y estructuras, hasta habitaciones, corredores, pasillos y edificios completos.

Este método de capas permite al robot enfocarse en lugar de tener que analizar miles de millones de puntos y caras. Este método de capas también permite a los algoritmos rastrear a los humanos y su movimiento dentro del entorno en tiempo real.

El nuevo modelo se probó en un simulador foto-realista que simula a un robot que navega en un entorno de oficina con personas en movimiento.

“Estamos esencialmente permitiendo que los robots tengan modelos mentales similares a los que usamos los humanos”, dice Carlone. “Esto puede impactar muchas aplicaciones, incluyendo coches autónomos, búsqueda y rescate, fabricación colaborativa y robótica doméstica.

Carlone fue acompañado por el autor principal y estudiante de posgrado de MIT Antoni Rosinol.

“Nuestro enfoque solo ha sido posible gracias a los avances recientes en el aprendizaje profundo y décadas de investigación en localización y mapeo simultáneos”, dice Rosinol. “Con este trabajo, estamos dando el salto hacia una nueva era de percepción robótica llamada Spatial-AI, que apenas está en su infancia pero tiene un gran potencial en robótica y realidad virtual y aumentada a gran escala”.

La investigación se presentó en la conferencia virtual Robotics: Science and Systems.

Alex McFarland

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.