Líderes de opinión
Enseñamos a los robots a moverse. Ahora les estamos enseñando a vivir

La robótica moderna ha llegado a un punto en el que el movimiento ya no es el principal desafío: las máquinas ya pueden navegar, agarrar y operar en el espacio con una precisión impresionante. Sin embargo, permitirles “vivir” y funcionar en el mundo real sigue siendo un problema sin resolver.
En este proceso, el papel clave lo juega lo que podría llamarse la “medula espinal”: el sistema responsable de las reacciones básicas, el comportamiento y la interacción con el entorno.
Cuando se observa la evolución de los robots a través de esta lente, se hace claro que esta secuencia de etapas – donde el sistema aprende algo nuevo en cada paso, desde el simple movimiento hasta acciones complejas y conscientes del contexto – se asemeja mucho al desarrollo humano.
Y es precisamente dentro de esta evolución – desde el “hardware” vacío hasta un comportamiento significativo – que se está produciendo el principal cambio en la inteligencia artificial física hoy en día. Es interesante aprender más sobre ello.
La base de la robótica: una etapa rara vez discutida
¿Qué es un robot en términos prácticos? Es un dispositivo físico inicialmente creado como una plataforma universal. En esencia, es un “vacío” que debe adaptarse a tareas específicas, entrenarse para operar en un entorno determinado y enseñarse a realizar las acciones requeridas.
Si vamos más allá de los escenarios cotidianos y consideramos aplicaciones más realistas del futuro cercano, se hace claro que la adopción completa de los robots ocurrirá principalmente en entornos industriales y potencialmente peligrosos. Esto, a su vez, implica requisitos significativamente más altos para su comportamiento, robustez y calidad de entrenamiento.
El proceso comienza con el paso más básico: construir el dispositivo en sí. Un robot se ensambla a partir de múltiples componentes, incluyendo actuadores, motores, sensores, cámaras, LiDARs. Puede ser humanoides, con ruedas, bípedo o cuadrúpedo – el factor de forma es secundario. Lo que importa es que, en esta etapa, terminamos con un dispositivo funcionando pero aún “vacío”.
La siguiente etapa es instalar un modelo base que sirva como base para su comportamiento. En un sentido amplio, el “modelo” es la capa de control funcional completa. Es responsable de las capacidades básicas: mantener el equilibrio, pararse y moverse, navegar de un punto A a un punto B, evitar obstáculos, no dañar el entorno y interactuar de manera segura con los humanos.
Es aquí donde entra en juego el aprendizaje por refuerzo. En tales sistemas, se ejecutan miles de millones de simulaciones. A menudo vemos videos de robots “aprendiendo” en entornos complejos: la mayoría de ellos caen, pierden el equilibrio o no logran completar la tarea. Pero aquellos que logran mantenerse erguidos y seguir moviéndose son los que progresan.
Esta es la esencia del aprendizaje por refuerzo: seleccionar el comportamiento exitoso. Los algoritmos de aquellos que “sobreviven” se convierten en la base para las siguientes iteraciones. Como resultado, después de un número enorme de ejecuciones, emerge un modelo que puede manejar obstáculos con confianza. Este algoritmo se transfiere entonces al dispositivo físico.
Es una etapa fundamentada pero críticamente importante – a menudo involucra poco o nada de visión por computadora, que no se requiere en este punto. Lo que estamos tratando aquí es la física y la mecánica fundamentales que deben estar incrustadas en el sistema desde el principio.
Cómo los robots comienzan a “sentir” el mundo
Así que ya tenemos el “hardware” – un robot con un modelo base instalado: puede pararse, caminar y mantener el equilibrio. Pero ¿es esto suficiente para tareas del mundo real, por ejemplo, en entornos industriales? Claramente no.
La siguiente nivel comienza aquí. Integraremos sensores y entrenaremos al modelo para actuar basado en la entrada sensorial. Un nuevo conjunto de habilidades básicas emerge – ya mucho más complejo que el simple movimiento.
Una analogía con el desarrollo humano es útil aquí. En la primera etapa, trajimos el sistema a un nivel similar al de un niño de un año: puede pararse, dar sus primeros pasos y mantener el equilibrio sin caer. El siguiente paso es más en línea con el nivel de un niño de ocho años.
En esta edad, un niño utiliza activamente sus “sensores”: puede percibir el riesgo y evaluar las consecuencias de sus acciones. Puede entender no tocar algo caliente o poner algo muy frío en su boca. Puede subir a una mesa, andar en bicicleta e interactuar con objetos. Es capaz de agarrar, llevar y manipular artículos y realizar acciones básicas de autocuidado.
Llamamos a esta etapa preentrenamiento. Y en este punto, las simulaciones solas ya no son suficientes.
Sí, algunos escenarios aún pueden ser modelados de manera efectiva: cómo recoger un vaso, o reemplazar una batería, por ejemplo, eliminando un componente, colocándolo en carga, tomando otro y volviéndolo a instalar.
Pero en general, el equilibrio cambia: alrededor del 80% del entrenamiento aún puede ocurrir en simulación, mientras que alrededor del 20% de los datos deben provenir del mundo real. Y es aquí donde comenzamos a discutir los datos egocéntricos.
Datos egocéntricos como base para la comprensión del entorno
Hoy en día, los datos egocéntricos se están recopilando a una escala masiva en todo el mundo – porque sin ellos, es imposible pasar de la mecánica básica a una interacción significativa con el mundo real. Un colega mío, que dirige una red de talleres de reparación de automóviles, tiene empleados que utilizan cámaras montadas en la cabeza para grabar todo el proceso de reparación del automóvil. Un propietario de un edificio en la ciudad de Nueva York ha implementado un enfoque similar: el personal de limpieza lleva cámaras montadas en la frente que capturan cómo limpian espacios y mantienen áreas sanitarias.
Con el tiempo, estas grabaciones se convierten en un producto independiente – se empaquetan y se venden. Su valor clave radica en su idoneidad para la etapa de preentrenamiento, ayudando a construir una comprensión fundamental de los entornos y las secuencias de acciones.
Por ejemplo, tal servicio existía en Keymakr, donde el equipo creó independientemente colecciones completas de datos egocéntricos desde escenarios simples como lavar los platos hasta otros más complejos.
¿Por qué es esto tan importante? Porque tales datos proporcionan algo que la simulación pura no puede – la diversidad de entornos del mundo real. Oficinas, talleres de reparación de automóviles, sitios de construcción, restaurantes y hoteles – cada uno de estos agrega su propio contexto, escenarios y matices. Juntos, forman un conjunto de datos que permite al sistema no solo “ver”, sino comenzar a entender gradualmente la dinámica del mundo real.
En esta etapa, el objetivo ya no es enseñar a un robot a ejecutar perfectamente una acción específica. Lo que importa más es permitirle orientarse dentro de su entorno en primer lugar.
Hoy en día, casi todas las empresas que trabajan en robótica – desde Tesla hasta Unitree Robotics y Figure AI – se centran en esta etapa exacta. Su objetivo es construir un modelo base cuyas capacidades primero se asemejan a las de un “niño de ocho años”, y luego progresen hacia un “niño de doce años”. Esto es también lo que nos centramos en Introspector – preparar los datos necesarios para el preentrenamiento, la fase más crítica en la “mayoría de edad” de la robótica moderna.
La última milla del entrenamiento: donde la universalidad termina y comienza la especialización
Imaginemos que un robot ya ha completado el preentrenamiento y se fabrica desde el principio con una comprensión básica del mundo y un conjunto de habilidades comparable al de un adolescente. Pero incluso esto no es suficiente para casos de uso empresariales reales. Las empresas no necesitan solo un robot “de propósito general” – necesitan un especialista.
Tomemos la fabricación automotriz como ejemplo. Algunas tareas todavía se realizan por humanos porque requieren sensibilidad, precisión y control visual continuo. La automatización tradicional lucha aquí. Los manipuladores industriales excel en tareas repetitivas y rígidas – “agarrar, mover, colocar”. Pero las tareas que requieren adaptabilidad, detección de presión y ajustes en tiempo real siguen en el dominio humano.
Esto es donde surge una nueva demanda: entrenar a un robot para realizar una operación específica exactamente como lo hace un trabajador especializado en una línea de producción. En otras palabras, después del entrenamiento base viene el siguiente nivel: entrenamiento para una profesión y escenario específicos.
En este punto, surge una pregunta práctica: ¿qué exactamente se requiere para este nivel de entrenamiento? Si queremos que un robot reproduzca el rendimiento humano, necesitamos capturar ese comportamiento humano con la mayor precisión posible. Por ejemplo, el especialista en la planta de fabricación necesitaría llevar una cámara y, durante un período prolongado, meses o incluso un año, grabar cómo realiza la tarea.
Lo que se necesita para que los robots “vivan” en el mundo humano
Una cámara sola no es suficiente. Es necesario capturar no solo la perspectiva visual, sino también la física del movimiento. Esto se logra utilizando guantes especializados con sensores táctiles que miden la presión, la fuerza aplicada y la naturaleza de la interacción con los objetos. Esto es especialmente importante porque los objetos en sí pueden variar significativamente. Por ejemplo, las tiras de sellado pueden diferir en rigidez por modelo de automóvil, lo que afecta directamente cómo se realiza la tarea.
Lo siguiente es el seguimiento cinemático. Se colocan marcadores – visuales o basados en sensores – en las muñecas, codos y sometimes hombros. Estos pueden incluir, por ejemplo, pulseras con marcadores identificables (similares a códigos QR) que permiten al sistema rastrear la posición de la mano en el espacio a partir de un video. Se utilizan sensores adicionales, como giroscopios, para capturar los movimientos de las articulaciones.
El objetivo final es reconstruir completamente la mecánica del movimiento: cómo se mueve el hombro, cómo se dobla el codo, cómo se rota la muñeca. Todo esto se vuelve esencial para la siguiente etapa – el postentrenamiento.
Si, durante el preentrenamiento, aún podíamos confiar parcialmente en la simulación, en esta etapa ya no funciona. Esta “última milla” es casi imposible de modelar con precisión. No se puede simular completamente, por ejemplo, cómo un chef extiende la masa – la fuerza aplicada, cómo se distribuye la presión, cómo se siente el material.
Es por eso que, durante el postentrenamiento, casi todos los datos deben provenir del mundo real. Y es aquí donde se hace claro: el principal desafío se desplaza al dominio práctico – cómo obtener tales datos en la realidad. Recopilar datos egocéntricos a este nivel es un proceso complejo y multietapa que implica acceso a entornos, equipo especializado, participación de trabajadores especializados y preparación posterior de los datos.
Más allá de la teoría, es aquí donde los robots verdaderamente “cobran vida” – después de que logramos organizar este proceso, superar las limitaciones que enfrentan los equipos en diversas industrias y anotar tales conjuntos de datos a gran escala. Esto se cubrirá en la próxima parte, donde examinaremos más de cerca todos los desafíos que surgen durante su etiquetado y preparación.












