Connect with us

Dentro de la nueva carrera de robótica: datos, modelos y fabricación

Líderes de opinión

Dentro de la nueva carrera de robótica: datos, modelos y fabricación

mm

La innovación rara vez surge en aislamiento. Con más frecuencia, nace en conversaciones entre ingenieros, fundadores, investigadores y inversores que tratan de entender hacia dónde se dirige la tecnología.

A lo largo de un año, asistí a decenas de conferencias en todo el mundo. Los viajes de negocios a veces duran meses, y las reuniones con socios y clientes tienen lugar desde Asia hasta Norteamérica. Sin embargo, uno de mis viajes recientes a Suiza resultó ser particularmente interesante, en gran medida debido a las personas y las conversaciones que tuvieron lugar allí.

Zúrich resultó ser uno de los lugares donde se discute activamente el futuro de la robótica y la Inteligencia Artificial Física hoy en día. Y cuanto más profundas son estas conversaciones, más obvio se vuelve que la verdadera carrera en robótica se está desarrollando alrededor de los datos.

El Silicon Valley de Europa

Zúrich ha estado tradicionalmente asociado con el sector financiero, pero en los últimos años ha sido cada vez más llamado el Silicon Valley de Europa. Gran parte de esta reputación está ligada al ETH Zúrich, una de las universidades de ingeniería más respetadas de Europa. Atrae a investigadores, estudiantes de doctorado, empresarios e ingenieros de todo el mundo. Como resultado, se ha formado un poderoso ecosistema tecnológico alrededor de la universidad, donde la investigación, las startups y los proyectos industriales evolucionan casi simultáneamente.

Una de las razones de mi viaje fue obtener una comprensión más profunda de lo que Introspector puede ofrecer al mercado de la robótica, que ha estado en auge desde el comienzo de 2025. Es una industria que una amplia gama de startups están tratando de entrar, mientras que los avances tecnológicos de las principales empresas de tecnología están activamente remodelándola. Sin embargo, a pesar de todo este impulso, el campo aún plantea más preguntas que respuestas.

Zúrich también es el hogar de nuestros socios Lightly, quienes me ayudaron a conocer a colegas que trabajan en la intersección de la robótica, la visión por computadora y la inteligencia artificial. Hay un aspecto importante del ecosistema tecnológico local que me gustaría destacar: las personas aquí son notablemente abiertas y acogedoras. No tienen miedo de compartir sus ideas e hipótesis, de hablar sobre los desafíos que están tratando de resolver y los experimentos que están realizando. Como resultado, comienzas a entender el contexto real del mercado y hacia dónde se dirige la industria mucho más rápidamente.

Por cierto, cuando la gente me pregunta cómo difiere el “Silicon Valley” europeo del americano, la respuesta a menudo los sorprende. En Zúrich, el equilibrio entre el trabajo y la vida se siente mucho más fuerte: deportes en la mañana, trabajo enfocado durante el día en un ritmo calmado pero productivo, y noches pasadas en las montañas con la familia o simplemente relajándose. En San Francisco, a menudo hay una sensación de que constantemente necesitas demostrar que estás trabajando más duro que todos los demás. En Zúrich, el ritmo es diferente – más sostenible. Sin embargo, el nivel de ambición tecnológica aquí no es menor.

Mejores datos antes que mejores robots

Una de las principales conclusiones de este viaje fue una observación bastante simple: mucha gente hoy quiere trabajar en robótica. Pero a pesar del enorme interés en la industria, muchos equipos aún están en una fase de exploración, tratando de entender qué papel pueden desempeñar en la nueva ola de robótica y Inteligencia Artificial Física, y qué contribución pueden hacer.

Muchas conversaciones eventualmente convergen en el mismo tema: datos. Hoy en día, la industria carece de datos sobre tareas de destreza, es decir, habilidades motoras finas. En este área, las capacidades de los robots siguen siendo extremadamente limitadas. Lo que los humanos hacen con sus manos casi automáticamente – recoger un objeto, girarlo, colocarlo cuidadosamente en algún lugar o realizar una pequeña manipulación – sigue siendo una de las tareas más desafiantes para los robots.

La clave para el progreso aquí radica principalmente en conjuntos de datos a gran escala, recopilados adecuadamente. Hoy en día, la gente a menudo habla de conjuntos de datos egocéntricos, grabados desde una perspectiva en primera persona, donde el sistema capta las acciones humanas como si las estuviera realizando él mismo. Sin embargo, en la práctica, resulta que el concepto mismo de un “conjunto de datos egocéntrico” puede significar cosas muy diferentes y plantea una serie de preguntas técnicas. ¿Dónde debería colocarse la cámara? En la frente, en el pecho o tal vez a nivel de los ojos! ¿Qué sensores deberían acompañar la grabación de video? Si estamos capturando movimientos de la mano, ¿deberían los operadores usar guantes especiales? Y si es así, ¿deberían esos guantes incluir sensores táctiles, giroscopios u otros sistemas de seguimiento de movimiento?

Una pregunta aún más compleja surge: ¿cómo capturar adecuadamente la profundidad del movimiento? Después de todo, es importante entender no solo la posición de una mano en un plano bidimensional, sino también cómo se mueve a través del espacio tridimensional – hacia adelante, hacia atrás, hacia arriba o hacia abajo.

Hasta ahora, la industria no ha llegado a una respuesta unificada. Es por eso que muchos equipos hoy están experimentando con diferentes configuraciones de sensores, métodos de grabación y formatos de conjuntos de datos.

Sistemas multimodales

Tan pronto como la conversación se vuelve a la recopilación de datos para la robótica, otro tema emerge rápidamente – sensores adicionales y multimodalidad, que permiten capturar los movimientos del cuerpo, las acciones de la mano y las interacciones con objetos con mayor precisión. También ayudan a reducir los errores durante la recopilación de conjuntos de datos.

Cuando una persona graba sus acciones en cámara, siempre hay un riesgo de que parte del material sea inutilizable. La cámara puede desplazarse ligeramente, el ángulo de disparo puede ser incorrecto, el operador puede girar accidentalmente en la dirección equivocada o el operador puede realizar un movimiento demasiado rápido. Como resultado, una parte significativa del material grabado se descarta. Un ejemplo simple: para obtener una hora de video verdaderamente utilizable, un operador a menudo necesita grabar alrededor de dos horas de material bruto.

Los sensores adicionales ayudan a compensar algunos de estos problemas. Incluso si la cámara se desplaza ligeramente, los datos del sensor pueden hacer que sea posible reconstruir el movimiento de la mano o la posición del cuerpo en el espacio. Como resultado, en lugar de dos horas de grabación, podría tomar aproximadamente una hora y veinte minutos para obtener la misma cantidad de datos utilizable. Esto aumenta significativamente la eficiencia de la recopilación de conjuntos de datos y reduce el costo de crearlos.

No es coincidencia que muchos equipos también estén notando un creciente interés en la anotación de datos multimodales. Esto se ha convertido en una de las tendencias más visibles directamente conectadas al desarrollo de la robótica y la inteligencia artificial encarnada.

El siguiente punto es la etiquetado de dichos conjuntos de datos. Nos hemos encontrado con preguntas similares en Keymakr al trabajar con conjuntos de datos de clientes para casos de robótica: ¿cómo debería ser la anotación en la práctica? ¿Debería ser esquelética? ¿Bidimensional o tridimensional? ¿Deberían incorporarse elementos de aprendizaje por refuerzo en la canalización? Hay docenas de preguntas como estas. Los ingenieros mismos admiten que nadie puede decir con certeza todavía qué configuración de datos particular conducirá finalmente a un avance tecnológico real.

Estas preocupaciones son comprensibles. Construir conjuntos de datos complejos es un proceso costoso. Cada error en la estructura de los datos puede costar miles o incluso millones de dólares. Es posible recopilar el “conjunto de datos equivocado” o grabarlo en condiciones que son difíciles de reproducir en el mundo real, lo que en última instancia socava todo el proyecto. Es precisamente por eso que hoy en día se presta más atención a los modelos en sí y a la calidad y arquitectura de los datos en los que se entrenan esos modelos.

¿Qué tipo de robots necesita el mercado?

Los robots industriales clásicos, que han estado operando en las líneas de ensamblaje de automóviles durante décadas, en realidad requieren muy poca visión por computadora o modelos de inteligencia artificial complejos. Su tarea es extremadamente específica: realizar movimientos estrictamente repetitivos – izquierda, derecha, arriba, abajo – con alta precisión y consistencia. En este área, han superado ampliamente a los humanos.

Una categoría completamente diferente es la de los robots humanoides. Estos sistemas requieren “cerebros”: la capacidad de navegar en el espacio, percibir el entorno, entender el contexto de una situación y controlar manipuladores no a través de trayectorias preprogramadas, sino adaptándose al mundo real.

Incluso con el alto nivel de automatización en las plantas de fabricación modernas, muchas tareas todavía las realizan los humanos. Mover un objeto, recoger una caja, clasificar partes, fijar un componente u organizar materiales – estas son pequeñas acciones que requieren flexibilidad y coordinación. Esta área sigue siendo una de las más difíciles de automatizar, y es precisamente aquí donde los sistemas humanoides pueden encontrar su papel.

Muchos de los equipos con los que hablé están utilizando un modelo de negocio similar. Se acercan a una fábrica y proponen resolver un caso de producción específico. Por ejemplo, un trabajador puede pasar todo el día moviendo cajas entre zonas de almacén. Los ingenieros sugieren un experimento relativamente simple: equipar al trabajador con una cámara y un conjunto de sensores, grabar miles de horas de sus acciones y utilizar estos datos para entrenar un modelo que controle a un robot humanoide. De esta manera, el robot aprende a realizar exactamente las tareas realizadas por el trabajador humano.

En esencia, la empresa compra una plataforma humanoide, mientras que el equipo de desarrollo construye un modelo personalizado que replica el comportamiento de un operador específico. Esto no es una inteligencia universal capaz de resolver cualquier tarea. Más bien, es un conjunto de habilidades entrenadas para un escenario o grupo de tareas de producción particular. Para muchos ingenieros hoy en día, este enfoque parece mucho más realista. En lugar de tratar de crear un robot universal de inmediato, los equipos se centran en escenarios de automatización estrechos pero económicamente viables.

La dimensión empresarial

Si el futuro radica en modelos personalizados, es importante entender que, desde una perspectiva económica, este es un camino de desarrollo bastante largo.

Cada industria es esencialmente su propio mundo. Cada entorno de producción tiene sus propios procesos, flujos de trabajo y excepciones. Un robot entrenado para operar en una fábrica de automóviles no puede simplemente transferirse a la fabricación de alimentos o la logística de almacenes. En cada caso, el sistema debe ser entrenado desde cero.

Esto lleva a la siguiente pregunta lógica: ¿quién será el primer cliente de tal tecnología?

En esta etapa, los principales adoptantes probablemente sean grandes empresas – aquellas con los presupuestos y para las cuales la automatización puede generar un impacto económico significativo. Hoy en día, un robot humanoide cuesta alrededor de $60,000 a $90,000 solo por el hardware. Esto es solo la configuración base. Además de eso, hay costos de mantenimiento, baterías, estaciones de carga, infraestructura y software.

Como resultado, las empresas más capaces de experimentar con tales sistemas son grandes organizaciones, fabricantes de automóviles, corporaciones de alimentos y grandes empresas industriales.

Por supuesto, sectores más pequeños también pueden ver algunos adoptantes tempranos. Algunas empresas pueden comprar uno o dos robots para tareas específicas. Sin embargo, en la mayoría de los casos, estos negocios simplemente no están listos para invertir cientos de miles de euros en la recopilación y anotación de conjuntos de datos personalizados necesarios para entrenar sistemas para escenarios operativos muy específicos. Para ellos, la mano de obra humana sigue siendo la opción más barata.

El juego largo de la innovación en robótica

Finalmente, llegamos a una pregunta económica fundamental: ¿qué es más eficiente – un humano o un robot? Si miramos la economía de hoy, la respuesta es obvia: la mano de obra humana es más barata, se adapta más rápidamente a nuevas condiciones y no requiere infraestructura compleja.

Entonces, ¿por qué la industria sigue invirtiendo en robótica hoy? La respuesta es en gran medida estratégica.

Muchas empresas entienden que hay una especie de carrera por el liderazgo tecnológico en marcha. Ya están desarrollando soluciones, a pesar de los altos costos, para estar adelante cuando la economía de la robótica cambie.

A medida que avanzan la electrónica, disminuyen los costos de los componentes y mejora la eficiencia de la computación, la robótica inevitablemente se volverá más asequible. Y cuando eso suceda, la ventaja pertenecerá a las empresas que ya han construido modelos, acumulado datos y establecido la infraestructura tecnológica necesaria.

Imagina, por ejemplo, que surgen nuevas regulaciones que permiten el uso a gran escala de robots humanoides en la fabricación. O que los gobiernos comienzan a subsidiar la robotización de las industrias. En tal escenario, el mercado podría crecer dramáticamente en solo unos pocos años. Y aquellos que se prepararon con anticipación, aquellos con modelos existentes, investigación, conjuntos de datos y una pila tecnológica lista, serán los que se beneficien más.

Es por eso que el desarrollo continúa incluso ahora, a pesar de que la economía empresarial puede no parecer ideal. Para muchas empresas, es una inversión en el futuro – en el momento en que las tecnologías se vuelvan más accesibles y la demanda aumente bruscamente.

Y en esta carrera, como en muchas revoluciones tecnológicas, un factor a menudo resulta decisivo: quién comenzó antes. En este sentido, la robótica de hoy se asemeja mucho a las primeras etapas de la inteligencia artificial. En ese momento, también había más preguntas que respuestas. Sin embargo, fueron los equipos que comenzaron a trabajar con datos e infraestructura antes que los demás los que finalmente dieron forma a la dirección de toda la industria.

Michael Abramov es el fundador y CEO de Introspector, aportando más de 15+ años de experiencia en ingeniería de software y sistemas de visión artificial para la construcción de herramientas de etiquetado de grado empresarial.

Michael comenzó su carrera como ingeniero de software y gerente de I&D, construyendo sistemas de datos escalables y gestionando equipos de ingeniería multifuncionales. Hasta 2025, ha servido como CEO de Keymakr, una empresa de servicios de etiquetado de datos, donde pioneró flujos de trabajo de humano en el bucle, sistemas de control de calidad avanzados y herramientas personalizadas para satisfacer las necesidades de datos de visión artificial y autonomía a gran escala.

Tiene una licenciatura en Ciencias de la Computación y una formación en ingeniería y artes creativas, lo que le permite abordar problemas difíciles desde una perspectiva multidisciplinaria. Michael vive en la intersección de la innovación tecnológica, el liderazgo de productos estratégicos y el impacto en el mundo real, impulsando hacia adelante la próxima frontera de los sistemas autónomos y la automatización inteligente.