Connect with us

Líderes de opinión

Los datos generados por juegos podrían ser el recurso más subestimado en la capacitación de IA

mm

Las empresas de IA han pasado los últimos cinco años consumiendo cada pieza de texto, cada imagen y cada trozo de datos públicamente disponibles en Internet. Ese suministro es finito, y nos estamos acercando al punto en el que simplemente no hay suficientes datos para mantener el ritmo de progreso en el que se ha basado.

Sin embargo, hay un candidato obvio que la industria de IA ha pasado por alto en gran medida.

Me dedico a construir sistemas de juegos para vivir, y los datos que fluyen a través de ellos todos los días son diferentes a cualquier cosa con la que la mayoría de los investigadores de IA hayan trabajado. Y, sin embargo, casi nadie fuera del sector de los juegos parece estar prestando atención a ellos.

Las plataformas de juegos generan terabytes de datos de comportamiento todos los días, flujos estructurados de decisiones en tiempo real, actividad económica y interacción social, todo dentro de entornos construidos sobre reglas físicas consistentes.

Casi none de estos datos ha sido utilizado para la capacitación de IA. Y las empresas que lo han utilizado, desde DeepMind hasta NVIDIA, han producido algunos de los avances más significativos en el campo.

El problema de datos de IA

Un estudio de Epoch AI proyecta que el stock de datos de texto humanos generados públicamente se agotará en algún momento entre 2026 y 2032. Los modelos detrás de ChatGPT, Gemini y Claude ya han consumido esencialmente todo lo que Internet tiene que ofrecer.

Los datos sintéticos o texto que IA genera para alimentar de nuevo a IA es el workaround predeterminado de la industria. Pero los modelos entrenados con su propia salida se deterioran con el tiempo a través de un fenómeno documentado que los investigadores llaman colapso de modelo.

Lo que creo que el campo necesita es una información rica, interactiva, multimodal donde la causa y el efecto suceden en tiempo real y cada acción tiene una consecuencia medible. Los juegos producen exactamente esto, y lo hacen a una escala que casi nada más puede igualar.

Las plataformas de juegos empujan terabytes de datos de comportamiento a través de sus sistemas todos los días. Los movimientos de los jugadores, las elecciones estratégicas, los tiempos de reacción, las transacciones económicas y las interacciones sociales fluyen a través de flujos estructurados y fechados que la mayoría de los investigadores de IA nunca han tocado.

Un artículo académico reciente sobre datos generados por juegos establece una taxonomía de nueve categorías de esta información y argumenta que la gran mayoría de ella sigue sin ser utilizada por la industria de IA.

Puedo confirmarlo desde mi propia experiencia. La cantidad de datos que fluye a través de nuestros sistemas de juegos en cualquier día dado sería considerada un filón en cualquier otra área de investigación de IA. En los juegos, simplemente se archiva o se descarta.

Por qué los datos de juegos son diferentes

Cuando construyes dentro de un motor de juego durante mucho tiempo, comienzas a darte cuenta de cuánto datos estructurados tienes sentado que nadie en IA ha pedido aún. Cada sesión produce física sincronizada, comportamiento del jugador y causa y efecto a nivel de sistema a una escala que es difícil de encontrar en cualquier otro lugar.

Los motores de juego imponen física. Los objetos caen, chocan y se rompen según reglas consistentes, lo que significa que los datos llevan relaciones causales integradas a nivel de sistema en lugar de patrones que un modelo tiene que adivinar a partir de correlaciones de texto.

Cuando un jugador lanza un proyectil, el motor calcula la trayectoria, la resistencia del viento y el impacto. IA aprende de un entorno que demuestra física directamente a través de cada interacción, en lugar de uno que trata las leyes físicas como aproximaciones estadísticas.

También hay el problema de alineación multimodal. En un juego, los datos visuales, las señales de audio, las entradas del jugador y el estado del entorno ocurren simultáneamente y se registran juntos. Ese tipo de sincronización natural cuesta una fortuna para replicar en conjuntos de datos del mundo real, donde los investigadores típicamente tienen que etiquetar y alinear cada modalidad a mano.

Los juegos producen casos de borde a gran escala, también, a través de la generación de contenido procedural. No Man’s Sky tiene 18 quintillones de planetas únicos, y para IA, esa variación es enormemente importante porque los casos de borde determinan si un modelo funciona de manera confiable o falla peligrosamente.

Y luego está la complejidad emergente, que podría ser la propiedad más valiosa de todas. Cuando OpenAI colocó agentes en un juego de escondite simple, esos agentes desarrollaron seis fases distintas de estrategia sofisticada enteramente por su cuenta durante cientos de millones de rondas.

Construyeron refugios con objetos movibles, usaron rampas para brechar fortificaciones y incluso explotaron fallos de física para surfear cajas sobre paredes. Nada de eso fue programado. Todo surgió de la competencia dentro del entorno del juego, sin una sola línea de código que les dijera que lo hicieran.

Ese tipo de complejidad auto-generada es exactamente lo que la investigación de IA necesita a gran escala, y los juegos son los únicos entornos que la producen de manera confiable sin una costosa supervisión humana.

De tableros de juego a premios Nobel

La prueba más clara de que la IA entrenada en juegos se transfiere al mundo real es un sistema que llegó a ganar un premio Nobel, y es el ejemplo al que siempre vuelvo cuando la gente me pregunta por qué construí mi carrera alrededor de juegos y IA.

DeepMind comenzó con AlphaGo en 2016, luego construyó AlphaZero, un sistema que se enseñó a sí mismo ajedrez, Go y shogi sin conocimiento humano. La arquitectura de AlphaZero se convirtió en la base para AlphaFold, que resolvió el problema de plegamiento de proteínas de 50 años y ganó a sus creadores el premio Nobel de Química de 2024.

El CEO de DeepMind, Demis Hassabis, ha sido abierto sobre esta canalización. Dijo a Scientific American que los juegos nunca fueron el objetivo final, sino más bien la forma más eficiente de desarrollar y probar técnicas de IA antes de aplicarlas a problemas científicos reales.

Recuerdo leer eso y sentir que alguien había articulado exactamente lo que había estado viendo desde el interior del desarrollo de juegos durante años.

Esa trayectoria se ha repetido desde entonces en todo el campo. Los entornos de aprendizaje por refuerzo que OpenAI estandarizó primero a través de Gymnasium ahora subyacen en la investigación en robótica, vehículos autónomos y automatización industrial.

La estructura similar a un juego de agente, entorno, acción y recompensa comenzó como una comodidad de investigación y se ha convertido en el marco predeterminado para cualquier sistema de IA que necesite actuar en el mundo físico.

Juegos como la nueva capa de simulación

En diciembre de 2025, NVIDIA lanzó NitroGen, un modelo de base entrenado en 40,000 horas de juego a través de más de 1,000 títulos. El modelo ve vídeos de juego públicamente disponibles, extrae acciones del jugador de superposiciones de controladores y aprende a jugar juegos directamente desde píxeles sin procesar.

En juegos no vistos que nunca había encontrado, NitroGen mostró hasta un 52% de mejora en el éxito de la tarea en comparación con los modelos entrenados desde cero. Pero la verdadera importancia radica en la arquitectura subyacente.

NitroGen se ejecuta en el marco de robótica GR00T de NVIDIA, la misma base que la empresa usa para la transferencia de IA física y sim-to-real en su plataforma Isaac Sim. El agente de juego y el robot de fábrica comparten el mismo sistema subyacente.

Jim Fan de NVIDIA describió el proyecto como un intento de construir “un GPT para acciones”, un modelo de propósito general que aprende a operar en cualquier entorno.

Como alguien que construye sistemas de juegos que generan exactamente el tipo de datos que estos modelos consumen, me resulta difícil exagerar lo que eso significa para la industria en la que trabajo.

Y esto no se limita a NVIDIA. Waymo ha registrado más de 20 mil millones de millas simuladas para entrenar a sus vehículos autónomos, todo en entornos de estilo de motor de juego que ensayan escenarios demasiado peligrosos o demasiado raros para probar en carreteras reales.

Las plataformas quirúrgicas construidas sobre motores de juego han mostrado mejoras dramáticas en el rendimiento de los entrenados. Los planificadores urbanos utilizan herramientas similares para la optimización de tráfico a escala de ciudad.

Las plataformas quirúrgicas construidas sobre motores de juego han mostrado mejoras dramáticas en el rendimiento de los entrenados. Los planificadores urbanos utilizan herramientas similares para la optimización de tráfico a escala de ciudad. El motor de juego se ha convertido en una capa de simulación universal dondequiera que IA necesite aprender a través de la interacción con su entorno.

La infraestructura de la que nadie habla

Cuando la gente discute la infraestructura de IA, tienden a significar centros de datos, clústeres de GPU y cómputo. En todos los años que he trabajado en juegos, puedo contar con una mano el número de veces que he oído a alguien en el espacio de IA mencionar entornos de juego en la misma respiración. Esa desconexión se cerrará muy rápidamente.

Esto solo se volverá más obvio a medida que los conjuntos de datos tradicionales se agoten. Las industrias que producen los datos interactivos más ricos inevitablemente se moverán hacia el centro de la investigación de IA, y los juegos, las simulaciones y los mundos virtuales están mejor posicionados que cualquier otra cosa para llenar esa brecha.

El dinero ya está siguiendo esta tendencia. La IA en el sector de los juegos se valoró en $4.54 mil millones en 2025 y se prevé que alcance $81 mil millones para 2035.

La mayoría de los estudios de juegos con los que hablo todavía se consideran empresas de entretenimiento. Pero cuando tus sistemas generan los datos exactos que la próxima generación de modelos de IA necesita para entrenar, estás en el negocio de la infraestructura ya sea que lo planearas o no.

Ilman Shazhaev es el fundador y CEO de Dizzaract, el estudio de juegos más grande en la región de MENA. Él es un investigador de IA y experto de las Naciones Unidas bajo el programa UNODC que trabaja en la intersección de la inteligencia artificial y el impacto en el mundo real.