Inteligencia artificial

Thinking Machines Lab Envía su Primer Modelo con Interacción en Tiempo Real de 200ms

Published May 12, 2026

Alex McFarland

Thinking Machines Lab, la startup de inteligencia artificial fundada por la ex directora de tecnología de OpenAI Mira Murati, lanzó una vista previa de investigación de su primer modelo interno el 11 de mayo de 2026, poniendo fin a más de un año de silencio sobre lo que el laboratorio realmente construiría. La empresa llama al sistema un “modelo de interacción” — una arquitectura multimodal entrenada desde cero para procesar audio, video y texto en trozos de 200 milisegundos en lugar de esperar a que los usuarios terminen de hablar.

El modelo, llamado TML-Interaction-Small, es un sistema de mezcla de expertos de 276 mil millones de parámetros con 12 mil millones de parámetros activos. Según el anuncio del blog de la empresa, es el primer producto de un laboratorio que ha recaudado alrededor de $2 mil millones a una valoración de $12 mil millones sin enviar nada más allá de una herramienta de afinamiento. El lanzamiento llega en medio de una presión sostenida por la partida de talentos y una ronda de financiación seguida que no se cerró.

Qué Hace Realmente un Modelo de Interacción

Thinking Machines argumenta que los modelos de frontera actuales — incluidos GPT-Realtime de OpenAI y Gemini Live de Google — agregan comportamiento en tiempo real a arquitecturas basadas en turnos utilizando un “arnés” de componentes externos como la detección de actividad de voz. Esos componentes deciden cuándo el usuario ha dejado de hablar y luego entregan una declaración terminada al modelo. Mientras el modelo genera una respuesta, su percepción del mundo se congela.

El modelo de interacción reemplaza ese andamiaje con lo que la empresa llama micro-turnos sincronizados con el tiempo. El sistema procesa continuamente 200 milisegundos de entrada mientras genera 200 milisegundos de salida, con ambas corrientes de tokens intercaladas en el mismo ciclo de reloj. Esa estructura permite que el modelo interrumpa a un usuario a mitad de frase, reaccione a señales visuales sin ser solicitado o hable simultáneamente con el usuario para tareas como la traducción en vivo.

La arquitectura salta los codificadores independientes pesados. El audio se alimenta como características dMel a través de una capa de incrustación ligera, las imágenes se dividen en parches de 40×40 y todos los componentes se entrenan desde cero con el transformador. Un modelo de fondo separado se ejecuta de forma asíncrona, manejando razonamientos más profundos, llamadas a herramientas y navegación web mientras el modelo de interacción permanece presente en la conversación.

En las pruebas de referencia reportadas por la empresa, TML-Interaction-Small registra una latencia de toma de turnos de 0,40 segundos en FD-bench V1, en comparación con 1,18 segundos para GPT-Realtime-2.0 en su modo de pensamiento mínimo y 0,57 segundos para Gemini-3.1-flash-live. En FD-bench V1.5, que califica la calidad de la interacción en interrupciones del usuario, canales de retroalimentación y habla de fondo, el modelo califica 77,8 frente a 46,8 para GPT-Realtime-2.0 mínimo y 45,5 para Gemini-3.1-flash-live en su modo de pensamiento alto. Las cifras son autoinformadas.

Un Primer Envío Largo Tiempo Esperado

El lanzamiento cierra una brecha larga entre la financiación y el producto. Thinking Machines se fundó en febrero de 2025 y en julio de ese año cerró una ronda de semillas de $2 mil millones a una valoración de $12 mil millones — ampliamente informada como la ronda de semillas más grande registrada. La ronda fue liderada por Andreessen Horowitz con la participación de Nvidia, AMD, Cisco, Accel, ServiceNow y Jane Street. Hasta ahora, el único producto que la empresa ha enviado es Tinker, una API para afinar modelos de pesos abiertos que se lanzó en octubre de 2025.

Los meses intermedios trajeron turbulencia. Los cofundadores Barret Zoph y Luke Metz dejaron la empresa en enero de 2026 para regresar a OpenAI, con Murati anunciando que la empresa había “cortado lazos” con Zoph. Andrew Tulloch se fue a los Laboratorios de Superinteligencia de Meta después de que Mark Zuckerberg hizo una oferta reportada de $1 mil millones para adquirir la empresa directamente, que fue rechazada. Meta ha contratado desde entonces a cinco miembros fundadores del laboratorio. Murati respondió promoviendo a Soumith Chintala, co-creador de PyTorch, a director de tecnología. Una ronda de seguimiento reportada a una valoración de aproximadamente $50 mil millones no se cerró a finales de 2025.

La historia de cómputo se movió en la dirección opuesta. En marzo, Thinking Machines anunció una asociación con Nvidia que cubre una inversión no divulgada y el despliegue de al menos un gigavatio de sistemas Vera Rubin de próxima generación. El laboratorio también expandió su relación con Google Cloud para cubrir el entrenamiento de modelos de frontera en hardware Nvidia GB300.

Qué Observar

El modelo de interacción aún no está disponible para empresas o el público. Thinking Machines dice que una vista previa de investigación limitada se abrirá a socios seleccionados en los próximos meses, con un lanzamiento más amplio más adelante en 2026. La empresa también planea lanzar modelos de interacción más grandes, señalando que la versión actual de 276 mil millones de parámetros es la variante más pequeña que puede servir a la latencia requerida.

La verificación independiente de las afirmaciones de referencia es la pregunta inmediata. FD-bench es una de las pocas pruebas de referencia públicas que apuntan a la calidad de la interacción, y las puntuaciones de Thinking Machines aún no han sido reproducidas por terceros bajo cargas realistas. Las pruebas de proactividad que la empresa introdujo para señales visuales, incluidas versiones adaptadas de RepCount-A, ProactiveVideoQA y Charades, son nuevos instrumentos sin una línea de base establecida.

La apuesta estratégica es más puntual. Mientras que OpenAI, Anthropic y Google han pasado el último año impulsando las capacidades de los agentes autónomos, Thinking Machines está apostando que el próximo eje de competencia será cómo los humanos se comunican con la IA — más cerca de una conversación continua que de una serie de prompts. El modelo de interacción compite más directamente con los sistemas de voz en tiempo real de IA que se envían desde OpenAI, Google y una creciente capa de startups enfocadas en el habla. Si la arquitectura sobrevive al contacto con las cargas de trabajo de producción — sesiones largas, conectividad no fiable y las restricciones de seguridad de la negación en tiempo real — es la prueba que la próxima ronda de vista previa impondrá.

Alex McFarland

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.

Unite.AI

Thinking Machines Lab Envía su Primer Modelo con Interacción en Tiempo Real de 200ms

Qué Hace Realmente un Modelo de Interacción

Un Primer Envío Largo Tiempo Esperado

Qué Observar

You may like