Connect with us

Le labatoire de machines pensantes de Thinking Machines expédie son premier modèle avec une interaction en temps réel de 200 ms

Intelligence artificielle

Le labatoire de machines pensantes de Thinking Machines expédie son premier modèle avec une interaction en temps réel de 200 ms

mm

Le labatoire de machines pensantes, la startup d’IA fondée par l’ancien directeur technique d’OpenAI Mira Murati, a publié une préversion de recherche de son premier modèle interne le 11 mai 2026, mettant fin à plus d’un an de silence sur ce que le labatoire allait réellement construire. L’entreprise appelle le système un “modèle d’interaction” – une architecture multimodale formée à partir de zéro pour traiter l’audio, la vidéo et le texte en blocs de 200 millisecondes plutôt que d’attendre que les utilisateurs terminent un tour.

Le modèle, nommé TML-Interaction-Small, est un système à 276 milliards de paramètres de type mixture-of-experts avec 12 milliards de paramètres actifs. Selon l’article de blog d’annonce de l’entreprise annonce, il s’agit du premier produit d’un labatoire qui a levé environ 2 milliards de dollars à une valorisation de 12 milliards de dollars sans expédier quoi que ce soit au-delà d’un outil de fine-tuning. La sortie intervient au milieu d’une pression soutenue due aux départs de talents et à un cycle de financement suivant bloqué.

Ce qu’un modèle d’interaction fait réellement

Thinking Machines soutient que les modèles de pointe actuels – y compris GPT-Realtime d’OpenAI et Gemini Live de Google – ajoutent un comportement en temps réel à des architectures basées sur des tours en utilisant un “harnais” de composants externes comme la détection d’activité vocale. Ces composants décident lorsque l’utilisateur a cessé de parler, puis transmettent une énonciation terminée au modèle. Alors que le modèle génère une réponse, sa perception du monde se fige.

Le modèle d’interaction remplace cet échafaudage avec ce que l’entreprise appelle des micro-tours synchronisés dans le temps. Le système traite en continu 200 millisecondes d’entrée tout en générant 200 millisecondes de sortie, avec les deux flux de jetons entrelacés sur le même cycle d’horloge. Cette structure permet au modèle d’interrompre un utilisateur en pleine phrase, de réagir à des signaux visuels sans être invité, ou de parler simultanément avec l’utilisateur pour des tâches telles que la traduction en temps réel.

L’architecture omet les encodeurs autonomes lourds. L’audio est alimenté sous forme de fonctionnalités dMel via une couche d’intégration légère, les images sont divisées en patches de 40×40, et tous les composants sont formés à partir de zéro avec le transformateur. Un modèle de fond distinct fonctionne de manière asynchrone, gérant une réflexion plus approfondie, des appels d’outils et une navigation Web tandis que le modèle d’interaction reste présent dans la conversation.

Selon les benchmarks signalés par l’entreprise, TML-Interaction-Small affiche une latence de prise de tour de 0,40 seconde sur FD-bench V1, par rapport à 1,18 seconde pour GPT-Realtime-2.0 en mode de réflexion minimale et 0,57 seconde pour Gemini-3.1-flash-live. Sur FD-bench V1.5, qui évalue la qualité d’interaction sur les interruptions de l’utilisateur, les canaux de retour et la parole de fond, le modèle obtient un score de 77,8 contre 46,8 pour GPT-Realtime-2.0 minimal et 45,5 pour Gemini-3.1-flash-live en mode de réflexion élevée. Les chiffres sont auto-déclarés.

Un premier lancement attendu depuis longtemps

La sortie met fin à un long intervalle entre le financement et le produit. Thinking Machines a été fondé en février 2025 et en juillet de la même année, il a clôturé un cycle de financement initial de 2 milliards de dollars à une valorisation de 12 milliards de dollars – largement rapporté comme le plus grand cycle de financement initial enregistré. Le cycle a été mené par Andreessen Horowitz avec la participation de Nvidia, AMD, Cisco, Accel, ServiceNow et Jane Street. Jusqu’à présent, le seul produit expédié par l’entreprise était Tinker, une API pour le fine-tuning des modèles à poids ouvert qui a été lancée en octobre 2025.

Les mois intermédiaires ont apporté des turbulences. Les co-fondateurs Barret Zoph et Luke Metz sont partis en janvier 2026 pour retourner à OpenAI, Murati annonçant que l’entreprise avait “rompu” avec Zoph. Andrew Tulloch a quitté Meta pour les Superintelligence Labs après que Mark Zuckerberg ait proposé un milliard de dollars pour acquérir l’entreprise, une offre qui a été rejetée. Meta a depuis embauché cinq membres fondateurs du labatoire. Murati a répondu en promouvant Soumith Chintala, co-créateur de PyTorch, au poste de directeur technique. Un cycle de financement suivant prévu à une valorisation d’environ 50 milliards de dollars n’a pas été clôturé d’ici la fin de 2025.

L’histoire de l’informatique a évolué dans la direction opposée. En mars, Thinking Machines a annoncé un partenariat avec Nvidia couvrant un investissement non divulgué et le déploiement d’au moins un gigawatt de systèmes Vera Rubin de nouvelle génération. Le labatoire a également élargi sa relation avec Google Cloud pour couvrir la formation de modèles de pointe sur le matériel Nvidia GB300.

Que regarder

Le modèle d’interaction n’est pas encore disponible pour les entreprises ou le public. Thinking Machines indique qu’une préversion de recherche limitée sera ouverte à des partenaires sélectionnés dans les prochains mois, avec une sortie plus large plus tard en 2026. L’entreprise prévoit également de sortir des modèles d’interaction plus grands, notant que la version actuelle de 276 milliards de paramètres est la plus petite variante qu’elle peut servir à la latence requise.

La vérification indépendante des revendications de benchmark est la question immédiate. FD-bench est l’un des rares benchmarks publics ciblant la qualité d’interaction, et les scores de Thinking Machines n’ont pas encore été reproduits par des tiers sous charge réaliste. Les tests de proactivité que l’entreprise a introduits pour les signaux visuels, y compris des versions adaptées de RepCount-A, ProactiveVideoQA et Charades, sont de nouveaux instruments sans référence établie.

Le pari stratégique est plus pointu. Alors qu’OpenAI, Anthropic et Google ont passé l’année dernière à pousser les capacités d’agent autonome, Thinking Machines mise sur le fait que le prochain axe de concurrence sera la façon dont les humains communiquent avec l’IA – plus proche d’une conversation continue que d’une série de invites. Le modèle d’interaction concurrence directement les systèmes d’IA vocale en temps réel expédiés par OpenAI, Google et un nombre croissant de startups axées sur la parole. Que l’architecture survive au contact avec les charges de travail de production – des sessions longues, une connectivité peu fiable et les contraintes de sécurité du refus en temps réel – est le test que le prochain cycle de préversion imposera.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.