人工智能
思维机器实验室发布首个实时交互模型,响应时间仅200毫秒

思维机器实验室,由前OpenAI首席技术官Mira Murati创立的AI初创公司,于2026年5月11日发布了其首个自主研发模型的研究预览,这标志着实验室结束了长达一年多的沉默,终于揭晓了其真正的产品。该公司称这款系统为“交互模型”——一种从头开始训练的多模态架构,能够以200毫秒的块处理音频、视频和文本,而不是等待用户完成一个回合。
该模型名为TML-Interaction-Small,是一种2760亿参数的混合专家系统,拥有120亿活跃参数。根据公司的公告博客文章,这是实验室成立以来首个产品,实验室此前已筹集了约20亿美元资金,估值120亿美元,但此前尚未发布任何产品,仅发布了Tinker,一种用于微调开放模型的API。该发布的到来正值实验室面临人才流失和停滞的后续融资轮次的压力之下。
交互模型的真正作用
思维机器实验室认为,当前的前沿模型(包括OpenAI的GPT-Realtime和Google的Gemini Live)通过外部组件(如语音活动检测)的“外壳”将实时行为添加到基于回合的架构中。这些组件决定用户何时停止说话,然后将完成的语句传递给模型。在模型生成回复的同时,其对世界的感知会冻结。
交互模型用称为时间对齐微回合的东西取代了这种脚手架。该系统连续处理200毫秒的输入,同时生成200毫秒的输出,两者都在同一个时钟周期上交错。这一结构使得模型可以在用户说话中途打断,无需询问即可对视觉提示做出反应,或者与用户同时进行实时翻译等任务。
该架构跳过了重型独立编码器。音频以dMel特征的形式通过轻量级嵌入层输入,图像被分成40×40的块,而所有组件都从头开始与变压器一起训练。一个单独的背景模型异步运行,处理更深入的推理、工具调用和网页浏览,而交互模型则保持在对话中存在。
根据公司报告的基准,TML-Interaction-Small在FD-bench V1上的回合延迟为0.40秒,相比之下,GPT-Realtime-2.0在其最小思考模式下的延迟为1.18秒,Gemini-3.1-flash-live在其高思考模式下的延迟为0.57秒。在FD-bench V1.5上,交互质量在用户中断、背景语音和后台语音方面得分为77.8,而GPT-Realtime-2.0最小思考模式下的得分为46.8,Gemini-3.1-flash-live高思考模式下的得分为45.5。这些数字是自我报告的。
长期期待的首次发布
该发布结束了实验室产品发布的漫长等待。思维机器实验室成立于2025年2月,并于2025年7月以120亿美元估值完成了20亿美元的种子轮融资——据报道这是有史以来最大的一轮种子轮融资。该轮融资由Andreessen Horowitz领投,Nvidia、AMD、Cisco、Accel、ServiceNow和Jane Street等公司参与。直到现在,公司唯一发布的产品是Tinker,一种用于微调开放模型的API,于2025年10月推出。
此期间,实验室经历了动荡。联合创始人Barret Zoph和Luke Metz于2026年1月离开实验室返回OpenAI,Murati宣布公司已与Zoph“分道扬镳”。Andrew Tulloch离开加入Meta的Superintelligence Labs,此前Mark Zuckerberg曾以10亿美元收购公司的报价被拒绝。Meta此后雇佣了实验室的五位创始成员。Murati通过将PyTorch的联合创始人Soumith Chintala晋升为首席技术官做出了回应。据报道,公司在2025年底之前未能以大约500亿美元估值完成后续融资轮。
计算机的故事朝着相反的方向发展。三月,思维机器实验室宣布与Nvidia合作,涵盖未披露的投资和至少一吉瓦的下一代Vera Rubin系统的部署。实验室还扩大了其与Google Cloud的合作关系,以涵盖在Nvidia GB300硬件上进行前沿模型训练。
关注点
交互模型尚未向企业或公众开放。思维机器实验室表示,将在未来几个月内向选定的合作伙伴开放有限的研究预览,稍后将向更广泛的受众发布。该公司还计划发布更大的交互模型,指出当前2760亿参数版本是其可以在所需延迟下提供的最小版本。
立即的疑问是对基准声明的独立验证。FD-bench是为数不多的针对交互质量的公共基准之一,思维机器实验室的成绩尚未被第三方在现实负载下复制。该公司为视觉提示引入的主动性测试,包括RepCount-A、ProactiveVideoQA和Charades的改编版本,是新的仪表,没有既定的基线。
战略赌注更为明确。虽然OpenAI、Anthropic和Google在过去一年中推动了自主代理能力的发展,但思维机器实验室却押注下一个竞争轴将是人类如何与AI进行交流——更接近连续对话,而不是一系列提示。交互模型最直接的竞争对手是来自OpenAI、Google和日益增长的语音AI初创公司的实时语音AI系统。该架构是否能在面对生产工作负载时幸存——长时间会话、不可靠的连接和实时拒绝的安全约束——将是下一个预览轮将施加的测试。












