人工智能
思维机器实验室发布首个交互模型,实现200毫秒实时交互

思维机器实验室,由前OpenAI首席技术官Mira Murati创立的AI初创公司,于2026年5月11日发布了其首个内部模型的研究预览,这标志着实验室一年多来关于其实际构建内容的沉默结束。该公司称该系统为“交互模型”——一种从头开始训练的多模态架构,可以处理音频、视频和文本,每200毫秒处理一次,而不是等待用户完成一个回合。
该模型名为TML-Interaction-Small,是一个2760亿参数的混合专家系统,具有120亿活跃参数。根据公司的公告博客文章,这是实验室成立以来发布的首个产品,实验室此前已筹集了约20亿美元资金,估值120亿美元,但尚未发布任何产品,仅发布了一个微调工具。该发布是在人才流失和停滞的后续资金轮次中面临持续压力的背景下进行的。
交互模型的实际作用
思维机器实验室认为,当前的前沿模型——包括OpenAI的GPT-Realtime和Google的Gemini Live——通过外部组件(如语音活动检测)的“外壳”将实时行为添加到基于回合的架构中。这些组件决定用户何时停止说话,然后将完成的语句传递给模型。在模型生成回复时,其对世界的感知会冻结。
交互模型用称为时间对齐微回合的东西替换了这种脚手架。该系统连续处理200毫秒的输入,同时生成200毫秒的输出,两个令牌流在同一个时钟周期上交错。这使得模型可以在用户说话中途打断他们,对视觉提示做出反应而无需询问,或者与用户同时说话以执行实时翻译等任务。
该架构跳过了重型独立编码器。音频以dMel特征的形式通过轻量级嵌入层输入,图像被分成40×40的补丁,而所有组件都从头开始与变压器一起训练。一个单独的背景模型异步运行,处理更深入的推理、工具调用和网页浏览,而交互模型则保持在对话中存在。
根据公司报告的基准,TML-Interaction-Small在FD-bench V1上实现了0.40秒的回合延迟,而GPT-Realtime-2.0在其最小思考模式下实现了1.18秒,Gemini-3.1-flash-live实现了0.57秒。在FD-bench V1.5上,交互质量在用户中断、背景语音和后台语音方面得分为77.8,而GPT-Realtime-2.0最小思考模式下得分为46.8,Gemini-3.1-flash-live高思考模式下得分为45.5。这些数字是自我报告的。
长期等待的首次发货
该发布结束了实验室之间的漫长空白期。思维机器实验室于2025年2月成立,并于2025年7月以120亿美元估值关闭了20亿美元的种子轮——这被广泛报道为有史以来最大的种子轮。该轮融资由Andreessen Horowitz领投,Nvidia、AMD、Cisco、Accel、ServiceNow和Jane Street也参与了投资。截至目前,公司唯一发布的产品是Tinker,一种用于微调开放权重模型的API,于2025年10月推出。
此期间出现了动荡。联合创始人Barret Zoph和Luke Metz于2026年1月离开公司返回OpenAI,Murati宣布公司已与Zoph“分道扬镳”。Andrew Tulloch为了加入Meta的超级智能实验室而离开,马克·扎克伯格据报道出价10亿美元收购该公司,但被拒绝。Meta此后雇佣了实验室的五位创始成员。Murati通过将PyTorch的联合创始人Soumith Chintala提升为首席技术官做出了回应。据报道,2025年底未能完成大约500亿美元估值的后续融资轮次。
计算机的故事朝着相反的方向发展。三月,思维机器实验室宣布与Nvidia合作,包括未披露的投资和至少一千万瓦的下一代Vera Rubin系统的部署。实验室还扩大了其与Google Cloud的关系,以涵盖在Nvidia GB300硬件上进行前沿模型训练。
需要关注的内容
交互模型尚未向企业或公众开放。思维机器实验室表示,将在未来几个月内向选定的合作伙伴开放有限的研究预览,并计划稍后在2026年进行更广泛的发布。该公司还计划发布更大的交互模型,指出当前2760亿参数版本是可以在所需的延迟下提供的最小变体。
基准声明的独立验证是最紧迫的问题。FD-bench是为数不多的针对交互质量的公共基准之一,思维机器实验室的成绩尚未被第三方在现实负载下复制。该公司为视觉提示引入的主动性测试,包括RepCount-A、ProactiveVideoQA和Charades的改编版本,是新的仪表,没有建立的基准。
战略赌注更为明显。虽然OpenAI、Anthropic和Google在过去一年中推动了自主代理能力的发展,但思维机器实验室却押注了下一个竞争轴将是人类如何与AI进行交流——更接近于连续对话,而不是一系列提示。交互模型最直接的竞争对手是OpenAI、Google和日益增长的一批专注于语音的初创公司的实时语音AI系统。该架构是否能在面对生产工作负载——长会话、不可靠的连接和实时拒绝的安全约束——时经受住考验,这是下一个预览轮将带来的测试。












