人工智能

Modulate推出集成监听模型，重新定义人工智能对人类声音的理解

发布于 2026年1月20日

更新于 2026年5月17日

作者

Antoine Tardif, Unite.AI 首席执行官兼创始人

人工智能已经取得了快速的进展，但仍然有一个领域始终难以解决：真正理解人类的声音。不仅仅是说话的内容，还包括背后的情感、语调和时机，以及区分友好交谈、欺骗或伤害的微妙信号。今天，Modulate宣布了一项重大突破，推出了集成监听模型（ELM），一种专门为现实世界声音理解而设计的新型人工智能架构。

在研究公告的同时，Modulate还推出了Velma 2.0，这是集成监听模型的首个生产部署。该公司报告称，Velma 2.0在对话准确性方面超过了领先的基础模型，同时运营成本仅为基础模型的一小部分，这是一个值得注意的说法，尤其是在企业正在重新评估大规模人工智能部署的可持续性的时候。

为什么人工智能难以理解人类声音

大多数分析语音的人工智能系统都遵循一种熟悉的方法。音频被转换为文本，然后由一个大型语言模型处理。虽然这种方法对于转录和总结有效，但它去掉了使声音有意义的许多方面。

语调、情感色彩、犹豫、讽刺、重叠的语音和背景噪音都带有重要的上下文。当语音被压平为文本时，这些维度就会丢失，经常导致意图或情感的误解。这在客户支持、欺诈检测、在线游戏和人工智能驱动的通信等环境中尤其成问题，因为细微差别直接影响结果。

根据Modulate的说法，这个限制是架构上的，而不是数据驱动的。大型语言模型是针对文本预测进行优化的，而不是实时集成多个声学和行为信号。集成监听模型是为了解决这个差距而创建的。

什么是集成监听模型？

集成监听模型不是一个单一的神经网络，能够同时完成所有事情。相反，它是一个由许多专门的模型组成的协调系统，每个模型负责分析语音交互的不同维度。

在ELM中，单独的模型检查情感、压力、欺骗指标、说话者身份、时机、语调、背景噪音和潜在的合成或模仿声音。这些信号通过一个时间对齐的编排层同步，产生对话中发生的事情的统一和可解释的解释。

这种劳动的明确划分是ELM方法的核心。与其依赖一个巨大的模型隐式地推断意义，不如集成监听模型将多个有针对性的视角结合起来，提高准确性和透明度。

Velma 2.0内部

Velma 2.0是Modulate早期基于集成的系统的重大演进。它使用了100多个组件模型实时协同工作，跨五个分析层次。

第一个层次专注于基本的音频处理，确定说话者数量、语音时机和暂停。接着是声学信号提取，识别情感状态、压力水平、欺骗线索、合成语音标记和环境噪音。

第三个层次评估感知到的意图，区分真诚的赞扬和讽刺或敌对的评论。行为建模随后跟踪对话动态，标记沮丧、困惑、脚本化的语音或社会工程尝试。最后一个层次，即对话分析，将这些洞察转化为企业相关的事件，例如不满的客户、政策违规、潜在的欺诈或故障的AI代理。

Modulate报告称，Velma 2.0大约比领先的LLM方法更准确地理解对话的含义和意图30%，同时在规模上更具成本效益，节省了10到100倍的成本。

从游戏版聊天到企业智能

集成监听模型的起源在于Modulate早期的在线游戏工作。像《使命召唤》和《侠盗猎车手在线》这样的热门游戏产生了一些最具挑战性的语音环境。对话快速、嘈杂、情绪化，并充满了俚语和上下文引用。

区分真正的骚扰和玩笑式的侮辱需要远不止转录。随着Modulate运营其语音版聊天系统ToxMod，它逐渐组装了越来越复杂的模型集成，以捕捉这些细微差别。协调数十个专门的模型对于实现所需的准确性至关重要，最终导致团队将这种方法正式化为一种新的架构框架。

Velma 2.0将这种架构推广到游戏以外。今天，它为Modulate的企业平台提供动力，分析数亿次对话，跨行业识别欺诈、滥用行为、客户不满和异常的AI活动。

对基础模型的挑战

这一公告出现在企业重新评估其人工智能战略的时刻。尽管投入了大量资金，但大量人工智能计划未能投入生产或带来持久的价值。常见的障碍包括幻觉、推理成本增加、决策不透明以及难以将人工智能洞察整合到运营工作流程中。

集成监听模型直接解决了这些问题。通过依赖许多较小的、专门的模型，而不是单一的大型系统，ELM更便宜、更容易审计、更易于解释。每个输出都可以追溯到特定的信号，允许组织了解为什么得出某个结论。

这种透明度在受监管或高风险的环境中尤为重要，因为黑盒子决策在这些环境中是不可接受的。Modulate将ELM定位为不是大型语言模型的替代品，而是一种更适合企业级语音智能的架构。

超越语音转文本

Velma 2.0最前瞻性的一个方面是它能够分析某事被说出的方式，而不仅仅是被说出的内容。这包括检测合成或模仿的声音，这是一个日益增长的担忧，因为语音生成技术变得更加普遍。

随着语音克隆技术的改进，企业面临着与欺诈、身份伪造和社会工程相关的日益增长的风险。通过将合成语音检测直接嵌入到其集成中，Velma 2.0将真实性视为一个核心信号，而不是一个可选的附加组件。

该系统的行为建模还可以提供主动的洞察。它可以识别说话者是否在读脚本、沮丧是否正在升级或交互是否正在朝着冲突的方向发展。这些功能使组织能够更早、更有效地干预。

企业人工智能的新方向

Modulate将集成监听模型描述为一种新的人工智能架构类别，区别于传统的信号处理管道和大型基础模型。其背后的洞察是，复杂的人类交互可以通过协调的专业化来更好地理解，而不是通过蛮力扩展。

随着企业要求人工智能系统具有责任感、效率和与实际运营需求的对齐，集成监听模型指向了一个未来，在那里，智能是由许多专注的组件组成的。随着Velma 2.0现在在生产环境中投入使用，Modulate正在押注这种架构转变将会在语音版聊天和客户支持以外的领域产生共鸣。

在一个寻找替代方案的行业中，寻找替代方案来取代越来越大的黑盒子，集成监听模型表明，下一次人工智能的重大进步可能来自更仔细的倾听，而不是简单地更激进的计算。

Antoine Tardif, Unite.AI 首席执行官兼创始人

安托万是一位具有远见的领导者和Unite.AI的联合创始人，他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者，他相信人工智能将对社会产生电力的影响一样的颠覆性影响，并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他还是Securities.io的创始人，这是一个专注于投资尖端技术的平台，这些技术正在重新定义未来并重塑整个行业。

Unite.AI