访谈
Johan Wadenholt Vrethem,Voxo CEO – 采访系列

Johan Wadenholt Vrethem 拥有二十多年的技术和商业交叉领域经验,专注于利用 AI 转变组织的运营和与客户的互动方式。他曾在 CGI 领导主要的数字化项目和客户计划,涉及银行和金融领域,然后联合创立了 Voxo,以推动对话分析和活动技术的创新。
在 Voxo AI 中,Johan 正在推动实时、AI 驱动的智能化,从活动和会议的实时讨论中获取信息,赋予团队快速、精确地从数据到行动的能力。他致力于商业影响和社会公益,也曾领导过预防在线儿童剥削的 CSR 计划。
Voxo AI 是一个活动智能平台,利用人工智能捕获和转换来自会议、讨论和会议的实时口语对话,生成结构化、可用的洞察。通过分析实时音频,它产生即时摘要、关键要点和活动后内容,如报告和品牌资产,允许组织者、与会者、赞助商和演讲者从讨论中提取持久的价值,而无需手动记笔记或后续工作。
在创立 Voxo 之前,您在 CGI 投入了多年时间,领导复杂的数字化和 AI 驱动的项目,主要在银行和金融服务领域。是什么具体的挫折或缺陷让您决定是时候建立自己的公司,专注于对话智能了?
我在 CGI 的时间非常具有启发性。这是一个拥有数百个 IP 资产的大型组织,除了咨询外,我还得到了复杂的交付环境、治理和大规模企业转型的第一手经验。然而,这也很零碎,分散在多种技术、利益相关者和竞争优先级中。
我从商业分析师晋升为总监,仅用了两年,当时我觉得自己已经准备好了。当我遇到我的联合创始人时,我们意识到可以建立一些更尖锐的东西,利用最好的技术解决一个非常具体、具有高价值的问题。很多人不知道,我们最初是一个专注于金融咨询文档的金融科技公司。从那里,我们演变成了对话分析,最终扩展到了活动智能,经过了近十年的学习如何从人类对话中提取真正的意义。
早期,构建能够可靠理解真实对话而非受控、脚本输入的 AI 的最艰难的技术或商业挑战是什么?
在我们最早的金融科技产品中,技术限制了我们的雄心。对于我们最初关注的北欧语言,自动语音识别的词错误率在 70% 到 80% 之间。在这种水平上,您根本无法构建一个可以替代人类文档的产品。
同时,现代大型语言模型的能力还不存在,因此生成可靠的摘要几乎是不可能的。当我们后来推出我们的活动服务时,景观已经改变了。我们已经在多年中建立了深厚的专业知识,我们终于拥有了正确的 AI 建筑块来理解关键演讲、辩论和圆桌讨论的方式,可以扩大规模。
Voxo 从对话分析开始,后来扩展到了大规模的活动智能。是什么信号让您意识到实时活动是语音 AI 的下一个主要前沿?
有趣的是,我们最初与活动合作的方式是为了更快地接触到 C 级高管,并展示对话智能的强大之处。但是一旦我们在瑞典最大的科技活动 Techarenan 交付了超过 10,000 名与会者的服务,我们就看到了巨大的转变。
入站需求是立即的和非常明确的。人们不仅印象深刻,还想购买活动服务作为产品。这就是信号。我们决定投入时间、专注和资源来交付全球最高质量的服务。
从系统角度来看,当您从转录单个会议转变为处理多日活动中的数百个并发会话时,什么根本改变了?
复杂性迅速增加。您不仅要在每个单独的会话中保持稳定性和质量,还要处理现实世界的混乱。活动中的最后一分钟日程变更、演讲者调换和节目更新都是正常的。
为了在不给已经紧张的活动团队增加额外负担的情况下交付内容,您需要严格和灵活的流程。您还需要一个经过验证的分析方法。您不能只是把数百个小时的音频扔到模型中,然后要求生成一个有趣的报告。为了在几分钟内生成高质量的输出,您需要结合多个模型、管道和结构层次。
许多 AI 工具强调自动化至上。为什么您决定将人工审查作为 Voxo 平台的核心部分?
信任仍然是最大的障碍,尤其是对于像 HubSpot、GitHub 和 Intuit 这样的企业客户。发布不准确内容的恐惧是非常真实的。这就是为什么稳定的流程、AI 审查和人工质量保证仍然是许多客户今天的需求。
我们还为客户提供控制权。他们可以在任何内容被分发之前审查和批准摘要,我们使得这个工作流程高效。随着时间的推移,我相信对人工审查的需求将会减少,因为技术和保障措施逐渐成熟。直到那时,赢得被信任的权利以代表他们的品牌是最重要的。
近实时转录和摘要如何改变活动团队对内容时间线和活动后价值的思考方式?
这从根本上重置了时间线。内容不再是您几周后发布的东西,而是您可以在活动发生期间和每个会话结束后立即使用的东西。
我们看到的是,客户突然拥有可以让参与度持续数月的材料。与会者和演讲者也更有可能在会话结束后立即分享内容,只要它很容易且看起来很漂亮。如果同样的内容一个月后到来,通常为时已晚,无法在社交媒体上推动有意义的分发。近实时转换内容成为活动直播体验的延伸,而不仅仅是一个活动后的存档。
活动涉及多个利益相关者,包括组织者、演讲者、赞助商和与会者。Voxo 如何设计输出以满足所有这些利益相关者而不稀释洞察力或质量?
我们从外向内设计,但保持相同的基本真相。每个人都从相同的捕获内容中受益,然后我们根据利益相关者的目标量身定制输出。
与会者获得即时可分享的会议摘要和重温他们错过的会议的能力。营销团队获得赞助商品牌的资产,这些资产适合分发和衡量影响。组织者获得更高的与会者价值、更长的活动势头和新的收入选择。演讲者获得了一键式分享精致摘要的方式,组织者也从这种网络效应中受益。
关键是我们不稀释质量。我们建立一个强大的内容引擎,然后根据每个利益相关者的需求将其包装成不同的形式。
使用 Voxo 的活动报告更快的内容交付和更高的赞助商参与度。您认为在实现这一影响中,速度、结构还是洞察质量更重要?
这是一个组合。速度不重要,如果内容缺乏结构和质量。同时,即使是最好的内容,如果到得太晚,也会变得不那么有价值。
真正的优势是同时交付所有三者。高质量的洞察,清晰的结构,快速交付足以保持相关性。这就是使内容有用、可分享和商业上有影响力的原因。
对于 AI 驱动的内容平台来说,未来几年“实时”真正意味着什么,您认为我们距离这一现实有多近?
在某些情况下,真正的实时已经到来了。我们已经在多个直播流中交付了实时评论,例如去年夏天在曼彻斯特与 First Sight Media 和 Lineup Ninja 合作的 NHS 项目。我们还在 2023 年的 Techarenan 活动中推出了实时体验,邀请了阿尔·戈尔和史蒂夫·沃兹尼亚克等演讲者。
然而,对于活动来说,既有近实时也有真正实时的空间。重要的是要有意图地创造价值。实时更新的词云可能会分散演讲者的注意力,而不是有帮助的。
最后,您在与企业客户交谈时,经常需要纠正的一个关于 AI 生成的摘要或转录的常见误解是什么?
最大的误解是,只需将音频文件转录并粘贴到 ChatGPT 中,就可以可靠地获得高质量的摘要。人们很快意识到,这需要时间,并且很难保持一致性,尤其是当您有大量会议时。并且,即使这样,转录和摘要也只是我们交付的内容的一小部分。也许只有 5%。真正的工作是速度、结构、上下文、品牌准备的包装、质量保证和分发格式,使内容在企业规模上可用和有价值。
感谢这次精彩的采访,希望了解更多的读者可以访问 Voxo AI。












