访谈
Johan Wadenholt Vrethem,Voxo 首席执行官 – 采访系列

Johan Wadenholt Vrethem 拥有二十多年的技术和商业交叉领域经验,专注于利用人工智能来改变组织的运作方式和与客户的互动方式。他曾在 CGI 领导主要的数字化项目和客户计划,涉及银行和金融领域,然后联合创立了 Voxo,以推动对话分析和活动技术的创新。
在 Voxo AI 中,Johan 正在推动实时、人工智能驱动的智能化从活动和会议中的实时讨论中获取洞察力,赋予团队快速、精确地从数据到行动的能力。同时,他致力于商业影响和社会公益,曾领导过预防在线儿童剥削的企业社会责任计划。
Voxo AI 是一个活动智能平台,利用人工智能来捕获和转化来自会议、讨论和会议中的实时口语对话,生成结构化、可用的洞察力。通过分析实时音频,它生成即时摘要、关键要点和活动后的内容,如报告和品牌资产,允许组织者、与会者、赞助商和演讲者从讨论中提取持久的价值,而无需手动记笔记或后续工作。
在创立 Voxo 之前,您在 CGI 领导了多年的复杂数字化和人工智能驱动的项目,主要涉及银行和金融服务领域。是什么具体的挫折或空白点让您意识到是时候建立自己的公司,专注于对话智能了?
我在 CGI 的时间非常具有启发性。这是一个拥有数百个知识产权资产的庞大组织,除了咨询外,还有复杂的交付环境、治理和企业转型的经验。同时,它也很分散,跨越了多种技术、利益相关者和竞争优先级。
我从商业分析师晋升到董事,只用了两年,当时我觉得已经准备好专注了。当我遇到我的联合创始人时,我们意识到可以建立一些更尖锐的东西,利用最好的技术来解决一个非常具体、高价值的问题。很多人不知道,我们最初是一个金融科技公司,专注于金融咨询中的文档。从那里,我们演变成了对话分析,最终扩展到了活动智能,经过近十年的学习如何从人类对话中提取真正的意义。
早期,最困难的技术或商业挑战是什么,尤其是在构建能够可靠地理解真正对话而不是受控、编写好的输入的 AI 时?
在我们最早的金融科技产品中,技术限制了我们的雄心。对于北欧语言来说,自动语音识别的错误率在 70% 到 80% 之间。在这种水平上,你根本无法建立一个可以取代人工文档的产品。
同时,现代的大型语言模型能力还不存在,所以生成可靠的摘要几乎是不可能的。当我们后来推出了我们的活动服务时,情况已经改变了。我们已经积累了多年的深厚专业知识,并且终于拥有了正确的人工智能构建块来理解关键词、辩论和圆桌讨论,以一种可以扩展的方式。
Voxo 从对话分析开始,后来扩展到了大规模活动智能。是什么信号让您意识到实时活动是下一个重要的语音 AI 领域?
有趣的是,我们最初是通过与活动合作来更快地接触到 C 级高管,并展示对话智能的强大威力。但是,当我们在瑞典最大的科技活动 Techarenan 交付后,拥有超过 10,000 名与会者,我们看到了巨大的转变。
立即而明显的需求是人们不仅印象深刻,还想购买活动服务作为产品。这就是信号。我们决定投入时间、专注和资源来全球交付它,并以最高可能的质量水平来实现它。
从系统角度来看,当您从转录单个会议转变为处理多日活动中的数百个并发会议时,什么根本性的变化发生了?
复杂性迅速增加。你不仅要在每个单独的会议中保持稳定性和质量,还要处理现实世界的混乱。最后一刻的日程更改、演讲者更换和节目更新都是大型活动的常见现象。
为了在不给已经紧张的活动团队增加额外负担的情况下交付,你需要严格和灵活的流程。你还需要一个经过验证的分析方法。不能简单地将数百个小时的音频丢入一个模型,然后要求它生成一个有趣的报告。为了在几分钟内生成高质量的输出,你必须结合多个模型、管道和结构层次。
许多 AI 工具强调自动化的重要性。为什么您决定将人工审查作为 Voxo 平台的核心部分?
信任仍然是最大的障碍,尤其对于像 HubSpot、GitHub 和 Intuit 这样的企业客户。发布不准确内容的恐惧是非常真实的。这就是为什么稳定的流程、人工智能审查和人工质量保证的结合仍然是今天许多客户的要求。
我们还给客户控制权。他们可以在任何内容被分发之前审查和批准摘要,我们使这个工作流程高效。随着时间的推移,我相信对人工审查的需求将会减少,因为技术和保障措施逐渐成熟。直到那时,赢得被信任的权利是最重要的,这是关于代表他们的品牌内容的。
近实时转录和摘要化如何改变活动团队对内容时间线和活动后的价值的思考方式?
它从根本上重置了时间线。内容不再是几周后发布的东西,而是可以在活动进行时和每个会议结束后立即使用的东西。
我们看到的是,客户突然拥有了可以让参与度持续数月的材料。与会者和演讲者也更有可能在会议结束后立即分享内容,只要它容易获取且看起来很漂亮。如果同样的内容一个月后才到达,那么它通常已经太晚了,无法在社交媒体上推动有意义的分发。近实时使内容成为活动体验的延伸,而不仅仅是一个活动后的存档。
活动涉及多个利益相关者,包括组织者、演讲者、赞助商和与会者。Voxo 如何设计输出以服务所有这些利益相关者而不稀释洞察力或质量?
我们从利益相关者出发进行设计,但保持相同的基本真实性。每个人都从相同的捕获内容中受益,然后我们根据利益相关者的目标量身定制输出。
与会者获得即时可分享的会议摘要和重温漏掉的会议的机会。营销团队获得赞助商品牌的资产,这些资产适合分发和衡量影响。组织者获得更高的与会者价值、更长的活动势头和新的收入选择。演讲者获得了一键式分享精致摘要的方式,组织者也从这种网络效应中受益。
关键是我们不稀释质量。我们建立一个强大的内容引擎,然后根据每个利益相关者的价值创造不同的包装。
使用 Voxo 的活动报告了更快的内容交付和更高的赞助商参与度。您认为在实现这一影响中,速度、结构还是洞察质量更重要?
这是一个组合。速度不重要,如果内容缺乏结构和质量。同时,即使是最好的内容,如果到达太晚,也会变得不那么有价值。
真正的优势在于同时交付所有三个方面。高质量的洞察,结构清晰,交付速度足够快以保持相关性。这就是使内容有用、可分享和商业上有影响力的原因。
对于人工智能驱动的内容平台来说,“实时”在接下来的几年中真正意味着什么,您认为我们距离这一现实还有多远?
在某些情况下,真正的实时已经实现了。我们已经在曼彻斯特的 NHS 活动中与 First Sight Media 和 Lineup Ninja 合作,提供了实时评论。我们还在 2023 年的 Techarenan 活动中推出了实时体验,邀请了 Al Gore 和 Steve Wozniak 等演讲者。
然而,对于活动来说,近实时和真正实时都有其价值。重要的是要有意图地创造价值。实时更新的词云可能会分散演讲者的注意力,而不是有帮助。实时应该增强与会者的体验,而不是与之竞争。
最后,您经常需要纠正企业客户关于人工智能生成的摘要或转录的最常见的误解是什么?
最大的误解是,可以通过简单地转录音频文件并将其粘贴到 ChatGPT 中来获得可靠、连贯、 高质量的摘要。人们很快意识到,这需要时间,并且很难保持一致性,尤其是当有大量会议时。即使这样,转录和摘要化也只是我们交付的内容的一小部分。也许只有 5%。真正的工作是速度、结构、上下文、品牌包装、质量保证和使内容在企业规模上可用和有价值的分发格式。
感谢这次精彩的采访,希望了解更多的读者可以访问 Voxo AI。












