访谈

尼克·拉霍伊卡，Vocal Image联合创始人兼CEO – 采访系列

Published November 20, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

尼克·拉霍伊卡是Vocal Image的联合创始人兼CEO，Vocal Image是一家帮助人们发展软技能的教练创业公司。作为一名拥有超过10年IT和商业发展经验的连续创业者，尼克在创立Vocal Image之前成功退出了两家公司。尼克的旅程非常个人化；他在学校因为不清晰的发音而被欺凌，这激发了他帮助人们更好地沟通的使命。

在被迫在2020年革命后逃离家乡后，尼克带着基本不懂英语的状态来到爱沙尼亚，并使用自己的应用程序训练自己的声音，仅在六个月内就获得了第一轮融资。作为AWS AI挑战赛和Meta x Hugging Face欧洲AI创业计划的获奖者，Vocal Image最近获得了由Educapital（法国）领投的360万美元种子轮融资，并扩展到1400万美元的年度回收收入。

您于2021年创立了Vocal Image。是什么启发您构建了一个AI软技能教练，您最初试图解决什么问题?

演讲焦虑曾经是我的一部分。小时候，我因为不清晰的发音而被欺凌，这段经历真的留在了我的心中。后来，作为一名IT学生实习生，我不得不向高级客户做演讲，同样的恐惧又回来了。

然后在2021年，白俄罗斯革命失败后，我不得不在一夜之间搬到欧洲。突然，我不得不用几乎不会说的英语向投资者推销。这很可怕，但没有选择。我每天花费数小时使用Vocal Image的早期版本练习发音。即使要花几周时间才能学会正确发“V”音，以便能说出我自己公司的名字。

我们从一个基本上像YouTube的应用程序开始，但带有内置的语音记录器和评论功能。用户可以观看视频，练习重复台词，然后收听自己的录音。观察人们如何使用它，我们很快意识到他们迫切需要反馈。我们的早期用户向我们展示，仅仅消费内容是不够的；他们需要立即的反馈。我们尝试通过人类教练提供反馈，但这种方法不具备可扩展性，这就是我们开始使用AI的原因。

这是我的个人洞察：对于我来说，使用我们的平台练习我的第一次推销比与一个人练习更容易。那里没有压力，没有判断。这种自由改变了一切。一旦我解决了自己的问题，我意识到有多少人面临着同样的问题。超过2亿人苦于演讲焦虑。

在Vocal Image之前，您经营了一家舞蹈工作室。您在运动和表达方面的背景如何影响您对沟通和声乐信心的方法?

我不是一名舞者；我实际上建立了一家以自我表达和人为中心的业务。正是在那段工作中，我意识到你可以通过观察一个人跳舞来判断他们的内在自信心。

运动在你如何表达自己方面也起着巨大的作用。你的姿势、呼吸方式都是沟通的一部分。这就是AI教练变得强大的地方，因为它可以帮助人们在一个地方训练所有这些方面。

以前，公司不得不雇用多个不同的教练。一个用于公开演讲，一个用于肢体语言，一个用于自信。现在，使用AI，所有这些都相互关联。你可以建立沟通的完整图景，而不仅仅是一个部分。

与大多数AI通信工具不同，您决定不使用ChatGPT作为教练的基础。是什么导致了这一决定?

ChatGPT的热潮实际上成为我们的一个转折点。当它成为主流时，它在AI信任方面产生了巨大的激增，我们能够利用这一点让人们相信我们的技术。

但是事情是这样的：我们绝对不想把它用作我们的基础。我们的目标从一开始就是使用我们的独特模型来评估人们的声音和语音模式。我们确实使用了像Gemini、Claude和ChatGPT这样的大型语言模型以及来自通信文学的知识、技巧和窍门，但它们不是我们反馈机制的核心。我们的反馈的真正基础是人类的输入。

人们担心AI教练感觉很机械，这是有道理的。为了对抗这一点，我们在Vocal Image内部培养了一个社区，用户可以在那里即时连接、分享改善沟通的共同目标并支持彼此的旅程。这个社区不断增长和改进我们的AI。

您能详细说明一下仅使用人类声音训练AI与传统的LLM方法相比，在结果和真实性方面有何不同吗?

我们使用大型语言模型作为评估和上下文的一部分，但我们的系统的真正基础是数据。我们的核心模型是在我们自己的社区中训练的，这个社区由特意聚集在一起改善沟通技能的人组成。

AI的好坏取决于它学习的人。我们的专有数据集现在包括超过100万个独特的人类声音，每个声音都带有语调、节奏和情感，这些都是沟通的真正本质。

您的数据集包括超过100万个人类声音。您在策划和标记如此独特的语料库时面临了哪些挑战?

您不能平等地依赖每个数据点。有些用户会仔细评分，而其他用户只是点击。我们不得不设计一个系统来区分深思熟虑的反馈和噪音。随着时间的推移，我们学会了给那些参与度一致且判断可靠的用户更多的权重，同时过滤掉随机输入。

最难的部分是运营方面，这涉及建立一个奖励质量而非数量的评分生态系统。这就是我们的社区变得无价的。这些不是随机的互联网用户，他们是真正尝试改善自己的软技能并帮助他人做同样事情的人。所有评分都是匿名的，这有助于保持反馈的无偏见和真实性。

社区驱动的“Tinder-like”评估机制非常吸引人 —— 这个反馈循环如何塑造AI的持续学习?

每个评分，在每种语言中，都成为一个小小的智能，完善我们的模型。这是一个活跃的反馈循环。人们训练和评估的越多，系统就越聪明，越能识别语音和情感的细微差别，学习人们如何在不同文化中感知自信、温暖或权威。

在开发专注于软技能而非技术能力的AI模型时，您学到了什么关键经验?

主要的挑战是度量。没有“值得信赖”或“有魅力”的通用指标。我们不得不创建自己的指标。

这就是大数法则的作用。如果100,000人同意某个声音听起来自信或富有同情心，你可以开始相信这种集体的看法。随着时间的推移，我们教会了我们的AI预测主观的品质，例如无法用简单的对或错来评分的东西。这是突破口：学习量化那些一直被认为是无形的东西。

凭借1400万美元的年度回收收入和新获得的360万美元种子轮融资，您的主要优先事项是什么 —— 是否是推进AI模型、扩大用户群、还是加深社区体验?

我们的使命一直是以人为中心的。我们帮助人们更自信、更真实地沟通。

下一个阶段是关于在全球范围内扩大这一影响。我们正在扩展到新的语言和地理区域，并开发新的软技能模块，例如谈判、积极倾听和雄辩。

许多用户说AI教练感觉很机械或不具人性化。您如何确保Vocal Image提供情感共鸣和上下文感知的反馈?

我们专注于超个人化。从第一次交互开始，我们学习你的全部信息，包括你的口音、年龄、职业背景和说话模式。随着时间的推移，我们有记忆，回忆你如何改进、你在哪里挣扎以及哪些反馈最能引起你的共鸣。

这使得AI能够动态地适应。体验之所以感觉个人化，是因为它确实是个人化的。它完全由你的数据和你的旅程塑造，而不是由一个通用的脚本塑造。

展望未来，随着生成式和情感AI的不断成熟，您如何看待AI软技能教练的演变?

人类的发展一直是天性和后天的结合。科学告诉我们，领导力大约有一半是天生的，一半是后天习得的。后天习得的部分以前只为那些能够负担得起昂贵教练的高管们所保留。很长时间以来，公司不得不每年为一位领导者支付7,000美元到25,000美元的教练费用。 AI改变了这一切。

此外，与人类教练互动需要聘用多个不同的教练，而AI教练可以取代所有这些教练。

目前，我们使用一系列不同的模型来分析沟通的不同方面，但未来是一个单一的、统一的系统，它可以评估和指导你以整体的方式。这种技术将使成长民主化。你不需要天生具有魅力或拥有大型企业预算来掌握沟通。你只需要好奇心和机会，而创造这种环境的氛围就是驱使我每天的动力。

感谢这次精彩的采访，希望了解更多的读者可以访问Vocal Image。

Antoine Tardif, CEO & Founder of Unite.AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人，他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者，他相信AI将对社会产生与电力一样的颠覆性影响，他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他也是Securities.io的创始人，这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。

Unite.AI

尼克·拉霍伊卡，Vocal Image联合创始人兼CEO – 采访系列

You may like