面试
GSpeech 创始人兼首席执行官 Simon Poghosyan 访谈系列

西蒙·波戈相 是公司的创始人兼首席执行官 演讲是一个基于 Web 的 AI 平台,通过将文本转换为 70 多种语言的自然音频,帮助用户更轻松地访问在线内容。Simon 拥有 VLSI 设计背景,并对编程和用户体验有着浓厚的兴趣,他创建了 GSpeech,旨在简化网站提供语音内容的方式。
如今,GSpeech 每月生成约 200 亿个字符的音频,用户遍布 70 多个国家/地区,其可定制的音频播放器每月播放量超过 200,000 万次。GSpeech 近期音频生成总量已突破 1 亿个字符,并持续快速增长。该平台易于集成——只需一行代码即可实现——并支持创作者、教育工作者和企业使其内容更具包容性和吸引力。
我们所有的英文页面也都使用了 GSpeech,您可以点击播放按钮收听这篇文章并了解 GSpeech 的表现。
您的 VLSI 设计背景(超大规模集成电路)和早期编程经验奠定了坚实的技术基础。是什么促使您从微电子领域转向构建 AI 软件?这又是如何促成 GSpeech 的诞生的?
我对解决问题的热情始于高中,源于对数学和物理的热爱。这份热情促使我获得了亚美尼亚国立工程大学的超大规模集成电路设计学士(2009)和硕士学位(2011),与新思科技亚美尼亚公司合作。物理的学习培养了我的精准性和分析性思维,但直到大二,我才接触到编程——从Pascal语言开始——并立刻爱上了它。我和我的朋友一收到课程作业就会立即完成,即使我们还有六个月的时间完成。然后,为了好玩,我们开始做其他学生的作业。
这种热情引领我深入软件开发领域。我从网站创建开始,然后构建了自己的CMS。在完成了几个流程自动化和数据管理架构设计项目后,我意识到自己是多么热爱为Web界面构建数字解决方案。通过2GLux项目,我与Edvard Ananyan合作——他创建了广受欢迎的 GTranslate 我最初在翻译服务公司工作,后来在Quant Gymnasium的一位校友的帮助下,我接触到了翻译服务。他向我介绍了WordPress和Joomla生态系统,GSpeech的概念也源于他。这项早期工作促成了我们工具的第一个版本,使用户能够收听网页上的文本,为后来功能齐全的AI平台奠定了基础。到2023年,我成立了Smarts Club LLC,致力于将GSpeech扩展为一个全球性的AI音频解决方案,支持70多种语言。人类联盟(Humanity Union)对GSpeech在提升其公民参与平台可访问性方面所发挥的作用表示赞赏,这反映了我通过AI弥合数字鸿沟的使命——这一愿景根植于我早期的编程生涯。
GSpeech 最初是一个支持视障用户的工具。这个早期的使命如何影响了该平台发展成为一个功能齐全的 AI 文本转语音解决方案?
对可访问性的关注推动了高质量实时 AI 音频的开发,使其能够翻译成 70 多种语言,并通过简单的代码片段实现网站无缝集成。这一使命催生了诸如可自定义音频播放器、语言和语音选择面板、情境感知播放、音频下载以及详细的使用情况统计信息(包括国家/地区、城市、设备数据和随时间变化的播放分析)等功能,所有这些功能旨在使内容更具包容性和吸引力。在编写了超过 100,000 万行代码后,我于 2023 年推出了 GSpeech Cloud Console——一款可扩展的解决方案,在包容性与高级功能之间取得平衡,使企业和创作者能够使其内容在网络上具有可访问性、多语言性和互动性。
在开发 GSpeech Cloud Console 的过程中,您面临的最大技术挑战是什么?
开发 GSpeech Cloud Console 的最大挑战之一是设计一个可扩展的架构,用于实时、安全、高质量的 AI 音频生成。这需要创新的解决方案,从网络获取相关内容,在我们的服务器上处理音频,并将其存储在云端,以便快速可靠地交付。实施加密和访问控制等强大的安全措施,对于保护动态的用户生成内容至关重要。
另一个挑战是使用先进的神经引擎实现实时翻译。我们必须确保低延迟、准确的翻译,同时构建一个直观的界面,让用户选择播放语言和首选的语音配置文件,并优先考虑用户的舒适度和个性化。最后,我们开发了一个音频模板创建向导,其中包含多个可自定义的播放器视图,使用户能够根据自己的网站设计独特、视觉上有吸引力的播放器。在跨设备之间平衡灵活性、性能和易用性是一项充满挑战的挑战。
提供 70 多种语言和 230 多种自然语音的实时翻译。如何在如此多样化的语言环境中确保语音质量和准确性?
为了保持一致的语音质量,我们集成了多个先进的文本转语音 (TTS) 模型,并持续优化和更新。这些多语言引擎能够高精度地处理混合语言内容。我们还推出了 100 多种全新语音氛围,为用户提供更具表现力和更自然的语音选择。GSpeech 每月生成超过 200 亿个字符的音频,服务于 70 多个国家/地区的用户,我们的在线播放器每月使用量超过 200,000 万次,并且还在不断增长。如此规模的规模确保了持续的反馈和实际测试,这直接影响着我们的调优和质量控制。
您能向我们介绍一下 GSpeech 如何利用人工智能和机器学习来实现逼真的语音合成吗?您如何跟上神经语音技术的快速发展?
GSpeech 采用先进的人工智能和机器学习技术,集成了多个最先进的文本转语音模型,以生成逼真的语音合成。这些模型针对自然度和多语言支持进行了优化,能够处理文本输入,生成具有逼真语调和节奏的高质量音频,即使是混合语言内容也能轻松应对。我们为多种语言提供可定制的语音风格,从而提升用户体验。我们还集成了 TTS 别名功能,允许用户自定义规则,以控制某些单词或短语在音频中的呈现方式,例如,替换特定术语以获得更准确的发音或措辞。为了紧跟神经语音技术的发展,我们不断评估和整合最新进展,与行业领导者合作,并计划在未来开发专有模型,确保 GSpeech 始终处于语音合成创新的前沿。
语音调节、音调控制和播放定制对您的用户来说有多重要?这些功能在哪些用例上最让您感到自豪?
语音调节、音调控制和播放自定义对我们的用户至关重要,这让他们能够根据自身需求,从新闻博客网站到易于理解的电子学习内容,创建独特、高质量的语音风格。持续集成的 100 多种全新语音氛围进一步增强了这一功能,为用户提供了无与伦比的灵活性,帮助他们创作出真正独特的配音。我最引以为豪的是 GSpeech Studio,这是一个我正在开发的全新音频编辑和生成平台。它允许用户创建多个音频通道,将其与背景音乐混合,并导出经过润色的配音,使创作者能够为各种应用制作专业级的音频。一位视障学生写信感谢 GSpeech 通过自定义音频实现了自主学习,这封信深深地触动了我。这个用例展示了这些功能如何使内容变得易于理解和具有变革性,这正是我从编程生涯初期就一直追求的目标。
GSpeech 可以与 WordPress、Shopify、Wix 等平台无缝集成。你们采取了什么策略,让该平台能够为不同生态系统的创作者和企业提供即插即用的功能?
我们针对 GSpeech 与 WordPress、Shopify 和 Wix 等平台的即插即用集成,制定了简洁性、兼容性和可扩展性的策略。我们开发了轻量级的模块化插件和代码片段,可无缝集成,只需极少的设置——通常只需点击几下即可。这意味着数千篇文章和动态内容块可以立即获得语音支持——无需手动操作。我们提供高度灵活、设计精美的播放器,可适应各种设备,包括移动设备、平板电脑和台式机。我们的播放器不仅可以定制,还针对可访问性和用户参与度进行了优化。对于 WordPress,我们通过插件将 GSpeech 云端仪表板直接嵌入到管理面板中,从而简化了用户的管理。详细的文档和直观的仪表板可指导非技术用户完成安装和自定义。定期测试确保在不同生态系统中性能一致,使创作者和企业能够轻松添加 AI 驱动的文本转语音功能。
回顾从 2012 年到今天的历程,对于您个人或职业而言,在创建 GSpeech 的过程中,最大的里程碑是什么?
GSpeech 最大的里程碑是生成了 1 亿字符的高质量 AI 音频,展现了我们在全球范围内对无障碍的贡献。同样意义非凡的是我们收到了来自 Humanity Union 等组织的反馈,他们称赞 GSpeech 增强了他们的社会责任平台;还有博主称其为用户参与度的“颠覆者”。在多个平台上,GSpeech 获得了超过 110 条五星好评,例如 WordPress 以及 AppSumo 近几个月来反映出这种日益增长的信任。
GSpeech 现在也被 乌兹别克斯坦纳曼干地区统计局 ——一家拥有庞大流量和全国性知名度的政府机构。看到一家公共机构如此广泛地采用我们的技术,这是一个意义非凡的里程碑,也是对我们解决方案信任的有力证明。
作为一名基督徒,以及在亚美尼亚教会服侍的人,我也会尽可能地支持其他基于信仰的倡议。我经常向基督教网站免费提供 GSpeech,帮助他们更有效地传播信息,并通过音频让圣经更容易被理解。这是我为更伟大的事业做出的一点小贡献。同时,我很荣幸能与一些敬业的事工合作,例如 绳索 — 一个弥赛亚教会和尊贵的 GSpeech 客户 — 其使命和内容体现了圣经的力量。
这些时刻——当技术成为信仰、理解和包容的桥梁时——让我想起了我们最初创建 GSpeech 的原因。
您认为 GSpeech 在未来的数字媒体中扮演什么角色,尤其是在音频内容和语音界面变得越来越主导的情况下?
我希望 GSpeech 能够引领数字媒体的普及和互动,通过人工智能语音技术接入网络。我们的目标是彻底改变整个在线体验,使网站默认具备语音交互、包容性和多语言功能。只需一行代码,网站所有者就能将数千篇文章转化为语音内容。展望未来,我们正在将 GSpeech Studio 打造为一个强大而独特的音频生成和编辑平台,使用户能够创建具有背景音乐、音效和精准调音的多层次语音内容。我们希望让网络真正可听、直观且普遍可访问。
GSpeech 最近在 AppSumo 上线 并且已经获得了早期用户近乎完美的评价。AppSumo 社区的反响对您来说意味着什么?您计划如何延续这一势头?
AppSumo 的发布让 GSpeech 被数百万用户所熟知,其近乎完美的评价令人信服。用户,例如在线课程的参与者,对我们直观的工具和响应迅速的支持赞不绝口,这与 Humanity Union 的反馈如出一辙。一位博主称赞我们的声音“引人入胜”,翻译“令人印象深刻”。他们的积极反馈证实了我们基于人工智能的文本转语音解决方案的价值,也激发了我对这个项目的热情。在发布期间为客户提供支持也激发了新的灵感,尤其是 GSpeech Studio 的设计灵感源于用户对高级音频编辑和导出功能的期望。展望未来,我计划在此基础上继续发展,积极倾听社区的声音,整合他们的反馈,并开发创新功能以增强易用性和参与度,确保 GSpeech 继续发展成为一款服务于创作者和企业的变革工具。
最后,对于想要在当今快速发展的技术环境中构建可访问的人工智能工具的年轻开发人员或企业家,您有什么建议?
对于年轻的开发者和创业者,我的建议是全身心投入工作,找到一个真正能够提供独特、智能解决方案的问题。从小事做起,稳步前进,并认真倾听客户反馈——他们会指引你的方向。像对待值得信赖的朋友一样对待你的用户,全力以赴,保持耐心。拥抱人工智能技术,将其视为强大的盟友;如果运用得当,它们会增强你创造有效且易用工具的能力。满怀热情、坚持不懈,并致力于创造改变,你就能创造出真正重要的解决方案。
感谢您的精彩采访,我们选择 GSpeech 解决方案作为我们网站的方案,因为它易于集成。了解更多信息,请访问 演讲.












