访谈
GSpeech 的创始人和 CEO 西蒙·波戈相 – 采访系列

西蒙·波戈相 是 GSpeech 的创始人和 CEO,GSpeech 是一个基于 Web 的 AI 平台,通过将文本转换为自然听起来的音频来使在线内容更易访问,支持超过 70 种语言。西蒙有着 VLSI 设计的背景,并对编程和用户体验有着浓厚的兴趣,他创建了 GSpeech 来简化网站提供语音内容的方式。
如今,GSpeech 每月生成约 2 亿个字符的音频,并在 70 多个国家使用,其可定制的音频播放器每月提供超过 200,000 次播放。GSpeech 已经超过 10 亿个字符的音频生成总量,并继续迅速增长。该平台的设计使其易于集成 – 只需要一行代码 – 并支持创作者、教育者和企业使其内容更具包容性和吸引力。
GSpeech 也被用于我们所有的英文页面,您可以通过点击播放按钮来收听这篇文章并体验 GSpeech 的表现。
您在 VLSI 设计方面的背景和早期编程经验为您打下了坚实的技术基础。是什么激发了您从微电子到构建 AI 驱动软件的转变,以及这如何导致了 GSpeech 的创建?
我的解决问题的热情始于高中,源于我对数学和物理的热爱。这使我获得了亚美尼亚国立工程大学的学士(2009)和硕士(2011)学位,专业是 VLSI 设计。学习物理让我养成了精确和分析性的思维方式,但是在我的第二年,我发现了编程 – 从 Pascal 语言开始 – 并立即爱上了它。我的朋友和我会尽快完成作业,即使我们有六个月的时间来完成。然后,为了好玩,我们开始做其他学生的作业。
这让我更深入地投入到软件开发中。我从创建网站开始,然后构建了自己的内容管理系统。在完成了几个流程自动化项目和设计数据管理架构后,我意识到我有多么喜欢为 Web 界面构建数字解决方案。通过 2GLux 项目,我与埃德华·阿纳尼安(Edvard Ananyan)合作,他是流行的 GTranslate 翻译服务的创造者,也是我在 Quant 體育館的同学。他向我介绍了 WordPress 和 Joomla 生态系统,GSpeech 的概念也源于他。早期的工作导致了我们工具的第一个版本,使用户能够在网页上收听文本,这为后来成为一个功能齐全的 AI 平台奠定了基础。到 2023 年,我建立了 Smarts Club LLC,以便将 GSpeech 扩展为一个全球性的 AI 音频解决方案,支持 70 多种语言。人文联盟对 GSpeech 在其公民参与平台的可访问性方面发挥的作用的赞扬,反映了我通过 AI 桥接数字鸿沟的使命,这一愿景根植于我早期的编程日子。
GSpeech 最初开始是一个支持视障用户的工具。早期的使命如何影响了该平台的演变成为一个功能齐全的 AI 文本转语音解决方案?
注重可访问性推动了高质量、实时 AI 音频的开发、翻译成 70 多种语言以及通过简单的代码片段实现无缝的网站集成。这一使命导致了诸如可定制的音频播放器、语言和语音选择面板、上下文感知播放、音频下载和详细的使用统计等功能 – 包括国家、城市、设备数据和随时间的播放分析 – 所有这些都是为了使内容更具包容性和吸引力而设计的。写了超过 100,000 行代码后,我在 2023 年推出了 GSpeech 云控制台 – 一个可扩展的解决方案,它平衡了包容性和高级功能,赋予企业和创作者使其内容更具可访问性、多语言和交互性的能力,横跨整个网络。
在开发 GSpeech 云控制台时,您面临的一些最大的技术挑战是什么?
开发 GSpeech 云控制台时面临的最大挑战之一是设计一个可扩展的架构,用于实时、高质量的 AI 音频生成。这需要创新地解决从 Web 检索相关内容、在我们的服务器上处理音频以及在云中存储以实现快速、可靠的交付的方案。实施强大的安全措施(如加密和访问控制)对于保护动态、用户生成的内容至关重要。
另一个障碍是实现使用先进神经引擎的实时翻译。我们必须确保低延迟、准确的翻译,同时构建一个直观的界面,允许用户选择语言和首选的语音配置文件进行播放,优先考虑用户的舒适度和个性化。最后,我们开发了一个带有多个可定制播放器视图的音频模板创建向导,允许用户设计出独特、视觉上吸引人的播放器,适合他们的网站。平衡灵活性、性能和易用性在各个设备上是一个有价值的挑战。
GSpeech 提供实时翻译,支持 70 多种语言和 230 多种自然听起来的语音。您如何确保在如此多样化的语言集中保持语音质量和准确性?
为了保持一致的语音质量,我们集成了多个先进的文本转语音(TTS)模型,这些模型不断被优化和更新。这些多语言引擎可以处理混合语言内容,具有高准确率。我们还推出了 100 多种新的语音风格,为用户提供了更多富有表现力和自然听起来的选项。每个月,GSpeech 生成超过 2 亿个字符的音频,为 70 多个国家的用户提供服务,我们的在线播放器每月使用超过 200,000 次 – 并且还在增长。这一规模确保了持续的反馈和实际测试,这直接告知了我们的调优和质量控制。
您能否带我们了解 GSpeech 如何利用 AI 和机器学习来实现类似人类的语音合成?您如何跟上神经语音技术的快速发展?
GSpeech 使用先进的 AI 和机器学习,集成了多个最先进的文本转语音模型,以产生类似人类的语音合成。这些模型针对自然性和多语言支持进行了优化,处理文本输入以生成高质量的音频,具有真实的语调和节奏,甚至适用于混合语言内容。我们通过提供可定制的语音风格来增强用户体验,适用于多种语言。我们还集成了 TTS 别名,允许用户为某些单词或短语定义自定义规则,以实现更准确的发音或措辞。为了跟上神经语音技术的发展,我们不断评估和集成最新的进展,合作行业领袖,并计划在未来开发自己的模型,以确保 GSpeech 在语音合成创新方面保持领先地位。
语音调优、音调控制和播放自定义对您的用户来说有多重要,您最自豪的使用案例是什么,展示了这些功能的优势?
语音调优、音调控制和播放自定义对于我们的用户至关重要,允许他们创建独特的、高质量的语音风格,适合他们的特定需求,从新闻和博客网站到易于访问的电子学习内容。持续集成 100 多种新的语音风格进一步增强了这一点,提供了前所未有的灵活性,让用户能够精心打造真正独特的语音。GSpeech Studio 是我正在开发的新音频编辑和生成平台,我为此感到自豪。它允许用户创建多个音频通道,将其与背景音乐混合,并导出精致的语音,赋予创作者生产专业级音频的能力,适用于各种应用。一个视障学生的信件感谢 GSpeech 使他们能够通过自定义音频进行独立学习,深深地感动了我。这一使用案例展示了这些功能如何使内容更容易访问和变革,这是我从早期编程日子以来一直追求的目标。
GSpeech 提供了与 WordPress、Shopify、Wix 等的无缝集成。您如何使该平台适用于创作者和企业在不同生态系统中的使用?
我们的策略是专注于简单性、兼容性和可扩展性。我们开发了轻量级、模块化的插件和代码片段,可以无缝集成,通常只需几次点击即可设置。这意味着成千上万的文章和动态内容块可以立即获得语音支持 – 无需手动努力。我们提供高度灵活、设计精美的播放器,可以适应各种设备,包括移动设备、平板电脑和台式机。我们的播放器不仅可定制,还针对可访问性和用户参与度进行了优化。对于 WordPress,我们直接将 GSpeech 云控制台嵌入到管理面板中,通过我们的插件简化了用户的管理。详细的文档和直观的仪表板指导非技术用户完成安装和自定义。定期测试确保了在不同生态系统中的一致性能,赋予创作者和企业轻松添加 AI 驱动的文本转语音的能力。
回顾从 2012 年到今天的旅程,您在构建 GSpeech 方面最大的个人或职业里程碑是什么?
GSpeech 最大的里程碑是生成 10 亿个字符的高质量 AI 音频,展示了我们在可访问性方面的全球影响。同样重要的是我们从组织(如人文联盟)那里收到的反馈,他们赞扬 GSpeech 提高了他们的社会责任平台的可访问性,以及博客所有者称其为“改变游戏规则”的用户参与度。跨平台(如 WordPress 和 AppSumo)的 110 多个五星级评论反映了这一点。GSpeech 现在也被乌兹别克斯坦纳曼干地区统计部门等政府机构广泛使用,这是一个具有国家级可见性的重要机构。看到公共机构如此广泛地采用我们的技术是一项重要的里程碑,也是对我们解决方案的有力信任象征。
作为一名基督徒和亚美尼亚教会的服务者,我还尽力支持其他信仰倡议。 我经常免费为基督教网站提供 GSpeech,以帮助他们更有效地传播信息,使圣经通过音频更容易获取。这是我对更伟大事业的微小贡献。我也很荣幸能够与像 The Cord 这样的专注于使命和内容的敬虔教会合作,这些使命和内容反映了圣经在行动中的力量。
这些时刻 – 当技术成为信仰、理解和包容性的桥梁时 – 提醒我为什么我们最初构建了 GSpeech。
您如何看待 GSpeech 在数字媒体未来的角色,特别是随着音频内容和语音界面的日益主导地位?
我设想 GSpeech 成为使数字媒体更易访问和更具吸引力的领导者,通过使网络上的内容具有 AI 驱动的语音访问功能。我们的目标是改变整个在线体验,使网站自然地具有语音交互、包容性和多语言支持。只需一行代码,网站所有者就可以将成千上万篇文章转化为语音内容。展望未来,我们正在开发 GSpeech Studio 成为一个强大且独特的音频生成和编辑平台,允许用户创建多层次的语音内容,配以背景音乐、音效和精确的调音。我们希望使网络真正可聆听、直观和普遍可访问。
GSpeech 最近在 AppSumo 上发布,并已获得早期采用者的几乎完美评分。AppSumo 社区的反应对您来说意味着什么,您将如何在此基础上继续发展?
AppSumo 的发布使 GSpeech 面向数百万人,并获得了几乎完美的评分,这让人非常鼓舞。像在线课程运营者这样的用户赞扬了我们的直观工具和响应迅速的支持,这与人文联盟的反馈相吻合。博客所有者称我们的语音“真正吸引人”,翻译“令人印象深刻”。他们的积极反馈证实了我们 AI 驱动的文本转语音解决方案的价值,并激发了我对该项目的热情。在发布期间支持客户也激发了新的想法,特别是针对 GSpeech Studio 的用户请求的高级音频编辑和导出功能。未来,我计划通过积极倾听我们的社区、整合他们的反馈和开发创新功能来增强可访问性和参与度,确保 GSpeech 继续演变为创作者和企业的变革工具。
最后,对于想要在当今快速发展的技术格局中构建易访问的 AI 驱动工具的年轻开发人员或企业家,您有什么建议?
对于年轻的开发人员和企业家,我的建议是将您的全部心力投入到您的工作中,并找出一个真正的问题,您可以提供一个独特、聪明的解决方案。从小开始,稳步前进,并密切倾听客户的反馈 – 他们将指导您的道路。像对待值得信赖的朋友一样对待您的用户,尽一切努力,并保持耐心。将 AI 技术视为强大的盟友;当明智使用时,它们可以放大您的能力,创造出有影响力、易访问的工具。带着热情、毅力和致力于产生积极影响的承诺去建设,您将创造出真正重要的解决方案。
感谢这次精彩的采访,我们选择了 GSpeech 解决方案用于我们的网站,因为它易于集成。要了解更多,请访问 GSpeech。












