Интервью
Симон Погосян, основатель и CEO GSpeech – Интервью

Симон Погосян является основателем и CEO GSpeech, веб-платформы на основе ИИ, которая помогает сделать онлайн-контент более доступным, преобразуя текст в естественно звучащий аудио на более чем 70 языках. С опытом в области VLSI Design и сильным интересом к программированию и пользовательскому опыту, Симон создал GSpeech, чтобы упростить способ, которым веб-сайты могут предлагать контент с голосовым управлением.
Сегодня GSpeech генерирует около 200 миллионов символов аудио каждый месяц и используется в более чем 70 странах, а его настраиваемые аудиоплееры обслуживают более 200 000 воспроизведений в месяц. После того, как было сгенерировано более 1 миллиарда символов аудио в общей сложности, GSpeech продолжает расти быстро. Платформа предназначена для легкой интеграции — требуется только одна строка кода — и поддерживает создателей, педагогов и бизнес в том, чтобы сделать их контент более инклюзивным и привлекательным.
GSpeech также используется на всех наших англоязычных страницах, вы можете прослушать эту статью и оценить, как хорошо работает GSpeech, нажав на кнопку воспроизведения.
Ваш опыт в области VLSI Design (Very Large Scale Integration) и ранний опыт программирования заложили прочный технический фундамент. Что вдохновило ваш переход от микроэлектроники к созданию программного обеспечения на основе ИИ, и как это привело к созданию GSpeech?
Моя страсть к решению проблем началась в школе, подогретая любовью к математике и физике. Этот интерес привел меня к получению степени бакалавра (2009) и магистра (2011) в области VLSI Design в Государственном инженерном университете Армении, в сотрудничестве с Synopsys Armenia. Изучение физики научило меня точности и аналитическому мышлению, но именно на втором курсе я открыл для себя программирование — начиная с языка Pascal — и сразу же влюбился в него. Мой друг и я выполняли задания по курсу, как только получали их, хотя у нас было шесть месяцев, чтобы их выполнить. Затем, для развлечения, мы начали выполнять задания других студентов.
Эта страсть привела меня глубже в разработку программного обеспечения. Я начал с создания веб-сайтов, затем построил свою собственную систему управления контентом. После завершения нескольких проектов в области автоматизации процессов и проектирования архитектур управления данными, я понял, как сильно я люблю создавать цифровые решения для веб-интерфейсов. Через проект 2GLux я сотрудничал с Эдвардом Ананяном — создателем популярного сервиса перевода GTranslate и одноклассником из Quant Gymnasium. Он познакомил меня с экосистемами WordPress и Joomla, и концепция GSpeech возникла с ним. Эта ранняя работа привела к первой версии нашего инструмента, позволяющего пользователям слушать текст на веб-странице, посадив семя того, что позже стало полноценной платформой на основе ИИ. К 2023 году я основал компанию Smarts Club LLC, чтобы масштабировать GSpeech в глобальное решение аудио на основе ИИ, поддерживающее более 70 языков. Похвала Humanity Union за роль GSpeech в повышении доступности их платформы гражданского участия отражает мою миссию по сокращению цифровых разрывов с помощью ИИ — видение, укорененное в моих ранних днях программирования.
GSpeech изначально начался как инструмент для поддержки пользователей с нарушениями зрения. Как эта первоначальная миссия повлияла на эволюцию платформы в полноценное решение текст-в-речь на основе ИИ?
Фокус на доступности привел к разработке высококачественного, реального аудио на основе ИИ, перевода на более чем 70 языков и бесшовной интеграции с веб-сайтами через простой кодовый фрагмент. Эта миссия привела к функциям, таким как настраиваемые аудиоплееры, панели выбора языка и голоса, контекстно-зависимое воспроизведение, загрузка аудио и подробная статистика использования — включая данные о стране, городе, устройстве и аналитике воспроизведения во времени — все это предназначено для того, чтобы сделать контент более инклюзивным и привлекательным. После написания более 100 000 строк кода я запустил GSpeech Cloud Console в 2023 году — масштабируемое решение, которое балансирует инклюзивность с продвинутой функциональностью, наделяя бизнес и создателей возможностью сделать свой контент доступным, многоязычным и интерактивным во всем интернете.
Какими были некоторые из самых больших технических проблем, с которыми вы столкнулись во время разработки GSpeech Cloud Console?
Одной из самых больших проблем в разработке GSpeech Cloud Console было проектирование масштабируемой архитектуры для реального, безопасного, высококачественного аудио на основе ИИ. Это потребовало инновационных решений для извлечения соответствующего контента из веба, обработки аудио на наших серверах и хранения его в облаке для быстрой и надежной доставки. Реализация надежных мер безопасности, таких как шифрование и контроль доступа, была критически важна для защиты динамического, пользовательского контента.
Другой препятствием было включение реального перевода с помощью продвинутых нейронных двигателей. Нам пришлось обеспечить низкую задержку, точный перевод, а также создать интуитивно понятный интерфейс, который позволял бы пользователям выбирать языки и предпочитаемые голосовые профили для воспроизведения, отдаляя приоритет комфорту и персонализации пользователя. Наконец, мы разработали мастер создания шаблонов аудио с несколькими настраиваемыми видами плееров, позволяя пользователям проектировать уникальные, визуально привлекательные плееры, адаптированные к их веб-сайтам. Сбалансировать гибкость, производительность и простоту использования на устройствах было полезной задачей.
С реальным переводом на более чем 70 языках и более 230 естественно звучащими голосами. Как вы обеспечиваете качество голоса и поддерживаете точность в таком разнообразном языковом наборе?
Чтобы поддерживать последовательное качество голоса, мы интегрируем несколько продвинутых моделей текст-в-речь (TTS), которые постоянно оптимизируются и обновляются. Эти многоязычные двигатели обрабатывают смешанный языковой контент с высокой точностью. Мы также развертываем более 100 новых голосовых настроек, чтобы дать пользователям еще больше выразительных и естественно звучащих вариантов. Каждый месяц GSpeech генерирует более 200 миллионов символов аудио, обслуживая пользователей в более чем 70 странах, а наши онлайн-плееры используются более 200 000 раз в месяц — и растут. Этот масштаб обеспечивает постоянную обратную связь и реальное тестирование, которое напрямую информирует наши настройки и контроли качества.
Можете ли вы рассказать, как GSpeech использует ИИ и машинное обучение, чтобы доставлять похожую на жизнь голосовую синтез? Как вы поддерживаете темп с быстрыми достижениями в области нейронной голосовой технологии?
GSpeech использует продвинутый ИИ и машинное обучение, интегрируя несколько передовых моделей текст-в-речь, чтобы произвести похожую на жизнь голосовую синтез. Эти модели, оптимизированные для естественности и многоязычной поддержки, обрабатывают текстовые входные данные, чтобы сгенерировать высококачественное аудио с реалистичной интонацией и ритмом, даже для смешанного языкового контента. Мы усиливаем пользовательский опыт, предлагая настраиваемые стили голоса для различных языков. Мы также интегрировали псевдонимы TTS, которые позволяют пользователям определять пользовательские правила для того, как определенные слова или фразы отображаются в аудио — например, заменяя конкретные термины, чтобы достичь более точного произношения или фразировки. Чтобы оставаться в курсе нейронной голосовой технологии, мы постоянно оцениваем и интегрируем последние достижения, сотрудничаем с лидерами отрасли и планируем разработать собственные модели в будущем, обеспечивая, чтобы GSpeech оставался на переднем крае инноваций в области голосовой синтеза.
Насколько важны настройка голоса, контроль тона и настройка воспроизведения для ваших пользователей — и какой из случаев использования вы наиболее гордитесь, где эти функции действительно блестят?
Настройка голоса, контроль тона и настройка воспроизведения имеют решающее значение для наших пользователей, позволяя им создавать уникальные, высококачественные стили голоса, адаптированные к их конкретным потребностям, от новостных и блогов веб-сайтов до доступного электронного обучения. Постоянная интеграция более 100 новых голосовых настроек еще больше усиливает это, предлагая пользователям беспрецедентную гибкость для создания действительно уникальных голосовых сопровождений. Я наиболее горжусь GSpeech Studio, новой платформой для редактирования и генерации аудио, над которой я работаю. Она позволяет пользователям создавать несколько аудиоканалов, смешивать их с фоновым музыкальным сопровождением и экспортировать отполированные голосовые сопровождения, наделяя создателей возможностью производить профессионально звучащее аудио для различных приложений. Письмо студента с нарушениями зрения, благодарившего GSpeech за возможность независимого обучения с помощью настраиваемого аудио, глубоко тронуло меня. Этот случай использования демонстрирует, как эти функции делают контент доступным и трансформирующим, цель, которую я преследовал с ранних дней программирования.
GSpeech предлагает бесшовные интеграции с WordPress, Shopify, Wix и другими. Какова была ваша стратегия, чтобы сделать платформу готовой к использованию для создателей и бизнеса в разных экосистемах?
Наша стратегия для интеграции GSpeech с платформами, такими как WordPress, Shopify и Wix, была сосредоточена на простоте, совместимости и масштабируемости. Мы разработали легкие, модульные плагины и кодовые фрагменты, которые интегрируются бесшовно, требуя минимальной настройки — часто всего лишь несколько кликов. Это означает, что тысячи статей и динамических блоков контента могут мгновенно получить голосовую поддержку — без ручных усилий. Мы предлагаем высоко гибкие, красиво спроектированные плееры, которые адаптируются на устройствах, включая мобильные телефоны, планшеты и настольные компьютеры. Наши плееры не только настраиваемы, но и оптимизированы для доступности и пользовательского взаимодействия. Для WordPress мы встроили облачную панель управления GSpeech直接 в административную панель через наш плагин, упрощая управление для пользователей. Подробная документация и интуитивно понятные панели управления направляют непрофессиональных пользователей через процесс установки и настройки. Регулярное тестирование обеспечивает последовательную производительность в различных экосистемах, наделяя создателей и бизнес возможностью добавить аудио на основе ИИ без усилий.
Оглядываясь на путь от 2012 года до сегодняшнего дня, какая была самая большая веха для вас лично или профессионально в построении GSpeech?
Самой большой вехой для GSpeech было сгенерировать 1 миллиард символов высококачественного аудио на основе ИИ, демонстрирующее наш глобальный вклад в доступность. Не менее значимым было получение обратной связи от организаций, таких как Humanity Union, которые похвалили GSpeech за повышение доступности их социальной платформы, и от владельцев блогов, которые назвали его «игроком, меняющим правила» для пользовательского взаимодействия. Более 110 пятизвездочных отзывов на платформах, таких как WordPress и AppSumo в последние месяцы, отражают это растущее доверие.
GSpeech теперь также активно используется региональным статистическим управлением Намангана в Узбекистане — государственным учреждением с значительным трафиком и национальной видимостью. Видя, как государственное учреждение принимает нашу технологию так широко, было значимой вехой и мощным знаком доверия к нашему решению.
Как христианин и человек, служащий в армянской церкви, я также стараюсь поддерживать другие верооснованные инициативы, когда это возможно. Я часто предлагаю GSpeech бесплатно христианским веб-сайтам как способ помочь им распространить свое послание более эффективно и сделать Писание более доступным через аудио. Это мой небольшой вклад в нечто большее. В то же время я горжусь работой с преданными министерствами, такими как The Cord — мессианское собрание и ценный клиент GSpeech — чья миссия и контент отражают силу Писания в действии.
Эти моменты — когда технология становится мостом для веры, понимания и инклюзивности — напоминают мне, почему мы построили GSpeech в первую очередь.
Какую роль вы видите GSpeech, играющую в будущем цифровых медиа, особенно когда аудиоконтент и голосовые интерфейсы становятся более доминирующими?
Я представляю GSpeech как лидера в том, чтобы сделать цифровые медиа более доступными и привлекательными, позволяя аудио-доступ к вебу на основе ИИ. Наша цель — трансформировать весь онлайн-опыт, чтобы веб-сайты стали естественно голосо-интерактивными, инклюзивными и многоязычными по умолчанию. С помощью только одной строки кода владельцы сайтов могут преобразовать тысячи статей в голосовой контент. Смотря вперед, мы разрабатываем GSpeech Studio в мощную и уникальную платформу для генерации и редактирования аудио, позволяющую пользователям создавать многослойный голосовой контент с фоновым музыкальным сопровождением, эффектами и точной настройкой. Мы хотим сделать веб действительно слышимым, интуитивным и универсально доступным.
GSpeech недавно запущен на AppSumo и уже получил почти идеальную оценку от ранних пользователей. Какой отклик от сообщества AppSumo был для вас, и как вы планируете развивать это движение в будущем?
Запуск на AppSumo представил GSpeech миллионам, и его почти идеальная оценка невероятно подтверждающая. Пользователи, такие как те, кто проводит онлайн-курсы, хвалят наши интуитивно понятные инструменты и отзывчивую поддержку, повторяя отзывы Humanity Union. Владелец блога назвал наши голоса «настоящим образом привлекательными» и переводы «впечатляющими». Их положительная обратная связь подтверждает ценность нашего решения текст-в-речь на основе ИИ и подогревает мою страсть к проекту. Поддержка клиентов во время запуска также вызвала новые идеи, особенно для GSpeech Studio, который был вдохновлен запросами пользователей на продвинутые функции редактирования и генерации аудио. В будущем я планирую развивать это движение, активно слушая наше сообщество, интегрируя их обратную связь и разрабатывая инновационные функции, чтобы повысить доступность и взаимодействие, обеспечивая, чтобы GSpeech продолжал эволюционировать как трансформирующий инструмент для создателей и бизнеса.
Наконец, какой совет вы дадите молодым разработчикам или предпринимателям, которые хотят построить доступные, аудио-инструменты на основе ИИ в сегодняшнем быстро меняющемся технологическом ландшафте?
Молодым разработчикам и предпринимателям мой совет — вложить свое сердце в свою работу и выявить реальную проблему, где вы можете предложить уникальное, умное решение. Начните с малого, делайте стабильные шаги вперед и внимательно слушайте обратную связь клиентов — они будут направлять ваш путь. Относитесь к пользователям как к доверенным друзьям, отдавайте все и оставайтесь терпеливы. Принимайте технологии ИИ как мощных союзников; когда они используются мудро, они усиливают вашу способность создавать значимые, доступные инструменты. Постройте с страстью, настойчивостью и приверженностью к созданию разницы, и вы создадите решения, которые действительно имеют значение.
Спасибо за отличное интервью, мы выбрали решение GSpeech для нашего веб-сайта из-за легкой интеграции. Чтобы узнать больше, посетите GSpeech.












