Интервью
Саймон Погосян, основатель и генеральный директор GSpeech – серия интервью

Симон Погосян является основателем и генеральным директором Речь, веб-платформа ИИ, которая помогает сделать онлайн-контент более доступным, преобразуя текст в естественно звучащий звук на более чем 70 языках. Имея опыт в проектировании СБИС и большой интерес к программированию и пользовательскому опыту, Саймон создал GSpeech, чтобы упростить способ, которым веб-сайты могут предлагать голосовой контент.
Сегодня GSpeech генерирует около 200 миллионов символов аудио каждый месяц и используется в более чем 70 странах, а его настраиваемые аудиоплееры обслуживают более 200,000 воспроизведений ежемесячно. Недавно превзойдя более миллиарда символов сгенерированного аудио, GSpeech продолжает быстро расти. Платформа разработана для легкой интеграции — требуется всего одна строка кода — и помогает создателям, преподавателям и компаниям сделать свой контент более инклюзивным и интересным.
GSpeech также используется на всех наших англоязычных страницах. Вы можете прослушать эту статью и узнать, насколько хорошо работает GSpeech, нажав на кнопку воспроизведения.
Ваш опыт в области проектирования СБИС (Very Large Scale Integration) и ранний опыт программирования заложили прочную техническую основу. Что вдохновило вас на переход от микроэлектроники к созданию программного обеспечения на базе ИИ, и как это привело к созданию GSpeech?
Моя страсть к решению проблем началась в старшей школе, движимая любовью к математике и физике. Этот интерес привел меня к получению степени бакалавра (2009) и магистра (2011) по проектированию СБИС в Государственном инженерном университете Армении в сотрудничестве с Synopsys Armenia. Изучение физики привило мне точность и аналитическое мышление, но именно на втором курсе я открыл для себя программирование — начав с языка Pascal — и сразу влюбился в него. Мы с другом выполняли курсовые задания сразу же, как только их получали, хотя у нас оставалось шесть месяцев на выполнение. Затем, ради развлечения, мы начали выполнять задания других студентов.
Эта страсть привела меня глубже в разработку программного обеспечения. Я начал с создания веб-сайтов, затем создал собственную CMS. После завершения нескольких проектов по автоматизации процессов и проектированию архитектур управления данными я понял, как сильно мне нравится создавать цифровые решения для веб-интерфейсов. В рамках проекта 2GLux я сотрудничал с Эдвардом Ананяном — создателем популярного GTranslate служба перевода и школьный друг из Quant Gymnasium. Он познакомил меня с экосистемами WordPress и Joomla, и концепция GSpeech возникла вместе с ним. Эта ранняя работа привела к первой версии нашего инструмента, позволяющего пользователям прослушивать текст на веб-странице, посеяв семена того, что впоследствии стало полнофункциональной платформой ИИ. К 2023 году я основал Smarts Club LLC, чтобы масштабировать GSpeech в глобальное аудиорешение ИИ, поддерживающее более 70 языков. Похвала Humanity Union за роль GSpeech в повышении доступности их платформы гражданского участия отражает мою миссию по преодолению цифрового неравенства с помощью ИИ — видение, укорененное в моих ранних днях программирования.
GSpeech изначально начинался как инструмент для поддержки пользователей с нарушениями зрения. Как эта ранняя миссия повлияла на эволюцию платформы в полнофункциональное решение для преобразования текста в речь на основе искусственного интеллекта?
Фокус на доступности привел к разработке высококачественного звука AI в реальном времени, перевода на более чем 70 языков и бесшовной интеграции веб-сайта с помощью простого фрагмента кода. Эта миссия привела к таким функциям, как настраиваемые аудиоплееры, панели выбора языка и голоса, контекстно-зависимое воспроизведение, загрузка аудио и подробная статистика использования — включая данные о стране, городе, устройстве и аналитику воспроизведения с течением времени — все это было разработано для того, чтобы сделать контент более инклюзивным и интересным. Написав более 100,000 2023 строк кода, в XNUMX году я запустил GSpeech Cloud Console — масштабируемое решение, которое сочетает инклюзивность с расширенной функциональностью, позволяя компаниям и создателям делать свой контент доступным, многоязычным и интерактивным в Интернете.
С какими самыми большими техническими трудностями вы столкнулись при разработке облачной консоли GSpeech?
Одной из самых больших проблем при разработке GSpeech Cloud Console было проектирование масштабируемой архитектуры для безопасной и высококачественной генерации звука AI в реальном времени. Это потребовало инновационных решений для извлечения соответствующего контента из сети, обработки аудио на наших серверах и его хранения в облаке для быстрой и надежной доставки. Реализация надежных мер безопасности, таких как шифрование и контроль доступа, имела решающее значение для защиты динамического контента, создаваемого пользователями.
Еще одним препятствием было включение перевода в реальном времени с использованием усовершенствованных нейронных движков. Нам нужно было обеспечить точные переводы с низкой задержкой, одновременно создавая интуитивно понятный интерфейс, который позволял бы пользователям выбирать языки и предпочтительные голосовые профили для воспроизведения, отдавая приоритет удобству пользователя и персонализации. Наконец, мы разработали мастер создания аудиошаблонов с несколькими настраиваемыми представлениями проигрывателя, что позволило пользователям создавать уникальные, визуально привлекательные проигрыватели, адаптированные под их веб-сайты. Баланс гибкости, производительности и простоты использования на разных устройствах был стоящей задачей.
С переводом в реальном времени на 70+ языков и более 230 естественно звучащих голосов. Как вы обеспечиваете качество голоса и сохраняете точность в столь разнообразном языковом наборе?
Для поддержания стабильного качества голоса мы интегрируем несколько передовых моделей преобразования текста в речь (TTS), которые постоянно оптимизируются и обновляются. Эти многоязычные движки с высокой точностью обрабатывают контент на разных языках. Мы также внедряем более 100 новых голосовых эффектов, чтобы предоставить пользователям ещё более выразительные и естественные возможности. Каждый месяц GSpeech генерирует более 200 миллионов аудиосимволов, обслуживая пользователей более чем в 70 странах, а наши онлайн-плееры используются более 200,000 XNUMX раз в месяц, и это число растёт. Такой масштаб обеспечивает постоянную обратную связь и тестирование в реальных условиях, что напрямую влияет на нашу настройку и контроль качества.
Можете ли вы рассказать нам, как GSpeech использует ИИ и машинное обучение для создания реалистичного синтеза голоса? Как вы успеваете за быстрым прогрессом в области нейронных голосовых технологий?
GSpeech использует передовые технологии искусственного интеллекта и машинного обучения, интегрируя несколько современных моделей преобразования текста в речь для создания реалистичного синтеза голоса. Эти модели, оптимизированные для естественности и многоязычной поддержки, обрабатывают текстовый ввод и генерируют высококачественный звук с реалистичной интонацией и ритмом, даже для контента на разных языках. Мы улучшаем пользовательский опыт, предлагая настраиваемые стили голоса для разных языков. Мы также интегрировали псевдонимы TTS, которые позволяют пользователям задавать собственные правила воспроизведения определенных слов или фраз в аудио — например, заменяя определенные термины для достижения более точного произношения или фразировки. Чтобы быть в курсе последних достижений в области нейронных голосовых технологий, мы постоянно оцениваем и интегрируем новейшие разработки, сотрудничаем с лидерами отрасли и планируем разрабатывать собственные модели в будущем, что гарантирует GSpeech лидирующие позиции в области инноваций в области синтеза голоса.
Насколько важны для ваших пользователей настройка голоса, управление высотой звука и настройка воспроизведения? И каким вариантом использования, в котором эти функции проявляют себя по-настоящему ярко, вы гордитесь больше всего?
Настройка голоса, управление высотой тона и настройка воспроизведения имеют решающее значение для наших пользователей, позволяя им создавать уникальные, высококачественные стили голоса, соответствующие их конкретным потребностям, от новостных сайтов и блогов до доступного контента электронного обучения. Текущая интеграция более 100 новых голосовых вибраций еще больше усиливает это, предлагая пользователям непревзойденную гибкость для создания действительно отличительных закадровых голосов. Я больше всего горжусь GSpeech Studio, новой платформой для редактирования и генерации аудио, которую я разрабатываю. Она позволяет пользователям создавать несколько аудиоканалов, смешивать их с фоновой музыкой и экспортировать отточенные закадровые голоса, предоставляя создателям возможность создавать аудио профессионального уровня для различных приложений. Письмо студента с нарушением зрения, в котором он благодарит GSpeech за возможность самостоятельного обучения с помощью настраиваемого аудио, глубоко тронуло меня. Этот пример использования показывает, как эти функции делают контент доступным и преобразующим, цель, к которой я стремился с первых дней программирования.
GSpeech предлагает бесшовную интеграцию с WordPress, Shopify, Wix и т. д. Какова была ваша стратегия, чтобы сделать платформу готовой к использованию для создателей и предприятий в различных экосистемах?
Наша стратегия интеграции GSpeech по принципу plug-and-play с такими платформами, как WordPress, Shopify и Wix, сосредоточена на простоте, совместимости и масштабируемости. Мы разработали легкие, модульные плагины и фрагменты кода, которые легко интегрируются, требуя минимальной настройки — часто всего нескольких щелчков мыши. Это означает, что тысячи статей и динамических блоков контента могут мгновенно получить голосовую поддержку — без ручных усилий. Мы предлагаем очень гибкие, красиво оформленные плееры, которые адаптируются к разным устройствам, включая мобильные телефоны, планшеты и настольные компьютеры. Наши плееры не только настраиваются, но и оптимизированы для доступности и взаимодействия с пользователем. Для WordPress мы встроили облачную панель управления GSpeech непосредственно в панель администратора с помощью нашего плагина, оптимизируя управление для пользователей. Подробная документация и интуитивно понятные панели управления помогают нетехническим пользователям в установке и настройке. Регулярное тестирование обеспечивает стабильную производительность в различных экосистемах, позволяя создателям и предприятиям легко добавлять преобразование текста в речь на основе ИИ.
Оглядываясь на путь с 2012 года по сегодняшний день, что стало для вас самой важной вехой в личном или профессиональном плане в создании GSpeech?
Самым важным достижением для GSpeech стала генерация 1 миллиарда символов высококачественного звука с помощью искусственного интеллекта, что продемонстрировало наше глобальное влияние на доступность. Не менее значимыми были отзывы, полученные нами от таких организаций, как Humanity Union, которые высоко оценили GSpeech за улучшение своей платформы социальной ответственности, и от владельцев блогов, которые назвали его «переломным моментом» в сфере взаимодействия с пользователями. Более 110 пятизвёздочных отзывов на таких платформах, как WordPress и AppSumo в последние месяцы отражают это растущее доверие.
GSpeech теперь также активно используется Наманганское областное статистическое управление Узбекистана — государственное учреждение со значительным трафиком и видимостью на национальном уровне. То, что государственный орган так широко принял нашу технологию, стало значимой вехой и мощным знаком доверия к нашему решению.
Как христианин и как человек, служащий в армянской церкви, я также стараюсь поддерживать другие религиозные инициативы, когда это возможно. Я часто предлагаю GSpeech бесплатно христианским веб-сайтам, чтобы помочь более эффективно распространять их послание и сделать Писание более доступным через аудио. Это мой небольшой вклад в нечто большее. В то же время, я польщен тем, что работаю с такими преданными служениями, как Шнур — мессианская община и ценный клиент GSpeech, чья миссия и содержание отражают силу Писания в действии.
Эти моменты — когда технологии становятся мостом для веры, понимания и инклюзивности — напоминают мне, почему мы изначально создали GSpeech.
Какую роль, по вашему мнению, будет играть GSpeech в будущем цифровых медиа, особенно с учетом того, что аудиоконтент и голосовые интерфейсы становятся все более доминирующими?
Я представляю GSpeech лидером в повышении доступности и вовлеченности цифровых медиа, предоставляя голосовой доступ к сети на базе искусственного интеллекта. Наша цель — преобразовать весь онлайн-опыт, чтобы веб-сайты стали естественно голосовыми, инклюзивными и многоязычными по умолчанию. С помощью всего одной строки кода владельцы сайтов могут превратить тысячи статей в озвученный контент. Заглядывая вперед, мы развиваем GSpeech Studio в мощную и уникальную платформу для создания и редактирования аудио, позволяя пользователям создавать многослойный голосовой контент с фоновой музыкой, эффектами и точной настройкой. Мы хотим сделать сеть по-настоящему слышимой, интуитивно понятной и общедоступной.
GSpeech недавно запущен на AppSumo и уже заслужил почти идеальную оценку от ранних последователей. Что для вас означает отклик сообщества AppSumo, и как вы планируете развивать этот импульс в будущем?
Запуск AppSumo представил GSpeech миллионам, и его почти идеальный рейтинг невероятно обнадёживает. Пользователи, такие как те, кто проводит онлайн-курсы, хвалят наши интуитивно понятные инструменты и отзывчивую поддержку, вторя отзывам Humanity Union. Владелец блога назвал наши голоса «по-настоящему интересными», а переводы «впечатляющими». Их положительные отзывы подтверждают ценность нашего решения для преобразования текста в речь на базе ИИ и подпитывают мою страсть к проекту. Поддержка клиентов во время запуска также зародила новые идеи, в частности для GSpeech Studio, которая была вдохновлена запросами пользователей на расширенные функции редактирования и экспорта аудио. Двигаясь дальше, я планирую развивать этот импульс, активно прислушиваясь к нашему сообществу, интегрируя их отзывы и разрабатывая инновационные функции для повышения доступности и вовлеченности, гарантируя, что GSpeech продолжит развиваться как преобразующий инструмент для создателей и предприятий.
Наконец, какой совет вы бы дали молодым разработчикам или предпринимателям, которые хотят создавать доступные инструменты на базе искусственного интеллекта в современном быстро меняющемся технологическом ландшафте?
Молодым разработчикам и предпринимателям я советую вкладывать душу в свою работу и определять реальную проблему, для которой вы можете предложить уникальное, умное решение. Начните с малого, делайте уверенные шаги вперед и внимательно прислушивайтесь к отзывам клиентов — они будут направлять ваш путь. Относитесь к своим пользователям как к надежным друзьям, отдавайте всего себя и будьте терпеливы. Примите технологии ИИ как мощных союзников; при разумном использовании они усиливают вашу способность создавать эффективные, доступные инструменты. Создавайте со страстью, настойчивостью и стремлением изменить мир, и вы создадите решения, которые действительно имеют значение.
Спасибо за отличное интервью, мы выбрали решение GSpeech для нашего сайта из-за простоты интеграции. Чтобы узнать больше, посетите Речь.












