Rozhovory
Simon Poghosyan, zakladatel a CEO GSpeech – Interview Series

Simon Poghosyan je zakladatel a CEO GSpeech, webovou AI platformu, která pomáhá membuat online obsah více přístupným tím, že převádí text do přirozeně znějícího audio ve více než 70 jazycích. S pozadím ve VLSI Designu a silným zájmem o programování a uživatelský zážitek vytvořil Simon GSpeech, aby zjednodušil způsob, jakým webové stránky mohou nabízet hlasově ovládaný obsah.
Dnes GSpeech generuje kolem 200 milionů znaků audio měsíčně a je používán v více než 70 zemích, s jeho přizpůsobitelnými audio přehrávači, které slouží více než 200 000 přehrávek měsíčně. Poté, co nedávno překročil 1 miliardu znaků audio vygenerovaných celkem, GSpeech pokračuje v rychlém růstu. Platforma je navržena tak, aby byla snadno integrovatelná — vyžaduje pouze jeden řádek kódu — a podporuje tvůrce, pedagogy a podniky v tom, aby jejich obsah byl více inkluzivní a atraktivní.
GSpeech je také použit na všech našich anglických stránkách, můžete si poslechnout tento článek a vidět, jak dobře GSpeech funguje, kliknutím na tlačítko přehrávání.
Vaše pozadí ve VLSI Designu (Velmi velká měřítková integrace) a raná programovací zkušenost položily silný technický základ. Co vás inspirovalo k přechodu z mikroelektroniky na budování AI-poháněného softwaru, a jak to vedlo k vytvoření GSpeech?
Má vášeň pro řešení problémů začala na střední škole, poháněná láskou k matematice a fyzice. To mě vedlo k získání bakalářského (2009) a magisterského (2011) titulu ve VLSI Designu na Státní inženýrské univerzitě v Arménii, ve spolupráci se Synopsys Arménie. Studium fyziky mě naučilo přesnosti a analytickému myšlení, ale během druhého roku jsem objevil programování — začínající s jazykem Pascal — a okamžitě se do něj zamiloval. Můj přítel a já jsme dokončovali úkoly z kurzů, jakmile jsme je obdrželi, i když jsme měli šest měsíců na to, abychom je dokončili. Pak, pro zábavu, jsme začali dělat úkoly ostatních studentů.
Tato vášeň mě vedla hlouběji do softwarového vývoje. Začal jsem s tvorbou webových stránek, pak jsem postavil svůj vlastní CMS. Po dokončení několika projektů v procesní automatizaci a navrhování architektur správy dat jsem si uvědomil, jak moc miluji budování digitálních řešení pro webové rozhraní. Prostřednictvím projektu 2GLux jsem spolupracoval s Edvardem Ananyanem — tvůrcem populárního GTranslate překladového služby a školního přítele z Quant Gymnázia. Představil mi ekosystémy WordPress a Joomla, a koncept GSpeech vznikl s ním. Ta raná práce vedla k první verzi našeho nástroje, který umožňoval uživatelům poslouchat text na webové stránce, zasévání semínka toho, co by se později stalo plně vybavenou AI platformou. Do roku 2023 jsem založil Smarts Club LLC, aby jsem GSpeech rozšířil do globálního AI audio řešení, podporujícího 70+ jazyků. Chvála Humanity Union za roli GSpeech při zlepšování jejich platformy občanské angažovanosti potvrzuje mou misi mostů digitálních propastí prostřednictvím AI — vizi, která má své kořeny v mých raných programovacích dnech.
GSpeech původně začal jako nástroj na podporu zrakově postižených uživatelů. Jak ovlivnila tato raná mise vývoj platformy do plně vybaveného AI text-to-speech řešení?
Zaměření na přístupnost vedlo k vývoji vysoce kvalitního, reálného AI audio, překladu do 70+ jazyků a bezproblémové integraci webových stránek prostřednictvím jednoduchého kódu. Tato mise vedla k funkcím, jako jsou přizpůsobitelné audio přehrávače, panely výběru jazyka a hlasu, kontextově závislé přehrávání, stahování audio a podrobné statistiky použití — včetně údajů o zemi, městě, zařízení a přehrávacích analýz v čase — všechny navržené tak, aby obsah byl více inkluzivní a atraktivní. Po napsání více než 100 000 řádků kódu jsem spustil GSpeech Cloud Console v roce 2023 — škálovatelné řešení, které vyvažuje inkluzivitu s pokročilou funkcionalitou, umožňující tvůrcům a podnikům membuat jejich obsah přístupnějším, vícejazyčným a interaktivním po celém webu.
Jaké byly některé z největších technických výzev, kterým jste čelili během vývoje GSpeech Cloud Console?
Jednou z největších výzev při vývoji GSpeech Cloud Console byla návrh škálovatelné architektury pro reálné, zabezpečené, vysoce kvalitní AI audio generování. To vyžadovalo inovativní řešení pro načtení relevantního obsahu z webu, zpracování audio na našich serverech a uložení do cloudu pro rychlou a spolehlivou dodávku. Implementace robustních bezpečnostních opatření, jako je šifrování a řízení přístupu, byla kritická pro ochranu dynamicky generovaného obsahu.
Další překážkou bylo umožnění reálného překladu pomocí pokročilých neuronových motorů. Museli jsme zajistit nízkou latenci, přesné překlady a zároveň vytvořit intuitivní rozhraní, které umožňuje uživatelům vybrat jazyky a preferované hlasové profily pro přehrávání, priorizující uživatelský komfort a personalizaci. Nakonec jsme vyvinuli audio šablonu creator wizard s několika přizpůsobitelnými přehrávači, umožňující uživatelům navrhnout jedinečné, vizuálně atraktivní přehrávače přizpůsobené jejich webovým stránkám. Vyvážení flexibility, výkonu a snadnosti použití napříč zařízeními byla odměňující výzva.
S reálným překladem v 70+ jazycích a více než 230 přirozeně znějícími hlasy. Jak zajišťujete kvalitu hlasu a udržujete přesnost napříč tak rozmanitým jazykovým souborem?
Abyste udrželi konzistentní kvalitu hlasu, integrujeme několik pokročilých text-to-speech (TTS) modelů, které jsou neustále optimalizovány a aktualizovány. Tyto multijazyčné motory zpracovávají smíšený jazykový obsah s vysokou přesností. Kromě toho jsme spuštěni více než 100 nových hlasových vibrací, aby uživatelé měli ještě více expresivních a přirozeně znějících možností. Každý měsíc GSpeech generuje více než 200 milionů znaků audio, sloužící uživatelům v více než 70 zemích, s našimi online přehrávači, které jsou používány více než 200 000krát měsíčně — a rostou. Tento rozsah zajišťuje neustálou zpětnou vazbu a testování v reálném světě, které přímo informuje naše ladění a kontrolu kvality.
Můžete nás provést, jak GSpeech využívá AI a strojové učení k dodání podobného hlasového syntézy?
GSpeech používá pokročilou AI a strojové učení, integrující několik nejmodernějších text-to-speech modelů pro produkci podobného hlasového syntézy. Tyto modely, optimalizované pro přirozenost a multijazyčnou podporu, zpracovávají textové vstupy pro generování vysoce kvalitního audio s realistickou intonací a rytmem, i pro smíšený jazykový obsah. Zlepšujeme uživatelský zážitek nabídkou přizpůsobitelných hlasových stylů pro různé jazyky. Kromě toho jsme integrovali TTS aliasy, které umožňují uživatelům definovat vlastní pravidla pro to, jak jsou určitá slova nebo fráze renderovány v audio — například nahrazují konkrétní termíny, aby dosáhli přesnější výslovnosti nebo frázování. Abychom zůstali aktuální s neuronovou hlasovou technologií, neustále vyhodnocujeme a integrujeme nejnovější pokroky, spolupracujeme s lídry v oboru a plánujeme vyvinout proprietární modely v budoucnu, zajišťující, že GSpeech zůstane na špici inovací hlasové syntézy.
Jak důležité je ladění hlasu, kontrola tónu a přizpůsobení přehrávání pro vaše uživatele — a jaký je případ, kdy tyto funkce opravdu vynikají?
Ladění hlasu, kontrola tónu a přizpůsobení přehrávání jsou kritické pro naše uživatele, umožňující jim vytvořit jedinečné, vysoce kvalitní hlasové styly přizpůsobené jejich specifickým potřebám, od novinových a blogových webových stránek po přístupný e-learningový obsah. Pokračující integrace více než 100 nových hlasových vibrací dále zvyšuje tuto flexibilitu, nabízející uživatelům bezprecedentní flexibilitu pro tvorbu skutečně jedinečných hlasových nahrávek. Jsem nejvíce hrdý na GSpeech Studio, novou audio editační a generovací platformu, kterou vyvíjím. Umožňuje uživatelům vytvářet multiple audio kanály, míchat je s pozadí hudby a exportovat vyleštěné hlasové nahrávky, umožňující tvůrcům produkovat profesionální audio pro různé aplikace. Dopis zrakově postiženého studenta, který děkoval GSpeech za umožnění nezávislého studia prostřednictvím přizpůsobeného audio, mě hluboce dotkl. Tento případ ukazuje, jak tyto funkce činí obsah přístupnějším a transformujícím, cílem, který jsem sledoval od svých raných programovacích dnů.
GSpeech nabízí bezproblémové integrace s WordPress, Shopify, Wix a dalšími. Jaká byla vaše strategie pro to, aby platforma byla plug-and-play pro tvůrce a podniky napříč různými ekosystémy?
Naše strategie pro GSpeech integruje se zaměřením na jednoduchost, kompatibilitu a škálovatelnost. Vyvinuli jsme lehké, modulární pluginy a kódy, které se integrují bezproblémově, vyžadující minimální nastavení — často pouze několik kliknutí. To znamená, že tisíce článků a dynamických obsahových bloků mohou okamžitě získat hlasovou podporu — bez manuálního úsilí. Nabízíme vysoce flexibilní, krásně navržené přehrávače, které se přizpůsobují napříč zařízeními, včetně mobilních, tabletů a desktopů. Naši přehrávači nejsou pouze přizpůsobitelní, ale také optimalizováni pro přístupnost a uživatelskou angažovanost. Pro WordPress jsme vložili GSpeech cloud dashboard přímo do administrační panely prostřednictvím našeho pluginu, streamlinující správu pro uživatele. Podrobná dokumentace a intuitivní dashboardy vedou ne-technické uživatele prostřednictvím instalace a přizpůsobení. Pravidelné testování zajišťuje konzistentní výkon napříč různými ekosystémy, umožňující tvůrcům a podnikům přidat AI-poháněný text-to-speech bez úsilí.
Ohlédnutím se za cestou od roku 2012 do dneška, co byla největší milník pro vás osobně nebo profesně při budování GSpeech?
Největší milník pro GSpeech byl generování 1 miliardy znaků vysoce kvalitního AI audio, demonstrující náš globální dopad na přístupnost. Stejně významné bylo zpětné vazby, které jsme obdrželi od organizací, jako je Humanity Union, která chválila GSpeech za zlepšení jejich platformy občanské angažovanosti, a od vlastníků blogů, kteří jej nazvali „zásadním“ pro uživatelskou angažovanost. Více než 110 pětihvězdičkových recenzí napříč platformami, jako je WordPress a AppSumo v posledních měsících, odráží tuto rostoucí důvěru.
GSpeech je nyní také aktivně používán Namangan regionální statistický úřad v Uzbekistánu — vládní instituce se značným provozem a národní viditelností. Vidět, jak veřejný orgán široce přijímá naší technologii, bylo významným milníkem a silným znamením důvěry v naše řešení.
Jako křesťan a někdo, kdo slouží v arménské církvi, snažím se také podporovat další vírou inspirované iniciativy, kdykoli je to možné. Často nabízím GSpeech zdarma křesťanským webovým stránkám jako způsob, jak pomoci šířit jejich zprávu účinněji a udělat Písmo přístupnějším prostřednictvím audio. Je to můj malý příspěvek k něčemu většímu. Současně jsem poctěn pracovat s věrnými ministry, jako je The Cord — messiánské shromáždění a ceněný GSpeech klient — jehož mise a obsah odráží sílu Písma v akci.
Tyto okamžiky — kdy se technologie stává mostem pro víru, porozumění a inkluzivitu — připomínají mi, proč jsme postavili GSpeech poprvé.
Jakou roli vidíte GSpeech hrající v budoucnosti digitálních médií, zejména když se audio obsah a hlasová rozhraní stávají dominantnějšími?
Vidím GSpeech jako lídra v tom, aby digitální média byla více přístupná a atraktivní, umožňující AI-poháněný hlasový přístup k webu. Naším cílem je transformovat celý online zážitek, aby webové stránky byly přirozeně hlasově interaktivní, inkluzivní a vícejazyčné ve výchozím nastavení. S pouze jedním řádkem kódu mohou majitelé stránek převést tisíce článků na hlasový obsah. Při pohledu do budoucna vyvíjíme GSpeech Studio do silné a jedinečné platformy pro audio generování a editaci, umožňující uživatelům vytvářet víceložné hlasové obsahy s pozadí hudby, efekty a přesným laděním. Chceme udělat web skutečně slyšitelným, intuitivním a univerzálně přístupným.
GSpeech nedávno spuštěn na AppSumo a již získal téměř dokonalou hodnocení od raných adoptérů. Co znamená pro vás reakce komunity AppSumo, a jak plánujete budovat na tomto impetusu?
Spouštění na AppSumo představilo GSpeech milionům a jeho téměř dokonalé hodnocení je neuvěřitelně ujišťující. Uživatelé, jako ti, kteří běží online kurzy, chválí naše intuitivní nástroje a rychlou podporu, opakující se zpětná vazba z Humanity Union. Vlastník blogu nazval naše hlasy „skutečně angažující“ a překlady „dojmové“. Jejich pozitivní zpětná vazba potvrzuje hodnotu našeho AI-poháněného text-to-speech řešení a pohání mou vášeň pro projekt. Podpora klientů během spouštění také inspirovala nové nápady, zejména pro GSpeech Studio, který byl inspirován požadavky uživatelů na pokročilé audio editační a exportní funkce. Při pohledu do budoucna plánuji budovat na tomto impetusu aktivním nasloucháním naší komunitě, integrací jejich zpětné vazby a vývojem inovativních funkcí pro zlepšení přístupnosti a angažovanosti, zajišťující, že GSpeech bude pokračovat ve vývoji jako transformační nástroj pro tvůrce a podniky.
Nakonec, co byste poradil mladým vývojářům nebo podnikatelům, kteří chtějí postavit přístupné, AI-poháněné nástroje v dnešním rychlém technologickém prostředí?
Mladým vývojářům a podnikatelům bych poradil, aby vložili své srdce do své práce a identifikovali skutečný problém, kde mohou nabídnout jedinečné, chytré řešení. Začněte malé, postupujte pomalu a poslouchejte pečlivě zpětnou vazbu uživatelů — budou vás vést na vaší cestě. Zacházejte se svými uživateli jako s důvěrnými přáteli, dejte ze sebe všechno a zůstaňte trpěliví. Přijměte AI technologie jako silné spojence; když se používají moudře, zesilují vaši schopnost vytvářet dopad, přístupné a smysluplné nástroje. Budujte s vášní, vytrvalostí a závazkem dělat rozdíl, a budete vytvářet řešení, která skutečně mají význam.
Děkuji za skvělý rozhovor, jsme si vybrali GSpeech řešení pro naše webové stránky kvůli snadné integraci. Chcete-li se dozvědět více, navštivte GSpeech.












