Connect with us

Simon Poghosyan, grundlægger og administrerende direktør for GSpeech – Interviewserie

Interviews

Simon Poghosyan, grundlægger og administrerende direktør for GSpeech – Interviewserie

mm

Simon Poghosyan er grundlægger og administrerende direktør for GSpeech, en webbaseret AI-platform, der hjælper med at gøre onlineindhold mere tilgængeligt ved at konvertere tekst til naturligt lydende audio på over 70 sprog. Med en baggrund i VLSI-design og en stærk interesse for programmering og brugeroplevelse, skabte Simon GSpeech for at simplificere måden, hvorpå websteder kan tilbyde stemmeaktiveret indhold.

I dag genererer GSpeech omkring 200 millioner tegn af audio hver måned og bruges i over 70 lande, med dets tilpasselige audioafspillere, der serverer over 200.000 afspilninger månedligt. Efter at have overgået 1 milliard tegn af audio, som er genereret i alt, fortsætter GSpeech med at vokse hurtigt. Platformen er designed til at være let at integrere – kun en enkelt linje kode er nødvendig – og understøtter skabere, undervisere og virksomheder i at gøre deres indhold mere inklusivt og engagerende.

GSpeech bruges også på alle vores engelske sider, du kan lytte til denne artikel og se, hvordan GSpeech fungerer ved at klikke på afspilningsknappen.

Din baggrund i VLSI-design (Very Large Scale Integration) og tidlige programmeringsoplevelser lagde en stærk teknisk grund. Hvad inspirerede din skift fra mikroelektronik til bygning af AI-drevet software, og hvordan ledte det til skabelsen af GSpeech?

Min passion for problemløsning begyndte i gymnasiet, drevet af en kærlighed til matematik og fysik. Denne interesse førte mig til at få en bachelor (2009) og en master (2011) i VLSI-design fra det statlige ingeniør-universitet i Armenien, i samarbejde med Synopsys Armenien. At studere fysik trænede mig i præcision og analytisk tænkning, men det var under mit andet år, at jeg opdagede programmering – startende med Pascal-sproget – og straks blev forelsket i det. Min ven og jeg ville gøre vores opgaver så snart, vi modtog dem, selvom vi havde seks måneder til at afslutte dem. Så, for sjov, begyndte vi at gøre opgaverne for andre studerende.

Denne passion førte mig dybere ind i softwareudvikling. Jeg startede med at skabe websteder, derefter byggede jeg min egen CMS. Efter at have afsluttet flere projekter i procesautomatisering og design af datastyringsarkitekturer, indså jeg, hvor meget jeg elskede at bygge digitale løsninger for webgrænseflader. Gennem 2GLux-projektet samarbejdede jeg med Edvard Ananyan – skaberen af den populære GTranslate-øversættelsesservice og en skoleven fra Quant Gymnasium. Han introducerede mig til WordPress- og Joomla-økosystemerne, og konceptet for GSpeech opstod med ham. Den tidlige arbejde førte til den første version af vores værktøj, der gjorde det muligt for brugere at lytte til tekst på en webside, og plantede frøet til, hvad der senere ville blive en fuldt udbygget AI-platform. I 2023 etablerede jeg Smarts Club LLC for at skale GSpeech op til en global AI-lydløsning, der understøtter 70+ sprog. Humanity Unions ros af GSpeechs rol i at forbedre deres borgerengagementsplatforms tilgængelighed afspejler min mission om at brokke digitale klyfter gennem AI – en vision, der er rod i mine tidlige programmeringsdage.

GSpeech startede oprindeligt som et værktøj til at understøtte visuelt handicappede brugere. Hvordan påvirkede denne tidlige mission platformens udvikling til en fuldt udbygget AI-tekst-til-tale-løsning?

Fokuseringen på tilgængelighed drev udviklingen af højkvalitets, realtids-AI-lyd, oversættelse til 70+ sprog og problemfri webintegration via en simpel kodestreng. Denne mission førte til funktioner som tilpasselige audioafspillere, sprog- og stemmevalgspaneler, kontekstbevidst afspilning, lyddownloads og detaljerede brugsstatistikker – herunder land, by, enhedsdata og afspilningsanalyser over tid – alle designede til at gøre indhold mere inklusivt og engagerende. Efter at have skrevet over 100.000 linjer kode, lancerede jeg GSpeech Cloud Console i 2023 – en skalerbar løsning, der balancerer inklusivitet med avanceret funktionalitet, og giver virksomheder og skabere mulighed for at gøre deres indhold tilgængeligt, flersproget og interaktivt på nettet.

Hvad var nogle af de største tekniske udfordringer, du stod overfor under udviklingen af GSpeech Cloud Console?

En af de største udfordringer under udviklingen af GSpeech Cloud Console var at designe en skalerbar arkitektur til realtids-, sikker-, højkvalitets-AI-lydgenerering. Dette krævede innovative løsninger til at hente relevant indhold fra web, behandle lyd på vores servere og gemme det i skyen for hurtig, pålidelig levering. Implementering af robuste sikkerhedsforanstaltninger, som kryptering og adgangskontrol, var kritisk for at beskytte dynamisk, bruger-genereret indhold.

En anden forhindring var at aktivere realtids-oversættelse ved hjælp af avancerede neurale motorer. Vi måtte sikre lav ventetid, nøjagtige oversættelser, mens vi byggede en intuitiv brugerflade, der lod brugere vælge sprog og foretrukne stemmeprofiler til afspilning, prioriterende brugercomfort og personliggørelse. Endelig udviklede vi en lydskabelon-wizard med multiple tilpasselige afspiller-views, der giver brugerne mulighed for at designe unikke, visuelt tiltalende afspillere tilpasset deres websteder. At balancere fleksibilitet, ydeevne og brugervenlighed på tværs af enheder var en belønning udfordring.

Med realtids-oversættelse på 70+ sprog og over 230 naturligt lydende stemmer. Hvordan sikrer du stemmekvalitet og opretholder nøjagtighed på tværs af så et diverst sprogssæt?

For at opretholde konsekvent stemmekvalitet integrerer vi multiple avancerede tekst-til-tale-modeller, der kontinuerligt optimeres og opdateres. Disse flersprogede motorer håndterer blandet sprogindhold med høj nøjagtighed. Vi ruller også ud over 100 nye stemme-vibes for at give brugerne endnu flere udtryksfulde og naturligt lydende muligheder. Hver måned genererer GSpeech over 200 millioner tegn af audio, der serverer brugere i mere end 70 lande, og vores online-afspillere bruges over 200.000 gange månedligt – og vokser. Denne skala sikrer kontinuerlig feedback og virkelystestning, der direkte informerer vores finjustering og kvalitetskontrol.

Kan du føre os igennem, hvordan GSpeech udnytter AI og maskinlæring til at levere livagtig stemmesyntese? Hvordan holder du trit med de hurtige fremskridt i neural stemmeteknologi?

GSpeech bruger avanceret AI og maskinlæring, der integrerer multiple state-of-the-art tekst-til-tale-modeller til at producere livagtig stemmesyntese. Disse modeller, optimeret til naturlighed og flersproget understøttelse, behandler tekstinput for at generere højkvalitets-audio med realistisk intonation og rytme, selv for blandet sprogindhold. Vi forbedrer brugeroplevelsen ved at tilbyde tilpasselige stemmestyler til diverse sprog. Vi har også integreret TTS-alias, der giver brugerne mulighed for at definere brugerdefinerede regler for, hvordan bestemte ord eller fraser skal rendres i audio – f.eks. erstatning af bestemte termer for at opnå mere præcis udtale eller fraseologi. For at holde trit med neural stemmeteknologi vurderer og integrerer vi kontinuerligt de seneste fremskridt, samarbejder med brancheførere og planlægger at udvikle proprietære modeller i fremtiden, sikrer GSpeech forbliver i frontlinjen for stemmesyntese-innovation.

Hvor vigtig er stemmeafstemning, tonekontrol og afspilnings-tilpasning for dine brugere – og hvilket er det brugstilfælde, du er mest stolt af, hvor disse funktioner virkelig skinner?

Stemmeafstemning, tonekontrol og afspilnings-tilpasning er kritiske for vores brugere, og giver dem mulighed for at skabe unikke, højkvalitets-stemmestyler tilpasset deres specifikke behov, fra nyheds- og blog-websteder til tilgængeligt e-læringsindhold. Den fortsatte integration af over 100 nye stemme-vibes forbedrer dette yderligere, og giver brugerne enestående fleksibilitet til at skabe virkelig distinkte voiceovers. Jeg er mest stolt af GSpeech Studio, en ny lydredigerings- og generationsplatform, jeg udvikler. Den giver brugerne mulighed for at skabe multiple lydkanaler, blande dem med baggrundsmusik og eksportere polerede voiceovers, og giver skabere mulighed for at producere professionelt-grade-audio til diverse anvendelser. En visuelt handicappet students takkebrev, der takkede GSpeech for at enablede selvstændigt studie gennem tilpasset audio, rørte mig dybt. Dette brugstilfælde viser, hvordan disse funktioner gør indhold tilgængeligt og transformerende, et mål jeg har forfulgt siden mine tidlige programmeringsdage.

GSpeech tilbyder problemfri integrationer med WordPress, Shopify, Wix og mere. Hvad har været din strategi for at gøre platformen plug-and-play for skabere og virksomheder på tværs af forskellige økosystemer?

Vores strategi for GSpeechs plug-and-play-integrationer med platforme som WordPress, Shopify og Wix fokuserede på enkelhed, kompatibilitet og skalerbarhed. Vi udviklede letvægts-, modulære plugins og kodestrenger, der integrerer problemfrit – ofte kun med få klik. Dette betyder, at tusindvis af artikler og dynamisk indhold kan øjeblikkeligt få stemmeunderstøttelse – uden manuel indsats. Vi tilbyder højtilpasselige, smukt designede afspillere, der tilpasser sig på tværs af enheder, herunder mobil, tablet og desktop. Vores afspillere er ikke kun tilpasselige, men også optimeret til tilgængelighed og brugerengagement. For WordPress indlejrede vi GSpeech-cloud-dashboardet direkte i adminpanelet via vores plugin, og strømlinerede styringen for brugerne. Detaljeret dokumentation og intuitive dashboards guider ikke-tekniske brugere gennem installation og tilpasning. Jævnlig testning sikrer konsekvent ydeevne på tværs af diverse økosystemer, og giver skabere og virksomheder mulighed for at tilføje AI-drevet tekst-til-tale uden besvær.

At se tilbage på rejsen fra 2012 til i dag, hvad har været den største milepæl for dig personligt eller professionelt i opbygningen af GSpeech?

Den største milepæl for GSpeech var generering af 1 milliard tegn af højkvalitets-AI-lyd, der viser vores globale indvirkning på tilgængelighed. Lige så betydningsfuldt har været den feedback, vi har modtaget fra organisationer som Humanity Union, der roste GSpeech for at forbedre deres sociale ansvar-platforms tilgængelighed, og fra blog-ejere, der kaldte det en “game-changer” for brugerengagement. Over 110 fem-stjernede anmeldelser på tværs af platforme som WordPress og AppSumo i de seneste måneder afspejler dette voksende tillid.

GSpeech bruges også aktivt af Namangan regional statistikafdeling i Usbekistan – en statsinstitution med betydelig trafik og national synlighed. At se en offentlig myndighed antage vores teknologi så bredt har været en betydningsfuld milepæl og et kraftfuldt tegn på tillid til vores løsning.

Som kristen og en, der tjener i den armenske kirke, prøver jeg også at støtte andre tro-baserede initiativer, når det er muligt. Jeg tilbyder ofte GSpeech gratis til kristne websteder som en måde at hjælpe med at sprede deres budskab mere effektivt og gøre Skriften mere tilgængelig gennem audio. Det er min lille bidrag til noget større. Samtidig er jeg æret over at arbejde med dedikeret ministerier som The Cord – en messiansk menighed og værdsat GSpeech-kunde – hvis mission og indhold afspejler kraften af Skriften i handling.

Disse øjeblikke – hvor teknologi bliver en bro for tro, forståelse og inklusion – minder mig om, hvorfor vi byggede GSpeech fra starten.

Hvad rol ser du for GSpeech i fremtiden for digitalt medie, især når audioindhold og stemme-grænseflader bliver mere dominerende?

Jeg forestiller mig GSpeech som en leder i at gøre digitalt medie mere tilgængeligt og engagerende ved at aktivere AI-drevet stemmeadgang til web. Vores mål er at transformere hele den online-oplevelse, så websteder bliver naturligt stemmeinteraktive, inklusive og flersprogede som standard. Med kun en linje kode kan webstedsejere omdanne tusindvis af artikler til stemmeaktiveret indhold. Fremover udvikler vi GSpeech Studio til en kraftfuld og unik platform for audio-generering og -redigering, og giver brugerne mulighed for at skabe multi-lagdigt lydindhold med baggrundsmusik, effekter og præcis afstemning. Vi vil gøre web tilgængeligt, intuitivt og universelt tilgængeligt.

GSpeech lancerede nyligt på AppSumo og har allerede opnået en næsten perfekt vurdering fra tidlige adopterer. Hvad har responsen fra AppSumo-fællesskabet betydet for dig, og hvordan planlægger du at bygge videre på dette momentum?

AppSumo-lanceringen introducerede GSpeech til millioner, og dens næsten perfekte vurdering er utroligt bekræftende. Brugere, som dem, der kører online-kurser, roser vores intuitive værktøjer og responsiv support, der genspejler feedback fra Humanity Union. En blog-ejer kaldte vores stemmer for “ægte engagerende” og oversættelser for “imponerende”. Deres positive feedback bekræfter værdien af vores AI-drevne tekst-til-tale-løsning og føder min passion for projektet. At støtte kunder under lanceringen fik også nye ideer, især for GSpeech Studio, der blev inspireret af brugeranmodninger om avancerede audio-redigerings- og eksportfunktioner. Fremover planlægger jeg at bygge videre på dette momentum ved at lytte aktivt til vores fællesskab, integrere deres feedback og udvikle innovative funktioner til at forbedre tilgængelighed og engagement, og sikre, at GSpeech fortsætter med at udvikle sig som et transformerende værktøj for skabere og virksomheder.

Til sidst, hvad råd vil du give til unge udviklere eller iværksættere, der ønsker at bygge tilgængelige, AI-drevne værktøjer i dagens hurtigt bevægelige teknologilandskab?

Til unge udviklere og iværksættere er mit råd at hælde dit hjerte i dit arbejde og identificere et reel problem, hvor du kan tilbyde en unik, intelligent løsning. Start småt, tag jævne skridt fremad, og lyt nøje til kunde-feedback – de vil guide din vej. Behandle dine brugere som betroede venner, giv dit allermest, og bliv tålmodig. Omfavn AI-teknologier som kraftfulde allierede; når de bruges klogt, forstærker de din evne til at skabe betydningsfulde, tilgængelige værktøjer. Byg med passion, persistence og en forpligtelse til at gøre en forskel, og du vil skabe løsninger, der virkelig betyder noget.

Tak for det gode interview, vi valgte GSpeech-løsningen til vores websted på grund af den lette integration. For at lære mere besøg GSpeech.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.