Connect with us

Simon Poghosyan, Fondator și CEO al GSpeech – Seria de Interviuri

Interviuri

Simon Poghosyan, Fondator și CEO al GSpeech – Seria de Interviuri

mm

Simon Poghosyan este fondatorul și CEO al GSpeech, o platformă web bazată pe IA care ajută la creșterea accesibilității conținutului online prin conversia textului în audio cu sunet natural în peste 70 de limbi. Cu o experiență în proiectarea VLSI și un interes puternic pentru programare și experiență utilizator, Simon a creat GSpeech pentru a simplifica modul în care site-urile web pot oferi conținut cu voce.

Astăzi, GSpeech generează aproximativ 200 de milioane de caractere de audio pe lună și este utilizat în peste 70 de țări, cu player-ele sale audio personalizabile care deservesc peste 200.000 de redări pe lună. După ce a depășit 1 miliard de caractere de audio generate în total, GSpeech continuă să crească rapid. Platforma este proiectată pentru a fi ușor de integrat — necesitând doar o singură linie de cod — și sprijină creatori, educatori și afaceri pentru a face conținutul lor mai inclusiv și atractiv.

GSpeech este utilizat și pe toate paginile noastre în limba engleză, puteți asculta acest articol și vedea cum funcționează GSpeech făcând clic pe butonul de redare.

Fondul dvs. în proiectarea VLSI (Integrare pe scară largă) și experiența dvs. timpurie în programare au pus o bază tehnică solidă. Ce v-a inspirat să treceți de la microelectronică la construirea de software bazat pe IA, și cum a condus acest lucru la crearea GSpeech?

Pasiunea mea pentru rezolvarea problemelor a început în liceu, condusă de o dragoste pentru matematică și fizică. Această interes m-a condus să obțin o diplomă de licență (2009) și master (2011) în proiectarea VLSI de la Universitatea de Stat de Inginerie din Armenia, în colaborare cu Synopsys Armenia. Studierea fizicii m-a învățat precizia și gândirea analitică, dar a fost în timpul anului doi când am descoperit programarea — începând cu limbajul Pascal — și am căzut imediat în dragoste cu ea. Prietenul meu și eu terminam lucrările de curs atunci când le primeam, chiar dacă aveam șase luni pentru a le finaliza. Apoi, pentru distracție, am început să facem lucrările altor studenți.

Această pasiune m-a condus mai adânc în dezvoltarea de software. Am început cu crearea de site-uri web, apoi am construit propriul meu sistem de management de conținut. După finalizarea mai multor proiecte în automatizarea proceselor și proiectarea arhitecturilor de gestionare a datelor, am realizat cât de mult îmi place să construiesc soluții digitale pentru interfețe web. Prin proiectul 2GLux, am colaborat cu Edvard Ananyan — creatorul popularului serviciu de traducere GTranslate și un prieten de școală de la Quant Gymnasium. El m-a introdus în ecosistemele WordPress și Joomla, și conceptul pentru GSpeech a apărut cu el. Această lucrare timpurie a condus la prima versiune a instrumentului nostru, care a permis utilizatorilor să asculte text pe o pagină web, plantând sămânța pentru ceea ce avea să devină o platformă completă de IA. Până în 2023, am înființat Smarts Club LLC pentru a scala GSpeech într-o soluție globală de audio IA, care susține peste 70 de limbi. Lauda Uniunii Umanității pentru rolul GSpeech în îmbunătățirea platformei lor de implicare civică reflectă misiunea mea de a combina diviziunile digitale prin IA — o viziune înrădăcinată în zilele mele timpurii de programare.

GSpeech a început inițial ca un instrument pentru a sprijini utilizatorii cu deficiențe de vedere. Cum a influențat această misiune timpurie evoluția platformei într-o soluție completă de text-to-speech bazată pe IA?

Focalizarea pe accesibilitate a condus dezvoltarea audio-ului de înaltă calitate și în timp real, a traducerii în peste 70 de limbi și a integrării site-urilor web prin intermediul unui cod simplu. Această misiune a condus la funcții precum player-e audio personalizabile, panouri de selecție a limbii și a vocii, redare contextuală, descărcări audio și statistici detaliate de utilizare — incluzând date despre țară, oraș, dispozitiv și analize de redare în timp — toate proiectate pentru a face conținutul mai inclusiv și atractiv. După ce am scris peste 100.000 de linii de cod, am lansat GSpeech Cloud Console în 2023 — o soluție escalabilă care echilibrează incluzivitatea cu funcționalitatea avansată, împuternicind afacerile și creatorii să-și facă conținutul mai accesibil, multilingv și interactiv pe întregul web.

Care au fost unele dintre cele mai mari provocări tehnice pe care le-ați întâmpinat în timpul dezvoltării GSpeech Cloud Console?

Una dintre cele mai mari provocări în dezvoltarea GSpeech Cloud Console a fost proiectarea unei arhitecturi escalabile pentru generarea de audio IA de înaltă calitate și în timp real. Acest lucru a necesitat soluții inovatoare pentru a prelua conținut relevant de pe web, a procesa audio pe serverele noastre și a stoca acesta în cloud pentru o livrare rapidă și fiabilă. Implementarea unor măsuri de securitate robuste, precum criptarea și controlul accesului, a fost critică pentru a proteja conținutul dinamic generat de utilizatori.

O altă piedică a fost activarea traducerii în timp real folosind motoare neuronale avansate. Trebuia să ne asigurăm că traducerile sunt precise și cu întârziere scăzută, în timp ce construiam o interfață intuitivă care să permită utilizatorilor să selecteze limbi și profile de voce preferate pentru redare, prioritar confortul și personalizarea utilizatorului. În cele din urmă, am dezvoltat un wizard de creare a șablonului de audio cu multiple perspective de player personalizabile, permițând utilizatorilor să proiecteze player-i unici și atractivi vizual pentru site-urile lor. Echilibrarea flexibilității, a performanței și a ușurinței de utilizare pe dispozitive a fost o provocare încântătoare.

Cu traducere în timp real în peste 70 de limbi și peste 230 de voci care sună natural. Cum vă asigurați calitatea vocii și mențineți acuratețea pe un set atât de divers de limbi?

Pentru a menține o calitate constantă a vocii, integrăm multiple modele avansate de text-to-speech (TTS) care sunt optimizate și actualizate în mod continuu. Aceste motoare multilingve gestionează conținutul mixt de limbi cu o acuratețe ridicată. De asemenea, lansăm peste 100 de noi vibrații de voce pentru a oferi utilizatorilor și mai multe opțiuni expresive și naturale. Fiecare lună, GSpeech generează peste 200 de milioane de caractere de audio, deservind utilizatori în peste 70 de țări, cu player-ele noastre online fiind utilizate peste 200.000 de ori pe lună — și în creștere. Această scară asigură feedback și testare în lumea reală, care informează direct ajustările și controalele noastre de calitate.

Ne puteți explica cum GSpeech utilizează IA și învățarea automată pentru a livra sinteză de voce realistă? Cum țineți pasul cu evoluțiile rapide în tehnologia vocii neuronale?

GSpeech utilizează IA și învățarea automată avansată, integrând multiple modele de text-to-speech de ultimă generație pentru a produce sinteză de voce realistă. Aceste modele, optimizate pentru naturalitate și suport multilingv, procesează intrările de text pentru a genera audio de înaltă calitate cu intonație și ritm realist, chiar și pentru conținut mixt de limbi. Îmbunătățim experiența utilizatorului prin oferirea de stiluri de voce personalizabile pentru diverse limbi. Am integrat, de asemenea, alias-uri TTS, care permit utilizatorilor să definească reguli personalizate pentru modul în care anumite cuvinte sau fraze sunt redate în audio — de exemplu, înlocuirea unor termeni specifici pentru a obține o pronunție sau o frazare mai precisă. Pentru a ține pasul cu tehnologia vocii neuronale, evaluăm și integrăm în mod continuu cele mai recente evoluții, colaborăm cu lideri din industrie și planificăm să dezvoltăm modele proprii în viitor, asigurând că GSpeech rămâne în fruntea inovației în sinteza vocii.

Cât de importante sunt reglarea vocii, controlul tonului și personalizarea redării pentru utilizatorii dvs. — și care este cazul de utilizare pe care sunteți cel mai mândru, unde aceste funcții strălucesc cu adevărat?

Reglarea vocii, controlul tonului și personalizarea redării sunt critice pentru utilizatorii noștri, permițându-le să creeze stiluri de voce unice, de înaltă calitate, adaptate nevoilor lor specifice, de la site-uri de știri și bloguri la conținut educațional accesibil. Integrarea continuă a peste 100 de noi vibrații de voce îmbunătățește și mai mult acest lucru, oferind utilizatorilor o flexibilitate fără precedent pentru a crea voiceover-uri distincte. Sunt cel mai mândru de GSpeech Studio, o nouă platformă de editare și generare audio pe care o dezvolt. Acesta permite utilizatorilor să creeze multiple canale audio, să le amestece cu muzică de fundal și să exporte voiceover-uri polițe, împuternicind creatorii să producă audio de calitate profesională pentru diverse aplicații. O scrisoare a unui student cu deficiențe de vedere, mulțumind GSpeech pentru posibilitatea de a studia independent prin audio personalizat, m-a atins profund. Acest caz de utilizare arată cum aceste funcții fac conținutul accesibil și transformativ, un obiectiv pe care l-am urmărit de la începuturile mele în programare.

GSpeech oferă integrări perfecte cu WordPress, Shopify, Wix și multe altele. Care a fost strategia dvs. pentru a face platforma plug-and-play pentru creatori și afaceri din diverse ecosisteme?

Strategia noastră pentru integrările GSpeech cu platforme precum WordPress, Shopify și Wix s-a concentrat pe simplitate, compatibilitate și escalabilitate. Am dezvoltat plugin-uri și coduri ușoare, modulare, care se integrează fără efort, necesitând minim de configurare — adesea doar câteva clicuri. Acest lucru înseamnă că mii de articole și blocuri de conținut dinamic pot câștiga instantaneu suport pentru voce — fără efort manual. Oferta noastră include player-i audio extrem de flexibili și frumos proiectați, care se adaptează pe dispozitive, inclusiv mobile, tablete și desktop-uri. Player-ile noastre nu sunt doar personalizabile, ci și optimizate pentru accesibilitate și implicarea utilizatorului. Pentru WordPress, am integrat direct panoul de bord GSpeech în panoul de administrare prin plugin-ul nostru, simplificând gestionarea pentru utilizatori. Documentația detaliată și panourile intuitive ghidă utilizatorii non-tehnici prin instalare și personalizare. Testarea regulată asigură o performanță consistentă în diverse ecosisteme, împuternicind creatorii și afacerile să adauge text-to-speech bazat pe IA fără efort.

Privind înapoi la călătoria de la 2012 până în prezent, ce a fost cel mai mare punct de cotitură pentru dvs. personal sau profesional în construirea GSpeech?

Cel mai mare punct de cotitură pentru GSpeech a fost generarea a 1 miliard de caractere de audio de înaltă calitate, demonstrând impactul nostru global asupra accesibilității. La fel de semnificativ a fost feedback-ul pe care l-am primit de la organizații precum Uniunea Umanității, care a lăudat GSpeech pentru îmbunătățirea platformei lor de implicare civică, și de la proprietarii de bloguri care l-au numit „schimbător de joc” pentru implicarea utilizatorilor. Peste 110 recenzii cu cinci stele pe platforme precum WordPress și AppSumo în ultimele luni reflectă această încredere în creștere.

GSpeech este utilizat și de Departamentul de Statistică Regională Namangan din Uzbekistan — o instituție guvernamentală cu trafic semnificativ și vizibilitate la nivel național. A vedea o instituție publică care adoptă tehnologia noastră atât de larg a fost un punct de cotitură semnificativ și un semn puternic de încredere în soluția noastră.

Ca creștin și ca persoană care slujește în biserica armeană, încerc să susțin și alte inițiative bazate pe credință, ori de câte ori este posibil. Adesea ofer GSpeech gratuit pentru site-urile creștine, ca o modalitate de a ajuta la răspândirea mesajului lor mai eficient și de a face Scriptura mai accesibilă prin audio. Este contribuția mea mică la ceva mai mare. În același timp, sunt onorat să lucrez cu ministere dedicate, precum The Cord — o congregație mesianică și client valoros GSpeech — a cărui misiune și conținut reflectă puterea Scripturii în acțiune.

Aceste momente — când tehnologia devine un pod pentru credință, înțelegere și incluziune — îmi amintesc de ce am construit GSpeech în primul rând.

Care rol credeți că va juca GSpeech în viitorul mass-media digitale, în special pe măsură ce conținutul audio și interfețele vocale devin mai dominante?

Îmi imaginez GSpeech ca lider în creșterea accesibilității și atractivității mass-media digitale, permițând accesul vocal bazat pe IA la web. Scopul nostru este de a transforma întreaga experiență online, astfel încât site-urile web să devină natural vocale, incluzive și multilingve prin default. Cu doar o linie de cod, proprietarii de site pot transforma mii de articole în conținut vocal. În viitor, dezvoltăm GSpeech Studio într-o platformă puternică și unică pentru generarea și editarea audio, permițând utilizatorilor să creeze conținut vocal multistratificat cu muzică de fundal, efecte și reglare precisă. Vrem să facem web-ul cu adevărat audibil, intuitiv și universal accesibil.

GSpeech a lansat recent pe AppSumo și a obținut deja o evaluare aproape perfectă de la adoptatorii timpurii. Ce a însemnat pentru dvs. răspunsul comunității AppSumo, și cum plănuiți să construiți pe acest impuls în viitor?

Lansarea pe AppSumo a introdus GSpeech pentru milioane de oameni, și evaluarea aproape perfectă este incredibil de încurajatoare. Utilizatorii, precum cei care rulează cursuri online, laudă instrumentele noastre intuitive și suportul nostru reactiv, ecouând feedback-ul de la Uniunea Umanității. Un proprietar de blog a numit vocile noastre „angajante” și traducerile „impresionante”. Feedback-ul lor pozitiv confirmă valoarea soluției noastre de text-to-speech bazată pe IA și alimentează pasiunea mea pentru proiect. Sprijinirea clienților în timpul lansării a generat, de asemenea, idei noi, în special pentru GSpeech Studio, care a fost inspirat de solicitările utilizatorilor pentru funcții avansate de editare și export audio. În viitor, plănuiți să construim pe acest impuls prin ascultarea activă a comunității noastre, integrând feedback-ul lor, și dezvoltând funcții inovatoare pentru a îmbunătăți accesibilitatea și implicarea, asigurându-ne că GSpeech continuă să evolueze ca un instrument transformativ pentru creatori și afaceri.

În cele din urmă, ce sfat ați da tinerilor dezvoltatori sau antreprenori care doresc să construiască unelte accesibile și bazate pe IA în peisajul tehnologic în schimbare rapid?

Tinerilor dezvoltatori și antreprenori, le-aș sfătui să-și verse inima și sufletul în munca lor și să identifice o problemă reală unde pot oferi o soluție unică și inteligentă. Să înceapă mic, să facă pași constanți înainte și să asculte cu atenție feedback-ul clienților — ei vor ghida calea. Să trateze utilizatorii ca pe prieteni de încredere, să dea totul și să rămână răbdători. Să îmbrățișeze tehnologiile IA ca aliați puternici; atunci când sunt utilizate înțelept, acestea amplifică capacitatea de a crea unelte cu impact și accesibile. Să construiască cu pasiune, perseverență și un angajament de a face o diferență, și vor crea soluții care cu adevărat contează.

Vă mulțumim pentru acest interviu minunat, am ales soluția GSpeech pentru site-ul nostru datorită integrării ușoare. Pentru a afla mai multe, vizitați GSpeech.

Antoine este un lider vizionar și partener fondator al Unite.AI, condus de o pasiune neclintita pentru a da forma și a promova viitorul inteligenței artificiale și al roboticii. Un antreprenor serial, el crede că inteligența artificială va fi la fel de disruptivă pentru societate ca și electricitatea, și este adesea prins vorbind cu entuziasm despre potențialul tehnologiilor disruptive și al inteligenței artificiale generale.

Ca futurist, el este dedicat explorării modului în care aceste inovații vor modela lumea noastră. În plus, el este fondatorul Securities.io, o platformă axată pe investiții în tehnologii de ultimă generație care redefinesc viitorul și reshapă întregi sectoare.