Interviews
Simon Poghosyan, fondateur et PDG de GSpeech – Série d'entretiens

Simon Poghossian est le fondateur et PDG de Discours G, une plateforme web d'IA qui facilite l'accessibilité du contenu en ligne en convertissant le texte en audio naturel dans plus de 70 langues. Fort d'une expérience en conception VLSI et d'un intérêt marqué pour la programmation et l'expérience utilisateur, Simon a créé GSpeech pour simplifier la diffusion de contenu vocal sur les sites web.
Aujourd'hui, GSpeech génère environ 200 millions de caractères audio chaque mois et est utilisé dans plus de 70 pays. Ses lecteurs audio personnalisables permettent plus de 200,000 1 écoutes mensuelles. Ayant récemment dépassé le milliard de caractères audio générés, GSpeech poursuit sa croissance rapide. Conçue pour être facilement intégrable (une seule ligne de code suffit), la plateforme aide les créateurs, les enseignants et les entreprises à rendre leurs contenus plus inclusifs et attrayants.
GSpeech est également utilisé sur toutes nos pages en anglais, vous pouvez écouter cet article et voir les performances de GSpeech en cliquant sur le bouton de lecture.
Votre expérience en conception VLSI (intégration à très grande échelle) et vos débuts en programmation vous ont permis d'acquérir de solides bases techniques. Qu'est-ce qui vous a poussé à passer de la microélectronique à la création de logiciels basés sur l'IA, et comment cela a-t-il conduit à la création de GSpeech ?
Ma passion pour la résolution de problèmes a commencé au lycée, alimentée par un amour pour les mathématiques et la physique. Cet intérêt m'a conduit à obtenir une licence (2009) et un master (2011) en conception VLSI à l'Université d'État d'ingénierie d'Arménie, en collaboration avec Synopsys Armenia. Mes études de physique m'ont formé à la précision et à l'esprit analytique, mais c'est en deuxième année que j'ai découvert la programmation, en commençant par le langage Pascal, et que j'en suis immédiatement tombé amoureux. Mon ami et moi rendions les devoirs dès qu'ils nous étaient remis, même si nous avions six mois pour les terminer. Ensuite, pour le plaisir, nous avons commencé à faire les devoirs des autres étudiants.
Cette passion m'a conduit plus profondément vers le développement logiciel. J'ai commencé par la création de sites web, puis j'ai développé mon propre CMS. Après avoir réalisé plusieurs projets d'automatisation des processus et de conception d'architectures de gestion de données, j'ai réalisé à quel point j'adorais créer des solutions numériques pour les interfaces web. Dans le cadre du projet 2GLux, j'ai collaboré avec Edvard Ananyan, créateur du célèbre logiciel de gestion de contenu. GTranslate Un service de traduction et un ami d'école du Quant Gymnasium. Il m'a fait découvrir les écosystèmes WordPress et Joomla, et c'est lui qui a conçu GSpeech. Ce travail préliminaire a donné naissance à la première version de notre outil, permettant aux utilisateurs d'écouter du texte sur une page web, jetant ainsi les bases de ce qui allait devenir une plateforme d'IA complète. En 2023, j'ai créé Smarts Club LLC pour faire évoluer GSpeech et en faire une solution audio d'IA mondiale, prenant en charge plus de 70 langues. Les éloges de l'Humanity Union pour le rôle de GSpeech dans l'amélioration de l'accessibilité de sa plateforme d'engagement civique reflètent ma mission de combler les fractures numériques grâce à l'IA, une vision ancrée dans mes débuts en programmation.
GSpeech a initialement été conçu comme un outil d'aide aux utilisateurs malvoyants. Comment cette mission initiale a-t-elle influencé l'évolution de la plateforme vers une solution complète de synthèse vocale basée sur l'IA ?
L'accent mis sur l'accessibilité a conduit au développement d'un son IA de haute qualité et en temps réel, à la traduction dans plus de 70 langues et à une intégration fluide au site web grâce à un simple extrait de code. Cette mission a donné naissance à des fonctionnalités telles que des lecteurs audio personnalisables, des panneaux de sélection de langue et de voix, une lecture contextuelle, des téléchargements audio et des statistiques d'utilisation détaillées (pays, ville, données de l'appareil et analyses de lecture au fil du temps), toutes conçues pour rendre le contenu plus inclusif et attrayant. Après avoir écrit plus de 100,000 2023 lignes de code, j'ai lancé la console cloud GSpeech en XNUMX : une solution évolutive alliant inclusivité et fonctionnalités avancées, permettant aux entreprises et aux créateurs de rendre leur contenu accessible, multilingue et interactif sur le web.
Quels ont été les plus grands défis techniques auxquels vous avez été confrontés lors du développement de la console GSpeech Cloud ?
L'un des plus grands défis du développement de la console cloud GSpeech a été de concevoir une architecture évolutive pour la génération audio IA en temps réel, sécurisée et de haute qualité. Cela nécessitait des solutions innovantes pour récupérer le contenu pertinent sur le web, le traiter sur nos serveurs et le stocker dans le cloud pour une diffusion rapide et fiable. La mise en œuvre de mesures de sécurité robustes, telles que le chiffrement et les contrôles d'accès, était essentielle pour protéger le contenu dynamique généré par les utilisateurs.
Un autre obstacle résidait dans la mise en place d'une traduction en temps réel grâce à des moteurs neuronaux avancés. Nous devions garantir des traductions précises et à faible latence tout en créant une interface intuitive permettant aux utilisateurs de sélectionner leurs langues et leurs profils vocaux préférés, privilégiant le confort d'utilisation et la personnalisation. Enfin, nous avons développé un assistant de création de modèles audio avec plusieurs vues de lecteur personnalisables, permettant aux utilisateurs de concevoir des lecteurs uniques et visuellement attrayants, adaptés à leurs sites web. Trouver le juste équilibre entre flexibilité, performance et facilité d'utilisation sur tous les appareils a été un défi stimulant.
Avec une traduction en temps réel dans plus de 70 langues et plus de 230 voix naturelles, comment garantir la qualité vocale et préserver la précision dans un ensemble linguistique aussi diversifié ?
Pour garantir une qualité vocale constante, nous intégrons plusieurs modèles avancés de synthèse vocale (TTS), optimisés et mis à jour en permanence. Ces moteurs multilingues gèrent les contenus multilingues avec une grande précision. Nous déployons également plus de 100 nouvelles vibrations vocales pour offrir aux utilisateurs des options encore plus expressives et naturelles. Chaque mois, GSpeech génère plus de 200 millions de caractères audio, desservant des utilisateurs dans plus de 70 pays. Nos lecteurs en ligne sont utilisés plus de 200,000 XNUMX fois par mois, et ce chiffre ne cesse de croître. Cette envergure garantit un retour d'information continu et des tests en conditions réelles, qui alimentent directement nos ajustements et nos contrôles qualité.
Pouvez-vous nous expliquer comment GSpeech exploite l'IA et l'apprentissage automatique pour produire une synthèse vocale réaliste ? Comment suivez-vous les progrès rapides de la technologie vocale neuronale ?
GSpeech utilise une IA et un apprentissage automatique avancés, intégrant plusieurs modèles de synthèse vocale de pointe pour produire une synthèse vocale réaliste. Ces modèles, optimisés pour un rendu naturel et une prise en charge multilingue, traitent les entrées de texte pour générer un son de haute qualité avec une intonation et un rythme réalistes, même pour les contenus multilingues. Nous améliorons l'expérience utilisateur en proposant des styles de voix personnalisables pour différentes langues. Nous avons également intégré des alias de synthèse vocale, qui permettent aux utilisateurs de définir des règles personnalisées pour le rendu de certains mots ou expressions audio, par exemple en remplaçant des termes spécifiques pour une prononciation ou un phrasé plus précis. Afin de rester à la pointe de la technologie vocale neuronale, nous évaluons et intégrons en permanence les dernières avancées, collaborons avec les leaders du secteur et prévoyons de développer des modèles propriétaires à l'avenir, garantissant ainsi à GSpeech une position de leader en matière d'innovation en synthèse vocale.
Quelle importance accordez-vous au réglage de la voix, au contrôle de la hauteur et à la personnalisation de la lecture pour vos utilisateurs ? Et quel est le cas d'utilisation dont vous êtes le plus fier et où ces fonctionnalités brillent vraiment ?
Le réglage de la voix, le contrôle de la hauteur et la personnalisation de la lecture sont essentiels pour nos utilisateurs. Ils leur permettent de créer des styles vocaux uniques et de haute qualité, adaptés à leurs besoins spécifiques, des sites d'actualités et de blogs aux contenus d'apprentissage en ligne accessibles. L'intégration continue de plus de 100 nouvelles ambiances vocales améliore encore cette fonctionnalité, offrant aux utilisateurs une flexibilité inégalée pour créer des voix off vraiment uniques. Je suis particulièrement fier de GSpeech Studio, une nouvelle plateforme d'édition et de génération audio que je développe. Elle permet de créer plusieurs canaux audio, de les mixer avec une musique de fond et d'exporter des voix off soignées, permettant ainsi aux créateurs de produire un son de qualité professionnelle pour diverses applications. La lettre d'un étudiant malvoyant remerciant GSpeech de permettre l'apprentissage autonome grâce à un son personnalisé m'a profondément touché. Ce cas d'utilisation montre comment ces fonctionnalités rendent le contenu accessible et transformateur, un objectif que je poursuis depuis mes débuts en programmation.
GSpeech offre des intégrations fluides avec WordPress, Shopify, Wix et bien d'autres. Quelle a été votre stratégie pour rendre la plateforme plug-and-play pour les créateurs et les entreprises de différents écosystèmes ?
Notre stratégie d'intégration plug-and-play de GSpeech avec des plateformes comme WordPress, Shopify et Wix a mis l'accent sur la simplicité, la compatibilité et l'évolutivité. Nous avons développé des plugins et des extraits de code légers et modulaires qui s'intègrent parfaitement et nécessitent une configuration minimale, souvent en quelques clics. Ainsi, des milliers d'articles et de blocs de contenu dynamiques peuvent bénéficier instantanément de la prise en charge vocale, sans intervention manuelle. Nous proposons des lecteurs hautement flexibles et élégants, qui s'adaptent à tous les appareils, notamment les mobiles, les tablettes et les ordinateurs de bureau. Nos lecteurs sont non seulement personnalisables, mais aussi optimisés pour l'accessibilité et l'engagement utilisateur. Pour WordPress, nous avons intégré le tableau de bord cloud de GSpeech directement dans le panneau d'administration via notre plugin, simplifiant ainsi la gestion pour les utilisateurs. Une documentation détaillée et des tableaux de bord intuitifs guident les utilisateurs non techniques tout au long de l'installation et de la personnalisation. Des tests réguliers garantissent des performances constantes dans divers écosystèmes, permettant aux créateurs et aux entreprises d'intégrer facilement la synthèse vocale basée sur l'IA.
En repensant au parcours de 2012 à aujourd'hui, quelle a été l'étape la plus importante pour vous, personnellement ou professionnellement, dans la création de GSpeech ?
L'étape la plus importante pour GSpeech a été la génération d'un milliard de caractères audio IA de haute qualité, démontrant ainsi notre impact mondial sur l'accessibilité. Les retours d'organisations comme Humanity Union, qui ont félicité GSpeech pour l'amélioration de sa plateforme de responsabilité sociale, et de blogueurs qui l'ont qualifiée de « changement de donne » en matière d'engagement utilisateur, ont été tout aussi significatifs. Plus de 1 avis cinq étoiles sur des plateformes comme WordPress et AppSumo Ces derniers mois reflètent cette confiance croissante.
GSpeech est désormais également utilisé activement par le Département régional des statistiques de Namangan en Ouzbékistan — une institution gouvernementale bénéficiant d'un trafic important et d'une visibilité nationale. Voir un organisme public adopter notre technologie à si grande échelle a été une étape importante et un puissant signe de confiance envers notre solution.
En tant que chrétien et membre de l'Église arménienne, j'essaie également de soutenir d'autres initiatives religieuses autant que possible. J'offre souvent GSpeech gratuitement aux sites web chrétiens afin de les aider à diffuser plus efficacement leur message et à rendre les Écritures plus accessibles grâce aux audios. C'est ma modeste contribution à un projet plus grand. Parallèlement, je suis honoré de collaborer avec des ministères dévoués comme Le cordon — une congrégation messianique et un client apprécié de GSpeech — dont la mission et le contenu reflètent la puissance de l’Écriture en action.
Ces moments — où la technologie devient un pont pour la foi, la compréhension et l’inclusion — me rappellent pourquoi nous avons créé GSpeech en premier lieu.
Quel rôle voyez-vous jouer GSpeech dans l’avenir des médias numériques, en particulier à mesure que le contenu audio et les interfaces vocales deviennent plus dominants ?
Je vois GSpeech comme un leader pour rendre les médias numériques plus accessibles et attrayants en permettant un accès vocal au web grâce à l'IA. Notre objectif est de transformer l'expérience en ligne dans son intégralité, afin que les sites web deviennent naturellement interactifs, inclusifs et multilingues par défaut. Avec une seule ligne de code, les propriétaires de sites peuvent transformer des milliers d'articles en contenu vocal. À l'avenir, nous développons GSpeech Studio pour en faire une plateforme puissante et unique de génération et d'édition audio, permettant aux utilisateurs de créer du contenu vocal multicouche avec musique de fond, effets et réglages précis. Nous voulons rendre le web véritablement audible, intuitif et universellement accessible.
GSpeech a récemment été lancé sur AppSumo et a déjà obtenu une note quasi parfaite auprès des premiers utilisateurs. Qu'a signifié pour vous la réaction de la communauté AppSumo et comment comptez-vous poursuivre sur cette lancée ?
Le lancement d'AppSumo a permis à GSpeech de séduire des millions de personnes, et sa note quasi parfaite est une véritable source de satisfaction. Les utilisateurs, comme ceux qui suivent des cours en ligne, apprécient nos outils intuitifs et notre assistance réactive, faisant écho aux retours de Humanity Union. Un blogueur a qualifié nos voix de « véritablement engageantes » et nos traductions d'« impressionnantes ». Leurs retours positifs confirment la valeur de notre solution de synthèse vocale basée sur l'IA et nourrissent ma passion pour le projet. Accompagner nos clients lors du lancement a également fait naître de nouvelles idées, notamment pour GSpeech Studio, inspiré par les demandes des utilisateurs pour des fonctionnalités avancées d'édition et d'exportation audio. À l'avenir, je compte poursuivre sur cette lancée en écoutant attentivement notre communauté, en intégrant leurs retours et en développant des fonctionnalités innovantes pour améliorer l'accessibilité et l'engagement, afin que GSpeech continue d'évoluer et de devenir un outil transformateur pour les créateurs et les entreprises.
Enfin, quels conseils donneriez-vous aux jeunes développeurs ou entrepreneurs qui souhaitent créer des outils accessibles et basés sur l’IA dans le paysage technologique en évolution rapide d’aujourd’hui ?
Aux jeunes développeurs et entrepreneurs, mon conseil est de mettre tout votre cœur dans votre travail et d'identifier un problème concret pour lequel vous pouvez proposer une solution unique et intelligente. Commencez petit, progressez progressivement et écoutez attentivement les retours de vos clients : ils vous guideront. Traitez vos utilisateurs comme des amis de confiance, donnez-vous à fond et soyez patient. Considérez les technologies d'IA comme de puissantes alliées ; utilisées à bon escient, elles amplifient votre capacité à créer des outils efficaces et accessibles. Construisez avec passion, persévérance et engagement à faire la différence, et vous créerez des solutions qui comptent vraiment.
Merci pour cette excellente interview ! Nous avons choisi la solution GSpeech pour notre site web en raison de sa simplicité d'intégration. Pour en savoir plus, rendez-vous sur Discours G.












