Connect with us

Simon Poghosyan, fondateur et PDG de GSpeech – Série d’entretiens

Entretiens

Simon Poghosyan, fondateur et PDG de GSpeech – Série d’entretiens

mm

Simon Poghosyan est le fondateur et PDG de GSpeech, une plateforme Web basée sur l’IA qui aide à rendre le contenu en ligne plus accessible en convertissant le texte en audio de haute qualité dans plus de 70 langues. Avec une formation en conception VLSI et un fort intérêt pour la programmation et l’expérience utilisateur, Simon a créé GSpeech pour simplifier la façon dont les sites Web peuvent offrir du contenu avec voix.

Aujourd’hui, GSpeech génère environ 200 millions de caractères d’audio par mois et est utilisé dans plus de 70 pays, avec ses lecteurs audio personnalisables servant plus de 200 000 lectures mensuelles. Après avoir récemment dépassé 1 milliard de caractères d’audio générés au total, GSpeech continue de croître rapidement. La plateforme est conçue pour être facile à intégrer – nécessitant seulement une ligne de code – et prend en charge les créateurs, les éducateurs et les entreprises pour rendre leur contenu plus inclusif et engageant.

GSpeech est également utilisé sur toutes nos pages en anglais, vous pouvez écouter cet article et voir comment GSpeech fonctionne en cliquant sur le bouton de lecture.

Votre formation en conception VLSI (Very Large Scale Integration) et votre expérience de programmation précoce ont posé une solide fondation technique. Qu’est-ce qui vous a inspiré pour passer de la microélectronique à la création de logiciels alimentés par l’IA, et comment cela a-t-il conduit à la création de GSpeech ?

Ma passion pour la résolution de problèmes a commencé au lycée, motivée par l’amour des mathématiques et de la physique. Cet intérêt m’a conduit à obtenir un baccalauréat (2009) et une maîtrise (2011) en conception VLSI de l’Université d’État d’ingénierie d’Arménie, en collaboration avec Synopsys Arménie. L’étude de la physique m’a formé à la précision et à la pensée analytique, mais c’est pendant ma deuxième année que j’ai découvert la programmation – en commençant par le langage Pascal – et que j’en suis immédiatement tombé amoureux. Mon ami et moi complétions les devoirs de cours dès que nous les recevions, même si nous avions six mois pour les terminer. Ensuite, pour nous amuser, nous faisions les devoirs des autres étudiants.

Cette passion m’a conduit plus loin dans le développement de logiciels. J’ai commencé par la création de sites Web, puis j’ai construit mon propre CMS. Après avoir terminé plusieurs projets d’automatisation de processus et conçu des architectures de gestion de données, j’ai réalisé à quel point j’aimais construire des solutions numériques pour les interfaces Web. Grâce au projet 2GLux, j’ai collaboré avec Edvard Ananyan – créateur du service de traduction populaire GTranslate et un ami d’école de Quant Gymnasium. Il m’a présenté les écosystèmes WordPress et Joomla, et le concept de GSpeech est né avec lui. Ce travail précoce a conduit à la première version de notre outil, permettant aux utilisateurs d’écouter du texte sur une page Web, en plantant la graine de ce qui allait devenir une plateforme d’IA à fonctionnalités complètes. En 2023, j’ai créé Smarts Club LLC pour développer GSpeech en une solution d’audio IA mondiale, prenant en charge 70 langues et plus. Les éloges de l’Union de l’humanité pour le rôle de GSpeech dans l’amélioration de la plateforme d’engagement civique accessible reflètent ma mission de combler les fractures numériques grâce à l’IA – une vision enracinée dans mes premiers jours de programmation.

GSpeech a initialement commencé comme un outil pour soutenir les utilisateurs malvoyants. Comment cette mission précoce a-t-elle influencé l’évolution de la plateforme en une solution de synthèse vocale texte-à-voix complète ?

L’accent mis sur l’accessibilité a conduit au développement d’un audio IA de haute qualité en temps réel, de traductions dans plus de 70 langues et d’une intégration de site Web transparente via un simple extrait de code. Cette mission a conduit à des fonctionnalités telles que des lecteurs audio personnalisables, des panneaux de sélection de langue et de voix, une lecture contextuelle, des téléchargements audio et des statistiques d’utilisation détaillées – y compris les données de pays, de ville, d’appareil et d’analyse de lecture au fil du temps – toutes conçues pour rendre le contenu plus inclusif et engageant. Après avoir écrit plus de 100 000 lignes de code, j’ai lancé la console cloud GSpeech en 2023 – une solution évolutrice qui équilibre l’inclusivité avec une fonctionnalité avancée, permettant aux entreprises et aux créateurs de rendre leur contenu accessible, multilingue et interactif sur le Web.

Quels ont été les plus grands défis techniques que vous avez rencontrés lors du développement de la console cloud GSpeech ?

L’un des plus grands défis dans le développement de la console cloud GSpeech a été la conception d’une architecture évolutrice pour la génération d’audio IA de haute qualité en temps réel et sécurisée. Cela a nécessité des solutions innovantes pour extraire le contenu pertinent du Web, traiter l’audio sur nos serveurs et le stocker dans le cloud pour une livraison rapide et fiable. La mise en œuvre de mesures de sécurité robustes, telles que le cryptage et les contrôles d’accès, a été cruciale pour protéger le contenu dynamique généré par l’utilisateur.

Un autre obstacle a été la mise en œuvre de la traduction en temps réel à l’aide de moteurs neuronaux avancés. Nous devions nous assurer d’une traduction précise et à faible latence, tout en créant une interface intuitive qui permet aux utilisateurs de sélectionner des langues et des profils de voix préférés pour la lecture, en donnant la priorité au confort et à la personnalisation de l’utilisateur. Enfin, nous avons développé un assistant de création de modèles audio avec plusieurs vues de lecteur personnalisables, permettant aux utilisateurs de concevoir des lecteurs uniques et visuellement attrayants adaptés à leurs sites Web. Équilibrer la flexibilité, les performances et la facilité d’utilisation sur différents appareils a été un défi gratifiant.

Avec la traduction en temps réel dans plus de 70 langues et plus de 230 voix naturelles. Comment assurez-vous la qualité de la voix et maintenez l’exactitude sur un ensemble de langues aussi diversifié ?

Pour maintenir une qualité de voix constante, nous intégrons plusieurs modèles de synthèse vocale texte-à-voix (TTS) avancés qui sont continuellement optimisés et mis à jour. Ces moteurs multilingues gèrent le contenu multilingue avec une grande précision. Nous déployons également plus de 100 nouvelles vibrations de voix pour offrir aux utilisateurs encore plus d’options expressives et naturelles. Chaque mois, GSpeech génère plus de 200 millions de caractères d’audio, servant des utilisateurs dans plus de 70 pays, avec nos lecteurs en ligne utilisés plus de 200 000 fois par mois – et en constante augmentation. Cette échelle garantit un retour d’expérience et des tests dans le monde réel constants, qui informent directement nos réglages et contrôles de qualité.

Pouvez-vous nous expliquer comment GSpeech utilise l’IA et l’apprentissage automatique pour offrir une synthèse vocale réaliste ? Comment gardez-vous le rythme des progrès rapides dans la technologie vocale neuronale ?

GSpeech utilise l’IA et l’apprentissage automatique avancés, en intégrant plusieurs modèles de synthèse vocale texte-à-voix de pointe pour produire une synthèse vocale réaliste. Ces modèles, optimisés pour la naturalité et le multilinguisme, traitent les entrées de texte pour générer un audio de haute qualité avec une intonation et un rythme réalistes, même pour le contenu multilingue. Nous améliorons l’expérience utilisateur en offrant des styles de voix personnalisables pour diverses langues. Nous avons également intégré des alias TTS, qui permettent aux utilisateurs de définir des règles personnalisées pour la façon dont certains mots ou phrases sont rendus en audio – par exemple, en remplaçant des termes spécifiques pour obtenir une prononciation ou une phraséologie plus précise. Pour rester à jour avec la technologie vocale neuronale, nous évaluons et intégrons continuellement les dernières avancées, collaborons avec les leaders de l’industrie et prévoyons de développer des modèles propriétaires à l’avenir, garantissant que GSpeech reste à la pointe de l’innovation de la synthèse vocale.

À quel point l’ajustement de la voix, le contrôle du ton et la personnalisation de la lecture sont-ils importants pour vos utilisateurs – et quel est le cas d’utilisation pour lequel ces fonctionnalités brillent vraiment ?

L’ajustement de la voix, le contrôle du ton et la personnalisation de la lecture sont essentiels pour nos utilisateurs, leur permettant de créer des styles de voix uniques et de haute qualité adaptés à leurs besoins spécifiques, allant des sites Web de news et de blogs au contenu d’apprentissage en ligne accessible. L’intégration en cours de plus de 100 nouvelles vibrations de voix améliore encore cela, offrant aux utilisateurs une flexibilité sans précédent pour créer de véritables voix sur mesure. Je suis le plus fier de GSpeech Studio, une nouvelle plateforme d’édition et de génération audio que je développe. Elle permet aux utilisateurs de créer plusieurs canaux audio, de les mixer avec de la musique de fond et d’exporter des voix off polies, permettant aux créateurs de produire un audio professionnel de qualité pour diverses applications. La lettre d’un étudiant malvoyant, me remerciant pour avoir rendu possible l’étude indépendante grâce à un audio personnalisé, m’a profondément touché. Ce cas d’utilisation montre comment ces fonctionnalités rendent le contenu accessible et transformateur, un objectif que j’ai poursuivi depuis mes premiers jours de programmation.

GSpeech offre des intégrations transparentes avec WordPress, Shopify, Wix, et plus encore. Quelle a été votre stratégie pour rendre la plateforme plug-and-play pour les créateurs et les entreprises sur différents écosystèmes ?

Notre stratégie pour les intégrations plug-and-play de GSpeech avec des plateformes comme WordPress, Shopify et Wix s’est concentrée sur la simplicité, la compatibilité et l’évolutivité. Nous avons développé des plugins et des extraits de code légers et modulaires qui s’intègrent en douceur, nécessitant une configuration minimale – souvent seulement quelques clics. Cela signifie que des milliers d’articles et de blocs de contenu dynamiques peuvent instantanément bénéficier d’un support vocal – sans effort manuel. Nous offrons des lecteurs hautement flexibles et visuellement attrayants qui s’adaptent aux appareils, y compris les mobiles, les tablettes et les ordinateurs de bureau. Nos lecteurs ne sont pas seulement personnalisables, mais également optimisés pour l’accessibilité et l’engagement de l’utilisateur. Pour WordPress, nous avons intégré le tableau de bord cloud GSpeech directement dans le panneau d’administration via notre plugin, simplifiant la gestion pour les utilisateurs. La documentation détaillée et les tableaux de bord intuitifs guident les utilisateurs non techniques à travers l’installation et la personnalisation. Les tests réguliers garantissent des performances constantes sur divers écosystèmes, permettant aux créateurs et aux entreprises d’ajouter une fonctionnalité texte-à-voix alimentée par l’IA sans effort.

En regardant le parcours de 2012 à aujourd’hui, quel a été le plus grand jalon pour vous personnellement ou professionnellement dans la construction de GSpeech ?

Le plus grand jalon pour GSpeech a été la génération de 1 milliard de caractères d’audio IA de haute qualité, mettant en évidence notre impact mondial sur l’accessibilité. De même, les retours que nous avons reçus d’organisations comme l’Union de l’humanité, qui a loué GSpeech pour avoir amélioré la plateforme d’engagement civique accessible, et de propriétaires de blogs qui l’ont qualifié de « révolutionnaire » pour l’engagement des utilisateurs, ont été très significatifs. Plus de 110 évaluations à 5 étoiles sur des plateformes comme WordPress et AppSumo ces derniers mois reflètent cette confiance croissante.

GSpeech est également utilisé par le département des statistiques régionales de Namangan en Ouzbékistan – une institution gouvernementale avec un trafic important et une visibilité nationale. Voir une institution publique adopter notre technologie de manière si large a été un jalon significatif et un signe puissant de confiance dans notre solution.

En tant que chrétien et personne servant dans l’Église arménienne, j’essaie également de soutenir d’autres initiatives fondées sur la foi chaque fois que possible. Je propose souvent GSpeech gratuitement à des sites Web chrétiens comme moyen d’aider à diffuser leur message de manière plus efficace et à rendre les Écritures plus accessibles via l’audio. C’est ma petite contribution à quelque chose de plus grand. En même temps, je suis honoré de travailler avec des ministères dévoués comme The Cord – une congrégation messianique et client valorisé de GSpeech – dont la mission et le contenu reflètent le pouvoir des Écritures en action.

Ces moments – où la technologie devient un pont pour la foi, la compréhension et l’inclusion – me rappellent pourquoi nous avons construit GSpeech en premier lieu.

Quel rôle GSpeech jouera-t-il dans le futur des médias numériques, en particulier à mesure que le contenu audio et les interfaces vocales deviendront plus dominants ?

Je vois GSpeech comme un leader dans le rendement des médias numériques plus accessibles et engageants en permettant l’accès vocal alimenté par l’IA au Web. Notre objectif est de transformer l’expérience en ligne dans son ensemble, afin que les sites Web deviennent naturellement interactifs, inclusifs et multilingues par défaut. Avec une seule ligne de code, les propriétaires de sites peuvent convertir des milliers d’articles en contenu vocalisé. À l’avenir, nous développons GSpeech Studio en une plateforme unique et puissante pour la génération et l’édition audio, permettant aux utilisateurs de créer du contenu vocal à plusieurs couches avec de la musique de fond, des effets et un réglage précis. Nous voulons rendre le Web vraiment audible, intuitif et universellement accessible.

GSpeech a récemment été lancé sur AppSumo et a déjà obtenu une note quasi parfaite des premiers adoptants. Qu’a signifié pour vous la réponse de la communauté AppSumo, et comment comptez-vous construire sur cette dynamique à l’avenir ?

Le lancement sur AppSumo a présenté GSpeech à des millions de personnes, et sa note quasi parfaite est incroyablement rassurante. Les utilisateurs, comme ceux qui gèrent des cours en ligne, louent nos outils intuitifs et notre support réactif, échoant les retours de l’Union de l’humanité. Un propriétaire de blog a qualifié nos voix de « réellement engageantes » et les traductions de « impressionnantes ». Leurs commentaires positifs confirment la valeur de notre solution de synthèse vocale texte-à-voix alimentée par l’IA et alimentent ma passion pour le projet. Soutenir les clients pendant le lancement a également généré de nouvelles idées, en particulier pour GSpeech Studio, qui a été inspiré par les demandes des utilisateurs pour des fonctionnalités avancées d’édition et d’exportation audio. À l’avenir, je prévois de construire sur cette dynamique en écoutant activement notre communauté, en intégrant leurs retours et en développant des fonctionnalités innovantes pour améliorer l’accessibilité et l’engagement, garantissant que GSpeech continue d’évoluer en tant qu’outil transformateur pour les créateurs et les entreprises.

Enfin, quels conseils donneriez-vous aux jeunes développeurs ou entrepreneurs qui souhaitent construire des outils accessibles et alimentés par l’IA dans le paysage technologique en constante évolution d’aujourd’hui ?

Aux jeunes développeurs et entrepreneurs, mon conseil est de mettre tout leur cœur dans leur travail et d’identifier un véritable problème où ils peuvent offrir une solution unique et intelligente. Commencez petit, faites des progrès constants et écoutez attentivement les retours des clients – ils guideront votre chemin. Traitez vos utilisateurs comme des amis de confiance, donnez tout et restez patients. Adoptez les technologies de l’IA comme des alliés puissants ; lorsqu’elles sont utilisées avec sagesse, elles amplifient votre capacité à créer des outils accessibles et à impact. Construisez avec passion, persévérance et un engagement à faire une différence, et vous créerez des solutions qui comptent vraiment.

Je vous remercie pour cette grande interview, nous avons choisi la solution GSpeech pour notre site Web en raison de l’intégration facile. Pour en savoir plus, visitez GSpeech.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.