Interviews
Simon Poghosyan, Gründer und CEO von GSpeech – Interviewreihe

Simon Poghosyan ist der Gründer und CEO von GSpeech, einer webbasierten KI-Plattform, die Online-Inhalte zugänglicher macht, indem sie Text in natürlich klingendes Audio in über 70 Sprachen umwandelt. Mit einer Ausbildung in VLSI-Design und einem starken Interesse an Programmierung und Benutzererfahrung schuf Simon GSpeech, um die Art und Weise zu vereinfachen, wie Websites voice-aktivierte Inhalte anbieten können.
Heute generiert GSpeech etwa 200 Millionen Zeichen Audio pro Monat und wird in über 70 Ländern verwendet, wobei die anpassbaren Audio-Player über 200.000 Mal monatlich abgespielt werden. Nachdem GSpeech insgesamt über 1 Milliarde Zeichen Audio generiert hat, wächst die Plattform weiterhin rapide. Die Plattform ist so konzipiert, dass sie leicht zu integrieren ist – sie erfordert nur eine einzige Codezeile – und unterstützt Ersteller, Pädagogen und Unternehmen bei der Erstellung zugänglicher und ansprechender Inhalte.
GSpeech wird auch auf all unseren englischen Seiten verwendet, Sie können diesen Artikel anhören und sehen, wie gut GSpeech funktioniert, indem Sie auf die Wiedergabetaste klicken.
Ihre Ausbildung in VLSI-Design (Very Large Scale Integration) und Ihre frühen Programmiererfahrungen legten eine starke technische Grundlage. Was hat Sie dazu bewogen, von der Mikroelektronik zur Entwicklung von KI-gesteuerter Software zu wechseln, und wie führte dies zur Erstellung von GSpeech?
Meine Leidenschaft für die Lösung von Problemen begann in der High School, getrieben von einer Liebe zur Mathematik und Physik. Dieses Interesse führte mich dazu, einen Bachelor-Abschluss (2009) und einen Master-Abschluss (2011) in VLSI-Design an der Staatlichen Ingenieuruniversität Armeniens, in Zusammenarbeit mit Synopsys Armenia, zu erwerben. Das Studium der Physik hat mich in Präzision und analytischem Denken trainiert, aber es war während meines zweiten Studienjahres, dass ich die Programmierung entdeckte – beginnend mit der Pascal-Sprache – und mich sofort in sie verliebte. Mein Freund und ich haben die Aufgaben für die Kurse erledigt, sobald wir sie erhalten haben, obwohl wir sechs Monate Zeit hatten, um sie zu beenden. Dann haben wir, nur zum Spaß, die Aufgaben anderer Studenten erledigt.
Diese Leidenschaft führte mich tiefer in die Software-Entwicklung. Ich begann mit der Erstellung von Websites, dann baute ich mein eigenes CMS. Nachdem ich mehrere Projekte in Prozessautomatisierung und Design von Datenverwaltungsarchitekturen abgeschlossen hatte, erkannte ich, wie sehr ich es liebe, digitale Lösungen für Web-Schnittstellen zu entwickeln. Durch das 2GLux-Projekt arbeitete ich mit Edvard Ananyan – dem Ersteller des beliebten GTranslate-Übersetzungs dịchvices und einem Schulfreund aus dem Quant-Gymnasium – zusammen. Er stellte mich den WordPress- und Joomla-Ökosystemen vor und das Konzept für GSpeech entstand bei ihm. Diese frühe Arbeit führte zur ersten Version unseres Tools, das es Benutzern ermöglichte, Text auf einer Webseite anzuhören, und den Samen für das legte, was später eine voll ausgestattete KI-Plattform werden würde. Im Jahr 2023 gründete ich Smarts Club LLC, um GSpeech in eine globale KI-Audio-Lösung zu verwandeln, die 70 Sprachen unterstützt. Die Anerkennung von GSpeech durch die Humanity Union für die Verbesserung ihrer Plattform für soziale Verantwortung spiegelt meine Mission wider, digitale Kluft durch KI zu überbrücken – eine Vision, die in meinen frühen Programmier-Tagen verwurzelt ist.
GSpeech begann ursprünglich als Werkzeug, um sehbehinderten Benutzern zu helfen. Wie hat diese frühe Mission die Evolution der Plattform in eine voll ausgestattete KI-Text-to-Speech-Lösung beeinflusst?
Der Fokus auf Zugänglichkeit trieb die Entwicklung von hochwertigem, Echtzeit-KI-Audio, der Übersetzung in 70 Sprachen und der nahtlosen Integration in Websites durch einen einfachen Code-Snippet voran. Diese Mission führte zu Funktionen wie anpassbaren Audio-Playern, Sprach- und Stimmauswahlfeldern, kontextabhängiger Wiedergabe, Audio-Downloads und detaillierten Nutzungsstatistiken – einschließlich Länder-, Stadt-, Gerätedaten und Wiedergabe-Analytics über die Zeit – allesamt konzipiert, um Inhalte zugänglicher und ansprechender zu machen. Nachdem ich über 100.000 Zeilen Code geschrieben hatte, veröffentlichte ich 2023 die GSpeech Cloud-Konsole – eine skalierbare Lösung, die Inklusivität mit fortschrittlicher Funktionalität ausbalanciert, und ermöglicht es Unternehmen und Erstellern, ihre Inhalte zugänglicher, mehrsprachig und interaktiv im Web zu machen.
Welche waren einige der größten technischen Herausforderungen, denen Sie während der Entwicklung der GSpeech Cloud-Konsole gegenüberstanden?
Eine der größten Herausforderungen bei der Entwicklung der GSpeech Cloud-Konsole bestand darin, eine skalierbare Architektur für Echtzeit-, sichere, hochwertige KI-Audio-Generierung zu entwerfen. Dies erforderte innovative Lösungen, um relevante Inhalte aus dem Web abzurufen, Audio auf unseren Servern zu verarbeiten und es in der Cloud für eine schnelle, zuverlässige Lieferung zu speichern. Die Implementierung robuster Sicherheitsmaßnahmen wie Verschlüsselung und Zugriffskontrollen war entscheidend, um dynamische, benutzergenerierte Inhalte zu schützen.
Ein weiteres Hindernis war die Ermöglichung von Echtzeit-Übersetzungen mithilfe fortschrittlicher neuronaler Motoren. Wir mussten sicherstellen, dass Übersetzungen mit niedriger Latenz und hoher Genauigkeit durchgeführt werden, während wir gleichzeitig eine intuitive Oberfläche entwickelten, die es Benutzern ermöglicht, Sprachen und bevorzugte Stimmen für die Wiedergabe auszuwählen, wobei wir den Benutzerkomfort und die Personalisierung priorisierten. Schließlich entwickelten wir einen Audio-Vorlagen-Ersteller-Assistenten mit mehreren anpassbaren Player-Ansichten, der es Benutzern ermöglicht, einzigartige, visuell ansprechende Player zu entwerfen, die auf ihre Websites zugeschnitten sind. Die Balance zwischen Flexibilität, Leistung und Benutzerfreundlichkeit auf verschiedenen Geräten war eine lohnende Herausforderung.
Mit Echtzeit-Übersetzung in 70 Sprachen und über 230 natürlichen Stimmen. Wie stellen Sie sicher, dass die Stimmenqualität und die Genauigkeit über ein so vielfältiges Sprachspektrum hinweg aufrechterhalten werden?
Um eine konsistente Stimmenqualität zu gewährleisten, integrieren wir mehrere fortschrittliche Text-to-Speech-(TTS)-Modelle, die kontinuierlich optimiert und aktualisiert werden. Diese mehrsprachigen Motoren verarbeiten Inhalte mit gemischten Sprachen mit hoher Genauigkeit. Wir rollen auch über 100 neue Stimmen aus, um den Benutzern noch mehr ausdrucksstarke und natürliche Optionen zu bieten. Jeden Monat generiert GSpeech über 200 Millionen Zeichen Audio, das Benutzern in über 70 Ländern dient, und unsere Online-Player werden über 200.000 Mal monatlich verwendet – und wachsen. Diese Größe gewährleistet kontinuierliches Feedback und Echtzeit-Testen, das direkt unsere Feinabstimmung und Qualitätskontrollen informiert.
Können Sie uns durch die Art und Weise führen, wie GSpeech KI und maschinelles Lernen nutzt, um lebensechte Stimmen-Synthese zu liefern? Wie halten Sie Schritt mit den schnellen Fortschritten in der neuronalen Stimmen-Technologie?
GSpeech nutzt fortschrittliche KI und maschinelles Lernen, indem es mehrere state-of-the-art-Text-to-Speech-Modelle integriert, um lebensechte Stimmen-Synthese zu erzeugen. Diese Modelle, die für Natürlichkeit und Mehrsprachigkeit optimiert sind, verarbeiten Texteingaben, um hochwertiges Audio mit realistischer Intonation und Rhythmus zu erzeugen, sogar für Inhalte mit gemischten Sprachen. Wir verbessern die Benutzererfahrung, indem wir anpassbare Stimmenstile für verschiedene Sprachen anbieten. Wir haben auch TTS-Aliase integriert, die es Benutzern ermöglichen, benutzerdefinierte Regeln für die Wiedergabe bestimmter Wörter oder Phrasen zu definieren – beispielsweise, um bestimmte Begriffe durch genauere Aussprache oder Phrasierung zu ersetzen. Um mit der neuronalen Stimmen-Technologie Schritt zu halten, bewerten und integrieren wir kontinuierlich die neuesten Fortschritte, arbeiten mit Branchenführern zusammen und planen, eigene Modelle in der Zukunft zu entwickeln, um sicherzustellen, dass GSpeech an der Spitze der Stimmen-Synthese-Innovation bleibt.
Wie wichtig sind Stimmen-Feinabstimmung, Tonhöhenkontrolle und Wiedergabe-Anpassung für Ihre Benutzer – und welches ist das Einsatzszenario, auf das Sie am meisten stolz sind, in dem diese Funktionen wirklich glänzen?
Stimmen-Feinabstimmung, Tonhöhenkontrolle und Wiedergabe-Anpassung sind für unsere Benutzer von entscheidender Bedeutung, da sie es ihnen ermöglichen, einzigartige, hochwertige Stimmenstile zu erstellen, die auf ihre spezifischen Bedürfnisse zugeschnitten sind, von Nachrichten- und Blog-Websites bis hin zu zugänglichen E-Learning-Inhalten. Die laufende Integration von über 100 neuen Stimmen verstärkt dies noch, indem sie den Benutzern eine beispielloser Flexibilität bietet, um wirklich einzigartige Voiceovers zu erstellen. Ich bin am meisten stolz auf GSpeech Studio, eine neue Audio-Bearbeitungs- und Generierungsplattform, die ich entwickle. Sie ermöglicht es Benutzern, mehrere Audio-Kanäle zu erstellen, sie mit Hintergrundmusik zu mischen und polierte Voiceovers zu exportieren, und ermächtigt Ersteller, professionelle Audio-Inhalte für verschiedene Anwendungen zu produzieren. Ein Brief eines sehbehinderten Studenten, der GSpeech für die Möglichkeit dankt, durch anpassbares Audio unabhängig zu studieren, hat mich tief berührt. Dieses Einsatzszenario zeigt, wie diese Funktionen Inhalte zugänglicher und transformierender machen, ein Ziel, das ich seit meinen frühen Programmier-Tagen verfolge.
GSpeech bietet nahtlose Integrationen mit WordPress, Shopify, Wix und mehr. Was war Ihre Strategie, um die Plattform für Ersteller und Unternehmen in verschiedenen Ökosystemen plug-and-play zu machen?
Unsere Strategie für die nahtlosen Integrationen von GSpeech mit Plattformen wie WordPress, Shopify und Wix konzentrierte sich auf Einfachheit, Kompatibilität und Skalierbarkeit. Wir entwickelten leichte, modulare Plugins und Code-Snippets, die sich nahtlos integrieren, was oft nur wenige Klicks erfordert. Dies bedeutet, dass Tausende von Artikeln und dynamischen Inhalten sofort Sprachunterstützung erhalten können – ohne manuelle Anstrengung. Wir bieten hochflexible, schön gestaltete Player, die sich über Geräte hinweg anpassen, einschließlich Mobilgeräten, Tablets und Desktop-Computern. Unsere Player sind nicht nur anpassbar, sondern auch für Zugänglichkeit und Benutzerengagement optimiert. Für WordPress haben wir das GSpeech-Cloud-Dashboard direkt in das Admin-Panel über unser Plugin eingebettet, wodurch die Verwaltung für Benutzer vereinfacht wird. Detaillierte Dokumentation und intuitive Dashboards führen nicht-technische Benutzer durch die Installation und Anpassung. Regelmäßiges Testen stellt konsistente Leistung in verschiedenen Ökosystemen sicher, und ermöglicht es Erstellern und Unternehmen, AI-gesteuerte Text-to-Speech-Funktionen mühelos hinzuzufügen.
Blicken Sie auf die Reise von 2012 bis heute zurück, was war das größte Meilenstein für Sie persönlich oder beruflich bei der Entwicklung von GSpeech?
Der größte Meilenstein für GSpeech war die Generierung von 1 Milliarde Zeichen hochwertigen KI-Audios, was unsere globale Auswirkung auf die Zugänglichkeit zeigt. Ebenso bedeutend war das Feedback, das wir von Organisationen wie der Humanity Union erhalten haben, die GSpeech für die Verbesserung ihrer Plattform für soziale Verantwortung gelobt haben, und von Blog-Besitzern, die es als “Spielveränderer” für die Benutzerbindung bezeichneten. Über 110 fünf-Sterne-Bewertungen auf Plattformen wie WordPress und AppSumo in den letzten Monaten spiegeln dies wider. GSpeech wird auch aktiv von der Namangan regionalen Statistikabteilung in Usbekistan – einer Regierungsbehörde mit erheblichem Verkehr und nationaler Sichtbarkeit – verwendet. Die Tatsache, dass eine öffentliche Einrichtung unsere Technologie so umfassend angenommen hat, war ein bedeutender Meilenstein und ein starkes Zeichen des Vertrauens in unsere Lösung.
Als Christ und jemand, der in der armenischen Kirche dient, versuche ich auch, andere kirchliche Initiativen zu unterstützen, wenn immer möglich. Ich biete GSpeech oft kostenlos an christlichen Websites an, um ihnen zu helfen, ihre Botschaft effektiver zu verbreiten und die Schrift durch Audio zugänglicher zu machen. Es ist mein kleiner Beitrag zu etwas Größerem. Gleichzeitig bin ich geehrt, mit engagierten Ministern wie The Cord – einer messianischen Gemeinde und geschätzten GSpeech-Kunden – zusammenzuarbeiten, deren Mission und Inhalt die Kraft der Schrift in Aktion widerspiegeln.
Diese Momente – wenn Technologie zu einer Brücke für Glauben, Verständnis und Inklusion wird – erinnern mich daran, warum wir GSpeech überhaupt entwickelt haben.
Welche Rolle sehen Sie für GSpeech in der Zukunft der digitalen Medien, insbesondere wenn Audio-Inhalte und Sprach-Schnittstellen immer dominanter werden?
Ich sehe GSpeech als Vorreiter bei der Zugänglichmachung digitaler Medien und der Schaffung einer ansprechenderen Erfahrung, indem es KI-gesteuerten Sprachzugriff auf das Web ermöglicht. Unser Ziel ist es, die gesamte Online-Erfahrung zu transformieren, sodass Websites von Natur aus sprachinteraktiv, inklusiv und mehrsprachig werden. Mit nur einer Codezeile können Website-Besitzer Tausende von Artikeln in gesprochene Inhalte umwandeln. Im Hinblick auf die Zukunft entwickeln wir GSpeech Studio zu einer leistungsstarken und einzigartigen Plattform für Audio-Generierung und -Bearbeitung, die es Benutzern ermöglicht, mehrschichtige Voice-Inhalte mit Hintergrundmusik, Effekten und präziser Feinabstimmung zu erstellen. Wir möchten das Web wirklich hörbar, intuitiv und universell zugänglich machen.
GSpeech wurde kürzlich auf AppSumo veröffentlicht und hat bereits eine nahezu perfekte Bewertung von frühen Annehmern erhalten. Was bedeutet die Resonanz von der AppSumo-Community für Sie, und wie planen Sie, auf diesem Momentum aufzubauen?
Der Launch auf AppSumo stellte GSpeech Millionen von Menschen vor, und die nahezu perfekte Bewertung ist unglaublich bestätigend. Benutzer, wie die, die Online-Kurse betreiben, loben unsere intuitiven Tools und reaktionsfreudige Unterstützung, was das Feedback von der Humanity Union widerspiegelt. Ein Blog-Besitzer nannte unsere Stimmen “ehrlich ansprechend” und die Übersetzungen “beeindruckend”. Ihr positives Feedback bestätigt den Wert unserer KI-gesteuerten Text-to-Speech-Lösung und befeuert meine Leidenschaft für das Projekt. Die Unterstützung von Kunden während des Launchs hat auch neue Ideen angeregt, insbesondere für GSpeech Studio, das durch Benutzeranfragen für erweiterte Audio-Bearbeitungs- und Exportfunktionen inspiriert wurde. Im Hinblick auf die Zukunft plane ich, auf diesem Momentum aufzubauen, indem ich aktiv auf unsere Community höre, ihr Feedback integriere und innovative Funktionen entwickle, um Zugänglichkeit und Engagement zu verbessern, und sicherstelle, dass GSpeech weiterhin als transformatives Werkzeug für Ersteller und Unternehmen evolviert.
Zum Schluss, was raten Sie jungen Entwicklern oder Unternehmern, die zugängliche, KI-gesteuerte Tools in der heutigen sich schnell bewegenden Technologie-Landschaft entwickeln möchten?
Jungen Entwicklern und Unternehmern rate ich, ihr Herz und ihre Seele in ihre Arbeit zu stecken und ein reales Problem zu identifizieren, bei dem sie eine einzigartige, intelligente Lösung anbieten können. Fangen Sie klein an, gehen Sie schrittweise vorwärts und hören Sie genau auf das Feedback der Kunden – sie werden Ihren Weg weisen. Behandeln Sie Ihre Benutzer wie vertrauenswürdige Freunde, geben Sie Ihr Bestes und bleiben Sie geduldig. Nutzen Sie KI-Technologien als mächtige Verbündete; wenn sie weise eingesetzt werden, verstärken sie Ihre Fähigkeit, wirksame, zugängliche Tools zu schaffen. Bauen Sie mit Leidenschaft, Ausdauer und dem Engagement, einen Unterschied zu machen, und Sie werden Lösungen schaffen, die wirklich zählen.
Vielen Dank für das großartige Interview, wir haben die GSpeech-Lösung für unsere Website ausgewählt, weil sie leicht zu integrieren ist. Um mehr zu erfahren, besuchen Sie GSpeech.












