Interviews
Simon Poghosyan, Gründer und CEO von GSpeech – Interviewreihe

Simon Poghosyan ist der Gründer und Geschäftsführer von GSeech, eine webbasierte KI-Plattform, die Online-Inhalte zugänglicher macht, indem sie Text in natürlich klingende Audiodateien in über 70 Sprachen konvertiert. Mit einem Hintergrund im VLSI-Design und einem ausgeprägten Interesse an Programmierung und Benutzererfahrung entwickelte Simon GSpeech, um Websites die Bereitstellung sprachgesteuerter Inhalte zu vereinfachen.
GSpeech generiert heute monatlich rund 200 Millionen Zeichen Audio und wird in über 70 Ländern eingesetzt. Die anpassbaren Audioplayer ermöglichen monatlich über 200,000 Wiedergaben. GSpeech hat kürzlich die Marke von einer Milliarde generierter Zeichen überschritten und wächst weiterhin rasant. Die Plattform ist einfach zu integrieren – sie erfordert nur eine einzige Codezeile – und unterstützt Kreative, Pädagogen und Unternehmen dabei, ihre Inhalte inklusiver und ansprechender zu gestalten.
GSpeech wird auch auf allen unseren englischen Seiten verwendet. Sie können sich diesen Artikel anhören und sehen, wie gut GSpeech funktioniert, indem Sie auf die Wiedergabetaste klicken.
Ihr Hintergrund im VLSI-Design (Very Large Scale Integration) und Ihre frühen Programmiererfahrungen bildeten eine solide technische Grundlage. Was inspirierte Sie dazu, von der Mikroelektronik zur Entwicklung KI-gestützter Software zu wechseln, und wie kam es zur Entwicklung von GSpeech?
Meine Leidenschaft fürs Problemlösen begann schon in der High School, angetrieben von meiner Liebe zu Mathematik und Physik. Dieses Interesse führte mich zu einem Bachelor- (2009) und Master-Abschluss (2011) in VLSI-Design an der Staatlichen Technischen Universität Armenien, in Zusammenarbeit mit Synopsys Armenia. Das Physikstudium schulte meine Präzision und mein analytisches Denken, doch erst im zweiten Jahr entdeckte ich das Programmieren – angefangen mit der Programmiersprache Pascal – und verliebte mich sofort darin. Mein Freund und ich erledigten Kursaufgaben sofort, sobald wir sie erhielten, obwohl wir sechs Monate Zeit dafür hatten. Dann begannen wir zum Spaß, die Aufgaben anderer Studenten zu bearbeiten.
Diese Leidenschaft führte mich tiefer in die Softwareentwicklung. Ich begann mit der Erstellung von Websites und entwickelte dann mein eigenes CMS. Nach Abschluss mehrerer Projekte zur Prozessautomatisierung und dem Entwurf von Datenmanagement-Architekturen erkannte ich, wie sehr ich es liebte, digitale Lösungen für Weboberflächen zu entwickeln. Im Rahmen des 2GLux-Projekts arbeitete ich mit Edvard Ananyan zusammen – dem Schöpfer des beliebten GTranslate Übersetzungsdienst und ein Schulfreund vom Quant Gymnasium. Er machte mich mit den WordPress- und Joomla-Ökosystemen vertraut, und das Konzept für GSpeech stammt von ihm. Diese frühen Arbeiten führten zur ersten Version unseres Tools, mit dem Nutzer Texte auf einer Webseite anhören konnten, und legten damit den Grundstein für eine spätere vollfunktionale KI-Plattform. Bis 2023 gründete ich Smarts Club LLC, um GSpeech zu einer globalen KI-Audiolösung mit Unterstützung für über 70 Sprachen auszubauen. Das Lob der Humanity Union für GSpeechs Beitrag zur Verbesserung der Zugänglichkeit ihrer Plattform für bürgerschaftliches Engagement spiegelt meine Mission wider, digitale Kluft durch KI zu überbrücken – eine Vision, die in meinen frühen Programmiertagen wurzelte.
GSpeech war ursprünglich als Tool zur Unterstützung sehbehinderter Nutzer gedacht. Wie beeinflusste diese frühe Mission die Entwicklung der Plattform zu einer vollfunktionalen KI-Text-to-Speech-Lösung?
Der Fokus auf Barrierefreiheit trieb die Entwicklung von hochwertigem KI-Audio in Echtzeit, Übersetzungen in über 70 Sprachen und die nahtlose Website-Integration über einen einfachen Codeausschnitt voran. Diese Mission führte zu Funktionen wie anpassbaren Audioplayern, Sprach- und Stimmauswahlfeldern, kontextsensitiver Wiedergabe, Audio-Downloads und detaillierten Nutzungsstatistiken – einschließlich Land, Stadt, Gerätedaten und Wiedergabeanalysen im Zeitverlauf –, die darauf abzielen, Inhalte inklusiver und ansprechender zu gestalten. Nachdem ich über 100,000 Zeilen Code geschrieben hatte, brachte ich 2023 die GSpeech Cloud Console auf den Markt – eine skalierbare Lösung, die Inklusivität mit erweiterten Funktionen verbindet und es Unternehmen und Kreativen ermöglicht, ihre Inhalte im gesamten Web zugänglich, mehrsprachig und interaktiv zu gestalten.
Was waren einige der größten technischen Herausforderungen, denen Sie bei der Entwicklung der GSpeech Cloud Console gegenüberstanden?
Eine der größten Herausforderungen bei der Entwicklung der GSpeech Cloud Console war die Entwicklung einer skalierbaren Architektur für die sichere und hochwertige KI-Audiogenerierung in Echtzeit. Dies erforderte innovative Lösungen, um relevante Inhalte aus dem Internet abzurufen, Audiodaten auf unseren Servern zu verarbeiten und für eine schnelle und zuverlässige Bereitstellung in der Cloud zu speichern. Die Implementierung robuster Sicherheitsmaßnahmen wie Verschlüsselung und Zugriffskontrollen war entscheidend, um dynamische, nutzergenerierte Inhalte zu schützen.
Eine weitere Hürde war die Echtzeitübersetzung mithilfe fortschrittlicher neuronaler Engines. Wir mussten latenzarme und präzise Übersetzungen gewährleisten und gleichzeitig eine intuitive Benutzeroberfläche entwickeln, die es Nutzern ermöglicht, Sprachen und bevorzugte Sprachprofile für die Wiedergabe auszuwählen. Dabei standen Benutzerkomfort und Personalisierung im Vordergrund. Schließlich entwickelten wir einen Assistenten zur Erstellung von Audiovorlagen mit mehreren anpassbaren Player-Ansichten, mit dem Nutzer einzigartige, optisch ansprechende Player erstellen können, die auf ihre Websites zugeschnitten sind. Die Balance zwischen Flexibilität, Leistung und Benutzerfreundlichkeit auf allen Geräten zu finden, war eine lohnende Herausforderung.
Mit Echtzeitübersetzung in über 70 Sprachen und über 230 natürlich klingenden Stimmen. Wie stellen Sie die Sprachqualität sicher und gewährleisten die Genauigkeit bei einem so vielfältigen Sprachenspektrum?
Um eine gleichbleibende Sprachqualität zu gewährleisten, integrieren wir mehrere fortschrittliche Text-to-Speech-Modelle (TTS), die kontinuierlich optimiert und aktualisiert werden. Diese mehrsprachigen Engines verarbeiten Inhalte in verschiedenen Sprachen mit hoher Genauigkeit. Darüber hinaus führen wir über 100 neue Sprachvibes ein, um Nutzern noch ausdrucksstärkere und natürlicher klingende Optionen zu bieten. GSpeech generiert monatlich über 200 Millionen Audiozeichen und bedient Nutzer in über 70 Ländern. Unsere Online-Player werden monatlich über 200,000 Mal genutzt – Tendenz steigend. Diese Größenordnung gewährleistet kontinuierliches Feedback und Praxistests, die direkt in unsere Feinabstimmung und Qualitätskontrolle einfließen.
Können Sie uns erklären, wie GSpeech KI und maschinelles Lernen nutzt, um eine lebensechte Sprachsynthese zu ermöglichen? Wie halten Sie mit den rasanten Fortschritten in der neuronalen Sprachtechnologie Schritt?
GSpeech nutzt fortschrittliche KI und maschinelles Lernen und integriert mehrere hochmoderne Text-to-Speech-Modelle für eine lebensechte Sprachsynthese. Diese auf Natürlichkeit und Mehrsprachigkeit optimierten Modelle verarbeiten Texteingaben und erzeugen hochwertigen Ton mit realistischer Intonation und Rhythmik – selbst bei gemischtsprachigen Inhalten. Wir verbessern das Benutzererlebnis durch anpassbare Sprachstile für verschiedene Sprachen. Wir haben außerdem TTS-Aliase integriert, mit denen Benutzer benutzerdefinierte Regeln für die Wiedergabe bestimmter Wörter oder Ausdrücke im Audio festlegen können – beispielsweise das Ersetzen bestimmter Begriffe für eine präzisere Aussprache oder Formulierung. Um bei der neuronalen Sprachtechnologie auf dem neuesten Stand zu bleiben, evaluieren und integrieren wir kontinuierlich die neuesten Fortschritte, arbeiten mit Branchenführern zusammen und planen die Entwicklung eigener Modelle für die Zukunft. So bleibt GSpeech führend bei der Innovation im Bereich Sprachsynthese.
Wie wichtig sind Ihren Benutzern die Stimmabstimmung, Tonhöhensteuerung und Wiedergabeanpassung – und auf welchen Anwendungsfall sind Sie am stolzesten, bei dem diese Funktionen wirklich glänzen?
Stimmanpassung, Tonhöhenkontrolle und individuelle Wiedergabe sind für unsere Nutzer entscheidend. Sie ermöglichen ihnen die Erstellung einzigartiger, hochwertiger und auf ihre Bedürfnisse zugeschnittener Sprachstile – von Nachrichten- und Blog-Websites bis hin zu barrierefreien E-Learning-Inhalten. Die fortlaufende Integration von über 100 neuen Sprachvibes verbessert dies zusätzlich und bietet Nutzern beispiellose Flexibilität für die Erstellung wirklich unverwechselbarer Voiceovers. Besonders stolz bin ich auf GSpeech Studio, eine neue Plattform zur Audiobearbeitung und -generierung, die ich gerade entwickle. Sie ermöglicht es Nutzern, mehrere Audiokanäle zu erstellen, diese mit Hintergrundmusik zu mischen und ausgefeilte Voiceovers zu exportieren. So können Kreative professionelle Audioqualität für vielfältige Anwendungen produzieren. Der Brief eines sehbehinderten Studenten, in dem er GSpeech für das selbstbestimmte Lernen durch personalisiertes Audio dankte, hat mich tief berührt. Dieser Anwendungsfall zeigt, wie diese Funktionen Inhalte zugänglich und transformativ machen – ein Ziel, das ich seit meinen Anfängen als Programmierer verfolge.
GSpeech bietet nahtlose Integrationen mit WordPress, Shopify, Wix und anderen Plattformen. Wie haben Sie die Plattform für Entwickler und Unternehmen in verschiedenen Ökosystemen einsatzbereit gemacht?
Unsere Strategie für die Plug-and-Play-Integration von GSpeech mit Plattformen wie WordPress, Shopify und Wix konzentrierte sich auf Einfachheit, Kompatibilität und Skalierbarkeit. Wir entwickelten schlanke, modulare Plugins und Code-Snippets, die sich nahtlos integrieren lassen und nur minimalen Einrichtungsaufwand erfordern – oft nur wenige Klicks. So können Tausende von Artikeln und dynamischen Inhaltsblöcken sofort und ohne manuellen Aufwand Sprachunterstützung erhalten. Wir bieten hochflexible, ansprechend gestaltete Player, die sich an alle Geräte anpassen, darunter Mobilgeräte, Tablets und Desktops. Unsere Player sind nicht nur anpassbar, sondern auch für Barrierefreiheit und Benutzerinteraktion optimiert. Für WordPress haben wir das GSpeech-Cloud-Dashboard über unser Plugin direkt in das Admin-Panel integriert, was die Verwaltung für Nutzer vereinfacht. Detaillierte Dokumentationen und intuitive Dashboards führen auch technisch nicht versierte Nutzer durch die Installation und Anpassung. Regelmäßige Tests gewährleisten eine konsistente Leistung in verschiedenen Ökosystemen und ermöglichen es Entwicklern und Unternehmen, KI-gestützte Text-to-Speech-Funktionen mühelos zu integrieren.
Wenn Sie auf die Reise von 2012 bis heute zurückblicken, was war für Sie persönlich oder beruflich der größte Meilenstein beim Aufbau von GSpeech?
Der größte Meilenstein für GSpeech war die Generierung von einer Milliarde Zeichen hochwertigen KI-Audios, was unseren globalen Einfluss auf die Barrierefreiheit unterstreicht. Ebenso bedeutsam war das Feedback von Organisationen wie der Humanity Union, die GSpeech für die Verbesserung ihrer Plattform für soziale Verantwortung lobten, und von Blog-Betreibern, die es als „bahnbrechend“ für die Nutzerinteraktion bezeichneten. Über 1 Fünf-Sterne-Bewertungen auf Plattformen wie WordPress und AppSumo der letzten Monate spiegeln dieses wachsende Vertrauen wider.
GSpeech wird mittlerweile auch aktiv genutzt von Regionale Statistikbehörde Namangan in Usbekistan – eine Regierungsinstitution mit hohem Datenverkehr und nationaler Sichtbarkeit. Dass eine öffentliche Einrichtung unsere Technologie so breit annimmt, ist ein bedeutender Meilenstein und ein starker Vertrauensbeweis in unsere Lösung.
Als Christ und Mitglied der Armenischen Kirche unterstütze ich auch andere religiöse Initiativen, wann immer es möglich ist. Ich biete GSpeech oft kostenlos für christliche Websites an, um ihre Botschaft effektiver zu verbreiten und die Heilige Schrift durch Audio zugänglicher zu machen. Es ist mein kleiner Beitrag zu etwas Größerem. Gleichzeitig fühle ich mich geehrt, mit engagierten Organisationen wie Die Schnur – eine messianische Gemeinde und geschätzter GSpeech-Kunde – deren Mission und Inhalt die Kraft der Heiligen Schrift in Aktion widerspiegeln.
Diese Momente – wenn Technologie zu einer Brücke für Glauben, Verständnis und Inklusion wird – erinnern mich daran, warum wir GSpeech überhaupt entwickelt haben.
Welche Rolle wird GSpeech Ihrer Meinung nach in der Zukunft der digitalen Medien spielen, insbesondere angesichts der zunehmenden Bedeutung von Audioinhalten und Sprachschnittstellen?
Ich sehe GSpeech als führendes Unternehmen, das digitale Medien zugänglicher und ansprechender macht, indem es KI-gestützten Sprachzugriff auf das Web ermöglicht. Unser Ziel ist es, das gesamte Online-Erlebnis zu transformieren, sodass Websites standardmäßig natürlich sprachinteraktiv, inklusiv und mehrsprachig sind. Mit nur einer Codezeile können Website-Betreiber Tausende von Artikeln in Sprachinhalte umwandeln. Zukünftig entwickeln wir GSpeech Studio zu einer leistungsstarken und einzigartigen Plattform für die Audiogenerierung und -bearbeitung, die es Nutzern ermöglicht, mehrschichtige Sprachinhalte mit Hintergrundmusik, Effekten und präziser Abstimmung zu erstellen. Wir wollen das Web wirklich hörbar, intuitiv und universell zugänglich machen.
GSpeech wurde kürzlich auf AppSumo eingeführt und hat von den ersten Nutzern bereits eine nahezu perfekte Bewertung erhalten. Was bedeutet Ihnen die Resonanz der AppSumo-Community und wie wollen Sie diese Dynamik in Zukunft nutzen?
Mit dem AppSumo-Launch wurde GSpeech Millionen von Nutzern vorgestellt, und die nahezu perfekte Bewertung ist unglaublich ermutigend. Nutzer, wie beispielsweise Anbieter von Online-Kursen, loben unsere intuitiven Tools und unseren reaktionsschnellen Support und bestätigen damit das Feedback der Humanity Union. Ein Blog-Betreiber bezeichnete unsere Stimmen als „wirklich ansprechend“ und unsere Übersetzungen als „beeindruckend“. Ihr positives Feedback bestätigt den Wert unserer KI-gestützten Text-to-Speech-Lösung und bestärkt mich in meiner Leidenschaft für das Projekt. Die Unterstützung unserer Kunden während des Launches brachte auch neue Ideen hervor, insbesondere für GSpeech Studio, das von Nutzeranfragen nach erweiterten Audiobearbeitungs- und Exportfunktionen inspiriert wurde. In Zukunft möchte ich auf dieser Dynamik aufbauen, indem ich aktiv auf unsere Community höre, ihr Feedback integriere und innovative Funktionen entwickle, um die Zugänglichkeit und das Engagement zu verbessern und sicherzustellen, dass sich GSpeech weiterhin als transformatives Tool für Kreative und Unternehmen weiterentwickelt.
Und zum Schluss: Welchen Rat würden Sie jungen Entwicklern oder Unternehmern geben, die in der heutigen schnelllebigen Technologielandschaft zugängliche, KI-gestützte Tools entwickeln möchten?
Mein Rat an junge Entwickler und Unternehmer: Arbeitet mit Herzblut und identifiziert ein echtes Problem, für das ihr eine einzigartige, intelligente Lösung anbieten könnt. Fangt klein an, geht stetig voran und hört aufmerksam auf das Kundenfeedback – es wird euch den Weg weisen. Behandelt eure Nutzer wie treue Freunde, gebt euer Bestes und bleibt geduldig. Nutzt KI-Technologien als mächtige Verbündete; klug eingesetzt, verstärken sie eure Fähigkeit, wirkungsvolle und zugängliche Tools zu entwickeln. Entwickelt mit Leidenschaft, Ausdauer und dem Willen, etwas zu bewegen, und ihr werdet Lösungen schaffen, die wirklich etwas bewirken.
Vielen Dank für das tolle Interview. Wir haben uns aufgrund der einfachen Integration für die GSpeech-Lösung für unsere Website entschieden. Weitere Informationen finden Sie unter GSeech.












