Wawancara
Simon Poghosyan, Pendiri dan CEO GSpeech – Seri Wawancara

Simon Poghosyan adalah pendiri dan CEO dari GSpeech, sebuah platform AI berbasis web yang membantu membuat konten online lebih dapat diakses dengan mengubah teks menjadi audio yang terdengar alami dalam lebih dari 70 bahasa. Dengan latar belakang di VLSI Design dan minat yang kuat dalam pemrograman dan pengalaman pengguna, Simon menciptakan GSpeech untuk menyederhanakan cara situs web dapat menawarkan konten yang diaktifkan suara.
Hari ini, GSpeech menghasilkan sekitar 200 juta karakter audio setiap bulan dan digunakan di lebih dari 70 negara, dengan pemutar audio yang dapat disesuaikan melayani lebih dari 200.000 putaran bulanan. Setelah baru-baru ini melewati 1 miliar karakter audio yang dihasilkan secara total, GSpeech terus tumbuh dengan cepat. Platform ini dirancang untuk mudah diintegrasikan — hanya memerlukan satu baris kode — dan mendukung pembuat, pendidik, dan bisnis dalam membuat konten mereka lebih inklusif dan menarik.
GSpeech juga digunakan di semua halaman bahasa Inggris kami, Anda dapat mendengarkan artikel ini dan bagaimana GSpeech berperforma dengan mengklik tombol putar.
Latar belakang Anda di VLSI Design (Very Large Scale Integration) dan pengalaman pemrograman awal Anda meletakkan dasar teknis yang kuat. Apa yang menginspirasi peralihan Anda dari mikroelektronika ke pembangunan perangkat lunak yang ditenagai AI, dan bagaimana itu mengarah pada penciptaan GSpeech?
Minat saya untuk memecahkan masalah dimulai di sekolah menengah, didorong oleh cinta saya untuk matematika dan fisika. Itu memimpin saya untuk mendapatkan gelar Sarjana (2009) dan Magister (2011) di VLSI Design dari State Engineering University of Armenia, bekerja sama dengan Synopsys Armenia. Mempelajari fisika melatih saya dalam presisi dan pemikiran analitis, tetapi itu selama tahun kedua bahwa saya menemukan pemrograman — memulai dengan bahasa Pascal — dan langsung jatuh cinta dengan itu. Teman saya dan saya akan menyelesaikan tugas kuliah secepat mungkin, bahkan ketika kami memiliki enam bulan untuk menyelesaikannya. Kemudian, untuk bersenang-senang, kami mulai mengerjakan tugas dari siswa lain.
Minat ini membawa saya lebih dalam ke pengembangan perangkat lunak. Saya memulai dengan pembuatan situs web, lalu membangun CMS saya sendiri. Setelah menyelesaikan beberapa proyek dalam otomatisasi proses dan merancang arsitektur manajemen data, saya menyadari betapa saya menyukai membangun solusi digital untuk antarmuka web. Melalui proyek 2GLux, saya berkolaborasi dengan Edvard Ananyan — pencipta layanan terjemahan populer GTranslate dan teman sekolah dari Quant Gymnasium. Dia memperkenalkan saya ke ekosistem WordPress dan Joomla, dan konsep untuk GSpeech berasal darinya. Pekerjaan awal itu mengarah pada versi pertama dari alat kami, memungkinkan pengguna untuk mendengarkan teks di halaman web, menanam benih untuk apa yang kemudian akan menjadi platform AI yang sepenuhnya fitur. Pada 2023, saya mendirikan Smarts Club LLC untuk mengembangkan GSpeech menjadi solusi audio AI global, mendukung 70+ bahasa. Pujian dari Humanity Union atas peran GSpeech dalam meningkatkan platform tanggung jawab sosial mereka mencerminkan misi saya untuk menjembatani kesenjangan digital melalui AI — visi yang berakar pada hari-hari pemrograman awal saya.
GSpeech awalnya dimulai sebagai alat untuk mendukung pengguna yang memiliki keterbatasan visual. Bagaimana misi awal itu mempengaruhi evolusi platform menjadi solusi text-to-speech AI yang sepenuhnya fitur?
Fokus pada aksesibilitas mengarah pada pengembangan audio AI berkualitas tinggi, waktu nyata, terjemahan ke dalam 70+ bahasa, dan integrasi situs web yang mulus melalui potongan kode sederhana. Misi ini mengarah pada fitur seperti pemutar audio yang dapat disesuaikan, panel pemilihan bahasa dan suara, pemutaran konteks-sadar, unduhan audio, dan statistik penggunaan terperinci — termasuk data negara, kota, perangkat, dan analitik pemutaran selama waktu — semua dirancang untuk membuat konten lebih inklusif dan menarik. Setelah menulis lebih dari 100.000 baris kode, saya meluncurkan GSpeech Cloud Console pada 2023 — solusi yang dapat diskalakan yang menyeimbangkan inklusivitas dengan fungsionalitas lanjutan, memberdayakan bisnis dan pembuat untuk membuat konten mereka lebih dapat diakses, multibahasa, dan interaktif di seluruh web.
Apa tantangan teknis terbesar yang Anda hadapi selama pengembangan GSpeech Cloud Console?
Salah satu tantangan terbesar dalam mengembangkan GSpeech Cloud Console adalah merancang arsitektur yang dapat diskalakan untuk generasi audio AI waktu nyata, aman, dan berkualitas tinggi. Ini memerlukan solusi inovatif untuk mengambil konten relevan dari web, memproses audio di server kami, dan menyimpannya di cloud untuk pengiriman yang cepat dan andal. Implementasi langkah-langkah keamanan yang kuat, seperti enkripsi dan kontrol akses, sangat penting untuk melindungi konten yang dihasilkan pengguna secara dinamis.
Hambatan lainnya adalah mengaktifkan terjemahan waktu nyata menggunakan mesin saraf canggih. Kami harus memastikan terjemahan yang akurat dengan latensi rendah sambil membangun antarmuka yang intuitif yang memungkinkan pengguna memilih bahasa dan profil suara yang disukai untuk pemutaran, memprioritaskan kenyamanan pengguna dan personalisasi. Akhirnya, kami mengembangkan pembuat template audio dengan beberapa tampilan pemutar yang dapat disesuaikan, memungkinkan pengguna untuk merancang pemutar unik yang menarik dan disesuaikan dengan situs web mereka. Menyeimbangkan fleksibilitas, kinerja, dan kemudahan penggunaan di seluruh perangkat adalah tantangan yang memuaskan.
Dengan terjemahan waktu nyata dalam 70+ bahasa dan lebih dari 230 suara yang terdengar alami. Bagaimana Anda memastikan kualitas suara dan mempertahankan akurasi di seluruh bahasa yang beragam?
Untuk mempertahankan kualitas suara yang konsisten, kami mengintegrasikan beberapa model text-to-speech (TTS) canggih yang terus dioptimalkan dan diperbarui. Mesin multibahasa ini menangani konten bahasa campuran dengan akurasi tinggi. Kami juga merilis lebih dari 100 getaran suara baru untuk memberi pengguna lebih banyak pilihan yang ekspresif dan terdengar alami. Setiap bulan, GSpeech menghasilkan lebih dari 200 juta karakter audio, melayani pengguna di lebih dari 70 negara, dengan pemutar online kami digunakan lebih dari 200.000 kali bulanan — dan terus tumbuh. Skala ini memastikan umpan balik yang berkelanjutan dan pengujian dunia nyata, yang secara langsung mempengaruhi penyetelan dan kontrol kualitas kami.
Apakah Anda bisa menjelaskan bagaimana GSpeech menggunakan AI dan pembelajaran mesin untuk menghasilkan sintesis suara yang sangat mirip dengan aslinya? Bagaimana Anda tetap mengikuti kemajuan pesat dalam teknologi suara saraf?
GSpeech menggunakan AI canggih dan pembelajaran mesin, mengintegrasikan beberapa model text-to-speech mutakhir untuk menghasilkan sintesis suara yang sangat mirip dengan aslinya. Model-model ini, yang dioptimalkan untuk naturalitas dan dukungan multibahasa, memproses input teks untuk menghasilkan audio berkualitas tinggi dengan intonasi dan irama yang realistis, bahkan untuk konten bahasa campuran. Kami meningkatkan pengalaman pengguna dengan menawarkan gaya suara yang dapat disesuaikan untuk bahasa yang beragam. Kami juga telah mengintegrasikan alias TTS, yang memungkinkan pengguna untuk mendefinisikan aturan kustom untuk bagaimana kata atau frasa tertentu dirender dalam audio — misalnya, menggantikan istilah tertentu untuk mencapai pengucapan atau frasa yang lebih akurat. Untuk tetap mengikuti teknologi suara saraf, kami terus mengevaluasi dan mengintegrasikan kemajuan terbaru, berkolaborasi dengan pemimpin industri, dan berencana untuk mengembangkan model proprietary di masa depan, memastikan GSpeech tetap berada di garis depan inovasi sintesis suara.
Seberapa pentingnya penyetelan suara, kontrol pitch, dan kustomisasi pemutaran bagi pengguna Anda — dan apa kasus penggunaan yang paling Anda banggakan di mana fitur-fitur ini benar-benar bersinar?
Penyetelan suara, kontrol pitch, dan kustomisasi pemutaran sangat penting bagi pengguna kami, memungkinkan mereka untuk membuat gaya suara unik yang disesuaikan dengan kebutuhan spesifik mereka, dari situs web berita dan blog hingga konten e-learning yang dapat diakses. Integrasi berkelanjutan dari lebih dari 100 getaran suara baru lebih lanjut meningkatkan ini, menawarkan pengguna fleksibilitas yang tidak terkalahkan untuk menciptakan voiceover yang benar-benar unik. Saya paling bangga dengan GSpeech Studio, platform pengeditan dan generasi audio baru yang saya kembangkan. Ini memungkinkan pengguna untuk membuat beberapa saluran audio, mencampurnya dengan musik latar, dan mengekspor voiceover yang ramping, memberdayakan pembuat untuk menghasilkan audio profesional untuk berbagai aplikasi. Surat dari seorang siswa yang memiliki keterbatasan visual, mengucapkan terima kasih kepada GSpeech karena memungkinkan mereka untuk belajar secara mandiri melalui audio yang disesuaikan, sangat menyentuh hati saya. Kasus penggunaan ini menunjukkan bagaimana fitur-fitur ini membuat konten lebih dapat diakses dan transformatif, sebuah tujuan yang saya kejar sejak hari-hari pemrograman awal saya.
GSpeech menawarkan integrasi yang mulus dengan WordPress, Shopify, Wix, dan lain-lain. Apa strategi Anda untuk membuat platform ini plug-and-play bagi pembuat dan bisnis di seluruh ekosistem yang berbeda?
Strategi kami untuk integrasi GSpeech yang plug-and-play dengan platform seperti WordPress, Shopify, dan Wix berfokus pada kesederhanaan, kompatibilitas, dan skalabilitas. Kami mengembangkan plugin dan potongan kode yang ringan dan modular yang terintegrasi dengan mulus, memerlukan pengaturan minimal—seringkali hanya beberapa klik. Ini berarti bahwa ribuan artikel dan blok konten dinamis dapat segera mendapatkan dukungan suara — tanpa usaha manual. Kami menawarkan pemutar yang sangat fleksibel dan dirancang dengan indah yang menyesuaikan diri di seluruh perangkat, termasuk mobile, tablet, dan desktop. Pemutar kami tidak hanya dapat disesuaikan tetapi juga dioptimalkan untuk aksesibilitas dan keterlibatan pengguna. Untuk WordPress, kami menyematkan dasbor GSpeech langsung ke panel admin melalui plugin kami, memudahkan pengelolaan untuk pengguna. Dokumentasi terperinci dan dasbor yang intuitif membantu pengguna non-teknis melalui proses instalasi dan kustomisasi. Pengujian reguler memastikan kinerja konsisten di seluruh ekosistem yang beragam, memberdayakan pembuat dan bisnis untuk menambahkan text-to-speech yang ditenagai AI dengan mudah.
Mengingat kembali perjalanan dari 2012 hingga hari ini, apa yang menjadi tonggak terbesar bagi Anda secara pribadi atau profesional dalam membangun GSpeech?
Tonggak terbesar untuk GSpeech adalah menghasilkan 1 miliar karakter audio berkualitas tinggi, menunjukkan dampak global kami pada aksesibilitas. Sama-sama bermakna telah menjadi umpan balik yang kami terima dari organisasi seperti Humanity Union, yang memuji GSpeech karena meningkatkan platform tanggung jawab sosial mereka, dan dari pemilik blog yang menyebutnya “pembuat perbedaan” untuk keterlibatan pengguna. Lebih dari 110 ulasan lima bintang di seluruh platform seperti WordPress dan AppSumo dalam beberapa bulan terakhir mencerminkan kepercayaan yang tumbuh ini.
GSpeech sekarang juga secara aktif digunakan oleh Departemen Statistik Regional Namangan di Uzbekistan — sebuah lembaga pemerintah dengan lalu lintas yang signifikan dan visibilitas tingkat nasional. Melihat badan publik mengadopsi teknologi kami dengan begitu luas telah menjadi tonggak yang bermakna dan tanda kepercayaan yang kuat dalam solusi kami.
Sebagai seorang Kristen dan seseorang yang melayani di Gereja Armenia, saya juga berusaha untuk mendukung inisiatif berbasis iman lainnya kapan pun memungkinkan. Saya sering menawarkan GSpeech secara gratis kepada situs web Kristen sebagai cara untuk membantu menyebarkan pesan mereka lebih efektif dan membuat Kitab Suci lebih dapat diakses melalui audio. Ini adalah kontribusi kecil saya pada sesuatu yang lebih besar. Pada saat yang sama, saya merasa terhormat untuk bekerja dengan kementerian yang berdedikasi seperti The Cord — sebuah kongregasi Mesianik dan klien GSpeech yang berharga — yang misi dan kontennya mencerminkan kekuatan Kitab Suci dalam aksi.
Momen-momen ini — ketika teknologi menjadi jembatan untuk iman, pemahaman, dan inklusivitas — mengingatkan saya mengapa kami membangun GSpeech dari awal.
Apa peran yang Anda lihat GSpeech mainkan dalam masa depan media digital, terutama karena konten audio dan antarmuka suara menjadi lebih dominan?
Saya membayangkan GSpeech sebagai pemimpin dalam membuat media digital lebih dapat diakses dan menarik dengan mengaktifkan akses suara yang ditenagai AI ke web. Tujuan kami adalah untuk mengubah pengalaman online secara keseluruhan, sehingga situs web menjadi secara alami interaktif suara, inklusif, dan multibahasa secara default. Dengan hanya satu baris kode, pemilik situs dapat mengubah ribuan artikel menjadi konten yang diaktifkan suara. Menatap ke depan, kami mengembangkan GSpeech Studio menjadi platform unik dan kuat untuk generasi dan pengeditan audio, memungkinkan pengguna untuk membuat konten suara multilapis dengan musik latar, efek, dan penyetelan presisi. Kami ingin membuat web menjadi benar-benar dapat didengar, intuitif, dan dapat diakses secara universal.
GSpeech baru-baru ini diluncurkan di AppSumo dan telah mendapatkan peringkat hampir sempurna dari pengadopsi awal. Apa yang menjadi respons dari komunitas AppSumo bagi Anda, dan bagaimana Anda berencana untuk memanfaatkan momentum ini ke depan?
Peluncuran AppSumo memperkenalkan GSpeech kepada jutaan orang, dan peringkat hampir sempurna sangat menguatkan. Pengguna, seperti mereka yang menjalankan kursus online, memuji alat kami yang intuitif dan dukungan responsif, mengulangi umpan balik dari Humanity Union. Seorang pemilik blog menyebut suara kami “benar-benar menarik” dan terjemahan “mengesankan”. Umpan balik positif mereka mengkonfirmasi nilai solusi text-to-speech yang ditenagai AI kami dan memicu semangat saya untuk proyek ini. Mendukung klien selama peluncuran juga memicu ide-ide baru, terutama untuk GSpeech Studio, yang terinspirasi oleh permintaan pengguna untuk fitur pengeditan audio lanjutan dan ekspor. Ke depan, saya berencana untuk memanfaatkan momentum ini dengan mendengarkan secara aktif komunitas kami, mengintegrasikan umpan balik mereka, dan mengembangkan fitur inovatif untuk meningkatkan aksesibilitas dan keterlibatan, memastikan GSpeech terus berkembang sebagai alat transformatif bagi pembuat dan bisnis.
Akhirnya, apa saran yang Anda berikan kepada pengembang muda atau wirausaha yang ingin membangun alat yang dapat diakses dan ditenagai AI di lanskap teknologi yang bergerak cepat saat ini?
Untuk pengembang muda dan wirausaha, saran saya adalah untuk menuangkan hati Anda ke dalam pekerjaan Anda dan mengidentifikasi masalah nyata di mana Anda dapat menawarkan solusi yang unik dan cerdas. Mulailah dari yang kecil, ambil langkah-langkah yang stabil ke depan, dan dengarkan umpan balik pelanggan dengan saksama — mereka akan memandu jalur Anda. Perlakukan pengguna Anda seperti teman tepercaya, berikan yang terbaik, dan tetap sabar. Terimalah teknologi AI sebagai sekutu yang kuat; ketika digunakan dengan bijak, mereka memperkuat kemampuan Anda untuk menciptakan alat yang berdampak dan dapat diakses. Bangun dengan passion, ketekunan, dan komitmen untuk membuat perbedaan, dan Anda akan menciptakan solusi yang benar-benar berarti.
Terima kasih atas wawancara yang luar biasa, kami memilih solusi GSpeech untuk situs web kami karena integrasi yang mudah. Untuk mempelajari lebih lanjut, kunjungi GSpeech.












