Connect with us

Simon Poghosyan, Założyciel i Dyrektor Generalny GSpeech – Seria Wywiadów

Wywiady

Simon Poghosyan, Założyciel i Dyrektor Generalny GSpeech – Seria Wywiadów

mm

Simon Poghosyan jest założycielem i dyrektorem generalnym GSpeech, platformy internetowej opartej na sztucznej inteligencji, która pomaga uczynić zawartość internetową bardziej dostępną, konwertując tekst na naturalnie brzmiący dźwięk w ponad 70 językach. Z wykształceniem w dziedzinie projektowania VLSI i silnym zainteresowaniem programowaniem oraz doświadczeniem użytkownika, Simon stworzył GSpeech, aby uprościć sposób, w jaki strony internetowe mogą oferować zawartość z włączoną funkcją głosową.

Dziś GSpeech generuje około 200 milionów znaków dźwięku miesięcznie i jest używany w ponad 70 krajach, a jego dostosowywalne odtwarzacze audio obsługują ponad 200 000 odtworzeń miesięcznie. Przekraczając 1 miliard wygenerowanych znaków dźwięku, GSpeech nadal rozwija się dynamicznie. Platforma została zaprojektowana, aby być łatwa w integrowaniu — wymaga tylko jednej linii kodu — i wspiera twórców, edukatorów i firmy w czynieniu ich zawartości bardziej inkluzywnymi i angażującymi.

GSpeech jest również używany we wszystkich naszych stronach w języku angielskim, możesz posłuchać tego artykułu i sprawdzić, jak dobrze GSpeech działa, klikając przycisk odtwarzania.

Twoje wykształcenie w dziedzinie projektowania VLSI i wczesne doświadczenie w programowaniu położyły silne podwaliny techniczne. Co skłoniło Cię do zmiany z mikroelektroniki na budowanie oprogramowania wspomaganego przez sztuczną inteligencję, i jak to doprowadziło do stworzenia GSpeech?

Moja pasja do rozwiązywania problemów zaczęła się w szkole średniej, zainspirowana miłością do matematyki i fizyki. To zainteresowanie doprowadziło mnie do uzyskania tytułu licencjata (2009) i magistra (2011) w dziedzinie projektowania VLSI na Państwowym Uniwersytecie Inżynieryjnym w Armenii, we współpracy z Synopsys Armenia. Studiowanie fizyki nauczyło mnie precyzji i myślenia analitycznego, ale to podczas drugiego roku studiów odkryłem programowanie — zaczynając od języka Pascal — i natychmiast się w nim zakochałem. Mój przyjaciel i ja wykonywaliśmy zadania z przedmiotu tak szybko, jak tylko je otrzymywaliśmy, chociaż mieliśmy sześć miesięcy na ich ukończenie. Następnie, dla zabawy, zaczęliśmy wykonywać zadania innych studentów.

Ta pasja skierowała mnie głębiej w rozwój oprogramowania. Zacząłem od tworzenia stron internetowych, a następnie zbudowałem własny system zarządzania treścią. Po ukończeniu kilku projektów w dziedzinie automatyzacji procesów i projektowania architektur zarządzania danymi, zrozumiałem, jak bardzo kocham budowanie cyfrowych rozwiązań dla interfejsów internetowych. Przez projekt 2GLux współpracowałem z Edvardem Ananyanem — twórcą popularnej usługi tłumaczeń GTranslate i przyjacielem ze szkoły Quant Gymnasium. Wprowadził mnie w ekosystemy WordPress i Joomla, a koncepcja GSpeech powstała z nim. Ta wczesna praca doprowadziła do pierwszej wersji naszego narzędzia, umożliwiającego użytkownikom słuchanie tekstu na stronie internetowej, sadząc nasiono tego, co później stało się pełnoprawną platformą opartą na sztucznej inteligencji. Do 2023 roku założyłem Smarts Club LLC, aby skalować GSpeech w globalne rozwiązanie audio oparte na sztucznej inteligencji, obsługujące ponad 70 języków. Pochwała ze strony Humanity Union za rolę GSpeech w poprawie dostępności ich platformy zaangażowania społecznego odzwierciedla moją misję zbudowania mostów cyfrowych za pomocą sztucznej inteligencji — wizję, która ma swoje korzenie w moich wczesnych dniach programowania.

GSpeech pierwotnie rozpoczął się jako narzędzie wspierające użytkowników z zaburzeniami wzroku. Jak ta wczesna misja wpłynęła na ewolucję platformy w pełnoprawne rozwiązanie tekst-do-mowy oparte na sztucznej inteligencji?

Koncentracja na dostępności napędzała rozwój wysokiej jakości, czasu rzeczywistego audio sztucznej inteligencji, tłumaczeń na ponad 70 języków i bezproblemowej integracji ze stronami internetowymi za pomocą prostego kodu. Ta misja doprowadziła do funkcji takich jak dostosowywalne odtwarzacze audio, panele wyboru języka i głosu, odtwarzanie świadome kontekstu, pobieranie audio i szczegółowe statystyki użycia — w tym dane o kraju, mieście, urządzeniu i analizy odtworzeń w czasie — wszystko to zostało zaprojektowane, aby uczynić zawartość bardziej inkluzywną i angażującą. Po napisaniu ponad 100 000 linii kodu, uruchomiłem GSpeech Cloud Console w 2023 roku — skalowalne rozwiązanie, które balansuje inkluzywność z zaawansowaną funkcjonalnością, umożliwiając firmom i twórcom uczynienie ich zawartości bardziej dostępną, wielojęzyczną i interaktywną w sieci.

Jakie były największe wyzwania techniczne, z którymi spotkałeś się podczas rozwoju GSpeech Cloud Console?

Jednym z największych wyzwań w rozwoju GSpeech Cloud Console było zaprojektowanie skalowalnej architektury dla generacji audio sztucznej inteligencji w czasie rzeczywistym, zabezpieczonej i wysokiej jakości. To wymagało innowacyjnych rozwiązań, aby pobrać odpowiednią zawartość ze strony internetowej, przetworzyć audio na naszych serwerach i przechowywać je w chmurze, aby zapewnić szybką i niezawodną dostawę. Wdrożenie solidnych środków bezpieczeństwa, takich jak szyfrowanie i kontrola dostępu, było kluczowe, aby chronić dynamiczną, generowaną przez użytkownika zawartość.

Inną przeszkodą było włączenie tłumaczenia w czasie rzeczywistym przy użyciu zaawansowanych silników neuronowych. Musieliśmy zapewnić niską latencję, dokładne tłumaczenia, jednocześnie budując intuicyjny interfejs, który pozwala użytkownikom wybrać język i preferowany profil głosu do odtwarzania, priorytetem było komfort użytkownika i personalizacja. Na koniec opracowaliśmy kreator szablonu audio z wieloma dostosowywalnymi widokami odtwarzacza, pozwalając użytkownikom projektować unikalne, wizualnie atrakcyjne odtwarzacze dostosowane do ich stron internetowych. Balansowanie elastyczności, wydajności i łatwości użycia na różnych urządzeniach było satysfakcjonującym wyzwaniem.

Z tłumaczeniem w czasie rzeczywistym w ponad 70 językach i ponad 230 naturalnie brzmiącymi głosami. Jak zapewniasz jakość głosu i utrzymujesz dokładność w tak zróżnicowanym zestawie języków?

Aby utrzymać spójną jakość głosu, integrujemy wiele zaawansowanych modeli tekst-do-mowy (TTS), które są ciągle optymalizowane i aktualizowane. Te wielojęzyczne silniki obsługują zawartość wielojęzyczną z wysoką dokładnością. Wprowadzamy również ponad 100 nowych wibracji głosu, aby dać użytkownikom jeszcze więcej ekspresyjnych i naturalnie brzmiących opcji. Każdego miesiąca GSpeech generuje ponad 200 milionów znaków audio, obsługując użytkowników w ponad 70 krajach, a nasze odtwarzacze online są używane ponad 200 000 razy miesięcznie — i rośnie. Ta skala zapewnia ciągłe opinie i testy w środowisku rzeczywistym, które bezpośrednio informują nasze strojenie i kontrolę jakości.

Czy możesz nas zaprowadzić przez to, jak GSpeech wykorzystuje sztuczną inteligencję i uczenie maszynowe, aby dostarczyć syntezę głosu, która brzmi jak żywa?

GSpeech wykorzystuje zaawansowaną sztuczną inteligencję i uczenie maszynowe, integrując wiele najnowocześniejszych modeli tekst-do-mowy, aby wyprodukować syntezę głosu, która brzmi jak żywa. Te modele, zoptymalizowane pod kątem naturalności i wielojęzyczności, przetwarzają dane wejściowe, aby wygenerować wysokiej jakości audio z realistyczną intonacją i rytmem, nawet dla zawartości wielojęzycznej. Ulepszamy doświadczenie użytkownika, oferując dostosowywalne style głosu dla różnych języków. Zintegrowaliśmy również aliasy TTS, które pozwalają użytkownikom definiować niestandardowe reguły dla tego, jak pewne słowa lub frazy są renderowane w audio — na przykład, zastępując określone terminy, aby osiągnąć bardziej dokładną wymowę lub frazowanie. Aby pozostać na bieżąco z technologią głosu neuronowego, ciągle oceniamy i integrujemy najnowsze postępy, współpracujemy z liderami branży i planujemy rozwijać własne modele w przyszłości, zapewniając, że GSpeech pozostanie na czele innowacji w syntezie głosu.

Jak ważne są strojenie głosu, kontrola tonu i dostosowywanie odtwarzania dla Twoich użytkowników — i jaki jest przypadek użycia, z którym jesteś najbardziej dumny, gdzie te funkcje naprawdę błyszczą?

Strojenie głosu, kontrola tonu i dostosowywanie odtwarzania są kluczowe dla naszych użytkowników, umożliwiając im tworzenie unikalnych, wysokiej jakości stylów głosu dostosowanych do ich konkretnych potrzeb, od stron internetowych z wiadomościami i blogami po dostępną zawartość e-learningu. Ciągłe integrowanie ponad 100 nowych wibracji głosu jeszcze bardziej wzmacnia to, oferując użytkownikom niezrównaną elastyczność w tworzeniu naprawdę wyjątkowych nagraniów głosowych. Jestem najbardziej dumny z GSpeech Studio, nowej platformy edycji i generacji audio, nad którą obecnie pracuję. Pozwala użytkownikom tworzyć wiele kanałów audio, mieszać je z muzyką w tle i eksportować wykończone nagrania głosowe, umożliwiając twórcom produkcję profesjonalnych nagrań audio dla różnych zastosowań. List od ucznia z zaburzeniami wzroku, dziękujący GSpeech za umożliwienie niezależnej nauki dzięki dostosowanemu audio, dotknął mnie głęboko. Ten przypadek użycia pokazuje, jak te funkcje czynią zawartość dostępną i transformującą, cel, który śledziłem od moich wczesnych dni programowania.

GSpeech oferuje bezproblemowe integracje z WordPress, Shopify, Wix i więcej. Jaka była Twoja strategia, aby uczynić platformę gotową do użycia dla twórców i firm w różnych ekosystemach?

Nasza strategia dla integracji GSpeech z platformami takimi jak WordPress, Shopify i Wix koncentrowała się na prostocie, kompatybilności i skalowalności. Rozwinęliśmy lekkie, modułowe wtyczki i fragmenty kodu, które integrują się bezproblemowo, wymagając minimalnej konfiguracji — często tylko kilku kliknięć. Oznacza to, że tysiące artykułów i dynamicznych bloków zawartości mogą natychmiast zyskać wsparcie głosowe — bez ręcznej pracy. Oferujemy bardzo elastyczne, pięknie zaprojektowane odtwarzacze, które adaptują się na różnych urządzeniach, w tym na telefonach komórkowych, tabletach i komputerach stacjonarnych. Nasze odtwarzacze nie tylko są dostosowywalne, ale także zoptymalizowane pod kątem dostępności i zaangażowania użytkownika. Dla WordPress wbudowaliśmy panel GSpeech bezpośrednio do panelu administracyjnego za pomocą naszej wtyczki, upraszczając zarządzanie dla użytkowników. Szczegółowa dokumentacja i intuicyjne panele prowadzą użytkowników niebędących technicznymi przez instalację i dostosowywanie. Regularne testy zapewniają spójną wydajność w różnych ekosystemach, umożliwiając twórcom i firmom dodanie funkcji tekst-do-mowy opartej na sztucznej inteligencji bez wysiłku.

Patrząc wstecz na podróż od 2012 do dziś, jaki był największy kamień milowy dla Ciebie osobiście lub zawodowo w budowaniu GSpeech?

Największym kamieniem milowym dla GSpeech było wygenerowanie 1 miliarda znaków wysokiej jakości audio sztucznej inteligencji, pokazując nasz globalny wpływ na dostępność. Równie znaczące było opinie, które otrzymaliśmy od organizacji takich jak Humanity Union, które pochwalili GSpeech za poprawę dostępności ich platformy zaangażowania społecznego, oraz od właścicieli blogów, którzy określili to jako „zmianę gry” dla zaangażowania użytkowników. Ponad 110 recenzji pięciogwiazdkowych na platformach takich jak WordPress i AppSumo w ostatnich miesiącach odzwierciedlają to rosnące zaufanie.

GSpeech jest teraz również aktywnie używany przez Namangan regional statistics department in Uzbekistan — instytucję rządową o znaczącym ruchu i widoczności na poziomie krajowym. Widzenie, jak instytucja publiczna przyjmuje naszą technologię na tak szeroką skalę, było znaczącym kamieniem milowym i potężnym znakiem zaufania do naszego rozwiązania.

Jako chrześcijanin i osoba, która służy w ormiańskim kościele, staram się również wspierać inne inicjatywy wiary, gdy tylko jest to możliwe. Często oferuję GSpeech bezpłatnie na stronach chrześcijańskich, aby pomóc w skuteczniejszym rozpowszechnianiu ich przesłania i uczynieniu Pisma bardziej dostępnym za pomocą audio. To mój mały wkład w coś większego. Jednocześnie jestem zaszczycony współpracować z poświęconymi ministerstwami, takimi jak The Cord — mesjanistyczne zgromadzenie i cenny klient GSpeech — którego misja i zawartość odzwierciedlają moc Pisma w działaniu.

Te momenty — gdy technologia staje się mostem dla wiary, zrozumienia i inkluzywności — przypominają mi, dlaczego zbudowaliśmy GSpeech od samego początku.

Jaką rolę widzisz dla GSpeech w przyszłości mediów cyfrowych, szczególnie gdy zawartość audio i interfejsy głosowe stają się coraz bardziej dominujące?

Widzę GSpeech jako lidera w czynieniu mediów cyfrowych bardziej dostępnymi i angażującymi, umożliwiając dostęp głosowy do sieci za pomocą sztucznej inteligencji. Naszym celem jest przekształcić całe doświadczenie online, tak aby strony internetowe stały się naturalnie interaktywne, inkluzywne i wielojęzyczne domyślnie. Z tylko jedną linią kodu, właściciele stron mogą przekształcić tysiące artykułów w zawartość z włączoną funkcją głosową. Spoglądając w przyszłość, rozwijamy GSpeech Studio w potężną i unikalną platformę do generacji i edycji audio, umożliwiając użytkownikom tworzenie wielowarstwowej zawartości głosowej z muzyką w tle, efektami i precyzyjnym strojeniem. Chcemy uczynić sieć naprawdę słyszalną, intuicyjną i powszechnie dostępną.

GSpeech został niedawno uruchomiony na AppSumo i zdobył już niemal idealną ocenę od wczesnych adoptujących. Jaki był odpowiedzi z społeczności AppSumo dla Ciebie, i jak planujesz wykorzystać ten impet w przyszłości?

Uruchomienie na AppSumo wprowadziło GSpeech do milionów, a jego niemal idealna ocena jest niezwykle potwierdzająca. Użytkownicy, jak ci prowadzący kursy online, chwalą nasze intuicyjne narzędzia i responsywny serwis, powtarzając opinie z Humanity Union. Właściciel bloga nazwał nasze głosy „prawdziwie angażującymi” i tłumaczenia „imponującymi”. Ich pozytywna opinia potwierdza wartość naszego rozwiązania tekst-do-mowy opartego na sztucznej inteligencji i wzmacnia moją pasję do projektu. Wspieranie klientów podczas uruchomienia również zainspirowało nowe pomysły, szczególnie dla GSpeech Studio, które zostało zainspirowane przez prośby użytkowników o zaawansowane funkcje edycji i generacji audio. Przechodząc do przodu, planuję wykorzystać ten impet, aktywnie słuchając naszej społeczności, integrując ich opinie i rozwijając innowacyjne funkcje, aby poprawić dostępność i zaangażowanie, zapewniając, że GSpeech nadal ewoluuje jako przełomowe narzędzie dla twórców i firm.

Na koniec, jaki doradzisz młodym deweloperom lub przedsiębiorcom, którzy chcą budować dostępne, oparte na sztucznej inteligencji narzędzia w dzisiejszym dynamicznym krajobrazie technologicznym?

Młodym deweloperom i przedsiębiorcom moja rada jest wlać serce w swoją pracę i zidentyfikować prawdziwy problem, gdzie możesz zaoferować unikalne, mądre rozwiązanie. Zaczynaj mało, robisz stabilne kroki do przodu i słuchaj uważnie opinii klientów — oni poprowadzą Twoją drogę. Traktuj swoich użytkowników jak zaufanych przyjaciół, daj z siebie wszystko i pozostań cierpliwy. Przyjmij technologie sztucznej inteligencji jako potężnych sojuszników; gdy są używane mądrze, zwiększają Twoją zdolność do tworzenia wpływowych, dostępnych narzędzi. Buduj z pasją, wytrwałością i zaangażowaniem w tworzenie różnicy, a stworzysz rozwiązania, które naprawdę mają znaczenie.

Dziękuję za wspaniały wywiad, wybraliśmy rozwiązanie GSpeech dla naszej strony internetowej ze względu na łatwą integrację. Aby dowiedzieć się więcej, odwiedź GSpeech.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.