Connect with us

Simon Poghosyan, GSpeech의 창립자 및 CEO – 인터뷰 시리즈

인터뷰

Simon Poghosyan, GSpeech의 창립자 및 CEO – 인터뷰 시리즈

mm

Simon PoghosyanGSpeech의 창립자이자 CEO입니다. GSpeech는 70개 이상의 언어로 자연스러운 음성으로 텍스트를 변환하여 온라인 콘텐츠를 더 접근하기 쉽게 만드는 웹 기반 AI 플랫폼입니다. VLSI 디자인을 배경으로 프로그래밍과 사용자 경험에 대한 강한 관심을 가지고 있는 Simon은 웹사이트가 음성 콘텐츠를 제공하는 방식을 단순화하기 위해 GSpeech를 만들었습니다.

오늘날, GSpeech는 매월 약 2억 개의 문자를 음성으로 변환하며 70개 이상의 국가에서 사용되고 있습니다. 또한, 매월 20만 회 이상 재생되는 사용자 지정 오디오 플레이어를 제공합니다. 총 10억 개의 문자를 음성으로 변환한 이후, GSpeech는 빠르게 성장하고 있습니다. 이 플랫폼은 단일 줄의 코드만으로 쉽게 통합할 수 있으며, 생성자, 교육자, 비즈니스에게 콘텐츠를 더 포함적이고 흥미롭게 만들 수 있는 기능을 제공합니다.

GSpeech는 또한 모든 영어 페이지에서 사용되며, 이 기사를 듣고 GSpeech가 얼마나 잘 수행하는지 확인하려면 재생 버튼을 클릭할 수 있습니다.

VLSI 디자인(대규모 집적 회로) 배경과 초기 프로그래밍 경험은 강한 기술적 기초를 제공했습니다. 미세 전자 회로에서 AI 기반 소프트웨어 개발로의 전환은 무엇이었나요? 그리고 그것은 어떻게 GSpeech의 창안으로 이어졌나요?

문제 해결에 대한 나의 열정은 고등학교 시절부터 시작되었으며, 수학과 물리학에 대한 사랑에서 비롯되었습니다. 그 관심은 나에게 아르메니아 국립 공과 대학에서 Synopsys 아르메니아와의 협력을 통해 VLSI 디자인 분야에서 학사(2009)와 석사(2011) 학위를 취득하게 되었습니다. 물리학을 공부하는 동안 나는 정밀성과 분석적 사고에 대한 훈련을 받았으며, 2학년 때 프로그래밍을 발견했으며, 즉시 그것에 매료되었습니다. 파스칼 언어로 시작하여, 나와 내 친구는 과제를 받은 즉시 완료했습니다. 그리고 그 후에, 우리는 다른 학생들의 과제도 수행하기 시작했습니다.

이 열정은 나로 하여금 소프트웨어 개발을 더 깊이 연구하게 만들었습니다. 나는 웹사이트 생성부터 시작하여, 나만의 CMS를 구축했습니다. 여러 프로세스 자동화 프로젝트와 데이터 관리 아키텍처를 설계한 후, 나는 디지털 솔루션을 웹 인터페이스에 구축하는 것을 얼마나 좋아하는지 깨달았습니다. 2GLux 프로젝트를 통해, 나는 Quant Gymnasium의同学이자 인기 있는 GTranslate 번역 서비스의 창안자인 Edvard Ananyan과 협력했습니다. 그는 나에게 WordPress와 Joomla 생태계를 소개했으며, GSpeech의 개념은 그와 함께 시작되었습니다. 초기 작업은 사용자가 웹페이지의 텍스트를 듣는 것을 가능하게 하는 첫 번째 버전의 도구를 만들게 되었습니다. 2023년까지, 나는 Smarts Club LLC를 설립하여 GSpeech를 70개 이상의 언어를 지원하는 글로벌 AI 오디오 솔루션으로 확장했습니다. Humanity Union의 GSpeech에 대한 평가에서 그들의 시민 참여 플랫폼의 접근성을 향상시킨 역할을 인정받았으며, 이는 나의 초기 프로그래밍 날로부터 시작된 디지털 격차를弥合하는 AI 비전을 반영합니다.

GSpeech는最初 시각 장애인 사용자를 지원하는 도구로 시작되었습니다. 초기 미션은 어떻게 플랫폼의 발전을影响했나요?

접근성에 대한 초점은 높은 품질의 실시간 AI 오디오, 70개 이상의 언어로의 번역, 및 웹사이트와의 무결한 통합을 위한 단순한 코드 스니펫을 개발하게 되었습니다. 이 미션은 사용자 지정 오디오 플레이어, 언어 및 음성 선택 패널, 상황 인식 재생, 오디오 다운로드, 및詳細한 사용 통계(국가, 도시, 장치 데이터, 및 재생 분석)를 포함하여 콘텐츠를 더 포함적이고 흥미롭게 만들기 위한 기능을 제공했습니다. 10만 줄이 넘는 코드를 작성한 후, 나는 2023년에 GSpeech Cloud Console을 출시했습니다. 이는 포함성과 고급 기능을 균형 있게 제공하는 확장 가능한 솔루션으로, 비즈니스와 생성자에게 콘텐츠를 더 접근하기 쉽게 만들고, 다국어 및 상호 작용 가능한 콘텐츠를 제공할 수 있습니다.

GSpeech Cloud Console의 개발过程에서遇到的 가장 큰 기술적 도전은 무엇이었나요?

GSpeech Cloud Console을 개발하면서遇到的 가장 큰 도전은 실시간, 보안, 높은 품질의 AI 오디오 생성을 위한 확장 가능한 아키텍처를 설계하는 것이었습니다. 이는 웹에서 관련 콘텐츠를 가져오기, 서버에서 오디오를 처리하기, 및 클라우드에서 빠르고 신뢰할 수 있는 전달을 위해 저장하는 데 혁신적인 솔루션이 필요했습니다. 강력한 보안 조치를 구현하는 것도 중요했습니다. 예를 들어, 암호화 및 접근 제어를 통해 동적, 사용자 생성 콘텐츠를 보호했습니다.

또 다른障壁은 고급 신경 엔진을 사용하여 실시간 번역을 구현하는 것이었습니다. 우리는 낮은 지연 시간, 정확한 번역을 보장해야 했으며, 사용자에게 언어 및 재생을 위한 선호도 음성 프로필을 선택할 수 있는 직관적인 인터페이스를 제공해야 했습니다. 사용자 편의성과 개인화를 우선시했습니다. 마지막으로, 우리는 사용자 지정 오디오 플레이어 뷰를 포함하는 오디오 템플릿 생성 마법사를 개발했습니다. 이는 사용자가 웹사이트에 맞게 고유한, 시각적으로 매력적인 플레이어를 설계할 수 있게 해줍니다. 유연성, 성능, 및 사용 편의성을 모든 기기에서 균형 있게 유지하는 것은 보람 있는 도전이었습니다.

70개 이상의 언어로 실시간 번역 및 230개 이상의 자연스러운 음성을 제공합니다. 어떻게 음성 품질을 유지하고, 다양한 언어 세트에서 정확성을 유지합니까?

일관된 음성 품질을 유지하기 위해, 우리는 지속적으로 최적화 및 업데이트되는 여러 고급 텍스트-음성(TTS) 모델을 통합합니다. 이러한 다국어 엔진은 높은 정확도로 混合 언어 콘텐츠를 처리합니다. 우리는 사용자에게 더 표현적이고 자연스러운 선택肢을 제공하기 위해 100개 이상의 새로운 음성을 출시하고 있습니다. 매월, GSpeech는 2억 개 이상의 문자를 음성으로 변환하며, 70개 이상의 국가에서 사용되며, 온라인 플레이어가 매월 20만 회 이상 재생됩니다. 이는 지속적인 피드백 및 실제 테스트를 제공하며, 이는 직접 품질 관리 및 조정에 영향을 미칩니다.

GSpeech가 AI 및 기계 학습을 활용하여 생생한 음성 합성을 제공하는 방법에 대해 설명해 주십시오. 신경 음성 기술의 빠른 발전에 어떻게 대응합니까?

GSpeech는 생생한 음성 합성을 생성하기 위해 고급 AI 및 기계 학습을 사용합니다. 이는 자연스럽고 다국어 지원을 최적화한 여러 최첨단 텍스트-음성 모델을 통합합니다. 이러한 모델은 텍스트 입력을 처리하여 높은 품질의 오디오를 생성하며, 실제 음조 및 리듬을 포함하여 混合 언어 콘텐츠에도 적용됩니다. 우리는 사용자에게 다양한 언어를 위한 사용자 지정 음성 스타일을 제공하여 사용자 경험을 향상시킵니다. 우리는 또한 TTS 별칭을 통합하여 사용자가 특정 단어나 구절이 음성으로 렌더링되는 방식을 정의할 수 있는 사용자 지정 규칙을 정의할 수 있습니다. 신경 음성 기술의 발전에 따라, 우리는 지속적으로 최신 기술을 평가 및 통합하며, 업계 리더와 협력하며, 향후 독자적인 모델을 개발할 계획입니다. 이를 통해 GSpeech는 음성 합성 혁신의 최전선에 위치할 수 있습니다.

음성 조정, 음고 제어, 및 재생 사용자 지정은 사용자에게 얼마나 중요한가요? 이러한 기능이真正로 빛나는 사용 사례는 무엇인가요?

음성 조정, 음고 제어, 및 재생 사용자 지정은 사용자에게 매우 중요합니다. 이는 뉴스 및 블로그 웹사이트와 같은 콘텐츠를 더 포함적이고 흥미롭게 만들 수 있는 고유한 음성 스타일을 생성할 수 있게 해줍니다. 100개 이상의 새로운 음성을 추가하는 것은 이러한 유연성을 더욱 강화합니다. 사용자에게真正로 고유한 음성 오버를 제작할 수 있는 능력을 제공합니다. 나는 GSpeech Studio를 개발하는 데 가장 자랑스럽습니다. 이는 사용자 지정 오디오 채널을 생성하고, 배경 음악과 혼합하여, 완성된 음성 오버를 내보내기 위한 플랫폼입니다. 이는 생성자에게 전문가급 오디오를 다양한 응용 분야에 제공할 수 있는 능력을 제공합니다. 시각 장애인 학생의 편지는 GSpeech가 독립적인 학습을 가능하게 해줬다는 내용으로, 이는 이러한 기능이 콘텐츠를 접근하기 쉽게 만들고, 변혁적으로 만들 수 있는 목표를 보여줍니다.

GSpeech는 WordPress, Shopify, Wix 등과 같은 플랫폼과 無縫한 통합을 제공합니다. 생성자와 비즈니스에게 다양한 생태계에서 플랫폼을 플러그 앤 플레이로 만드는 전략은 무엇인가요?

우리의 전략은 단순성, 호환성, 및 확장성을 중시했습니다. 우리는 설정이 최소화된 경량, 모듈식 플러그인 및 코드 스니펫을 개발했습니다. 이는 사용자에게 즉각적인 음성 지원을 제공할 수 있습니다. 사용자 지정 플레이어는 다양한 기기에서 최적화되어 있으며, 접근성과 사용자 참여를 중시합니다. WordPress의 경우, 우리는 플러그인을 통해 관리자 패널에 GSpeech 클라우드 대시보드를 직접 포함시킵니다. 이는 사용자에게 관리를 간소화합니다. 자세한 문서와 직관적인 대시보드는 비기술적 사용자에게 설치 및 사용자 지정 과정을 안내합니다. 정기적인 테스트는 다양한 생태계에서 일관된 성능을 보장하며, 생성자와 비즈니스에게 AI 기반 텍스트-음성 기능을 쉽게 추가할 수 있습니다.

2012년부터 오늘까지, GSpeech를 구축하면서 개인적 또는 전문적으로 가장 큰 이정표는 무엇인가요?

GSpeech의 가장 큰 이정표는 10억 개의 문자를 음성으로 변환하여 글로벌 접근성을 보여준 것입니다. Humanity Union의 평가와 블로그 소유자의 피드백도 의미가 있습니다. 110개 이상의 5성급 리뷰는 WordPress와 AppSumo에서 확인할 수 있습니다. 이러한 리뷰는 사용자들의 신뢰를 반영하며, 이는 초기 프로그래밍 날로부터 시작된 디지털 격차를弥合하는 비전을 반영합니다.

GSpeech는 또한 우즈베키스탄의 Namangan 지역 통계청과 같은 정부 기관에서 활발히 사용되고 있습니다. 이는 국가적인 수준의 가시성을 제공하며, 이는 의미 있는 이정표입니다. 또한, 나는 기독교 웹사이트에 GSpeech를 무료로 제공하여 성경을 더 접근하기 쉽게 만들고, 음성으로 듣게 할 수 있습니다. 이는 더 큰 목적에 대한 나의 작은 기여입니다.

GSpeech는 디지털 미디어의 미래, 특히 오디오 콘텐츠와 음성 인터페이스가 더 지배적이 되는 상황에서 어떤 역할을 할 것이라고 생각합니까?

나는 GSpeech가 디지털 미디어를 더 접근하기 쉽게 만들고, 흥미롭게 만들기 위해 AI 기반 음성 접근을 가능하게 할 것으로 생각합니다. 우리의 목표는 웹사이트가 기본적으로 음성 인터랙티브, 포함적, 및 다국어가 되도록 하는 것입니다. 단일 줄의 코드만으로, 사이트 소유자는 수천 개의 기사를 음성 콘텐츠로 변환할 수 있습니다. 앞으로, 우리는 GSpeech Studio를 고유한 오디오 생성 및 편집 플랫폼으로 개발할 계획입니다. 이는 사용자에게 배경 음악, 효과, 및 정교한 조정을 포함하는 다중 레이어 오디오 콘텐츠를 생성할 수 있는 능력을 제공합니다. 우리는 웹을真正로 들을 수 있게 만들고, 직관적이고, 보편적으로 접근하기 쉽게 만들고자 합니다.

GSpeech는 최근 AppSumo에 출시되었습니다. 초기 사용자로부터 거의 완벽한 등급을 받았습니다. AppSumo 커뮤니티의 반응은 무엇이었나요? 어떻게 이 동력을 바탕으로 앞으로 나아갈 계획인가요?

AppSumo 출시를 통해 GSpeech는 수백만 명에게 소개되었습니다. 초기 사용자로부터 거의 완벽한 등급을 받은 것은 매우 긍정적인 반응입니다. 사용자들은 직관적인 도구와 반응적인 지원에 대한 칭찬을 했습니다. 이는 Humanity Union의 평가와 일치합니다. 블로그 소유자는 우리의 음성을 “진정으로 매력적”이라고 표현했으며, 번역은 “인상적”이라고 했습니다. 이러한 긍정적인 피드백은 우리의 AI 기반 텍스트-음성 솔루션의 가치를 확인하며, 프로젝트에 대한 나의 열정을 더욱 강화합니다. 출시 기간 동안 고객을 지원하는 과정에서 새로운 아이디어가 생겼습니다. 특히, 사용자 요청에 따라 고급 오디오 편집 및 내보내기 기능을 포함하는 GSpeech Studio를 개발하게 되었습니다. 앞으로, 나는 커뮤니티의 피드백을 적극적으로 듣고, 이를 통합하여, 접근성 및 참여도를 향상시키는 혁신적인 기능을 개발할 계획입니다. 이를 통해 GSpeech는 생성자와 비즈니스에게 변혁적인 도구로 계속 발전할 수 있습니다.

마지막으로, 오늘날 빠르게 변화하는 기술 환경에서 접근 가능한 AI 기반 도구를 구축하려는 젊은 개발자 또는 기업가에게 조언을 구한다면 무엇인가요?

젊은 개발자와 기업가에게 조언을 드리자면, 진정한 문제를 식별하고, 고유한 솔루션을 제공하려고 노력해야 합니다. 작은 단계부터 시작하여, 고객의 피드백을 внимательно 듣고, 사용자에게 진심으로 서비스를 제공하려고 노력해야 합니다. 기술을 강력한 동맹군으로 활용하십시오. 이를 통해 접근 가능한 도구를 만들 수 있습니다. 열정, 인내, 및 차이를 만들기 위한 헌신으로 구축하십시오. 그러면 의미 있는 솔루션을 만들 수 있습니다.

우수한 인터뷰에 감사합니다. 우리는 쉽게 통합할 수 있는 GSpeech 솔루션을 선택했습니다. 더 자세한 정보는 GSpeech를 방문하세요.

앙투안은 Unite.AI의 비전있는 리더이자 공동 창립자로서, AI와 로봇공학의 미래를 형성하고 촉진하는 데 대한 불변의 열정에 의해 추동됩니다. 연쇄적인 기업가로서, 그는 AI가 사회에 대한 전기와 같은 파괴력을 가질 것이라고 믿으며, 종종 파괴적인 기술과 AGI의 잠재력에 대해 열광합니다.

作为 futurist, 그는 이러한 혁신이 우리의 세계를 어떻게 형성할지 탐구하는 데 전념하고 있습니다. 또한, 그는 Securities.io의 창립자로서, 미래를 재정의하고 전체 부문을 재형성하는 최첨단 기술에 투자하는 플랫폼입니다.