Connect with us

Simon Poghosyan, Người sáng lập và Giám đốc điều hành của GSpeech – Loạt phỏng vấn

Phỏng vấn

Simon Poghosyan, Người sáng lập và Giám đốc điều hành của GSpeech – Loạt phỏng vấn

mm

Simon Poghosyan là người sáng lập và Giám đốc điều hành của GSpeech, một nền tảng AI dựa trên web giúp làm cho nội dung trực tuyến trở nên dễ tiếp cận hơn bằng cách chuyển đổi văn bản thành âm thanh tự nhiên trong hơn 70 ngôn ngữ. Với nền tảng về thiết kế VLSI và sự quan tâm mạnh mẽ đến lập trình và trải nghiệm người dùng, Simon đã tạo ra GSpeech để đơn giản hóa cách các trang web có thể cung cấp nội dung được kích hoạt bằng giọng nói.

Ngày nay, GSpeech tạo ra khoảng 200 triệu ký tự âm thanh mỗi tháng và được sử dụng trên 70 quốc gia, với các trình phát âm thanh tùy chỉnh của nó phục vụ hơn 200.000 lần phát mỗi tháng. Sau khi vượt qua 1 tỷ ký tự âm thanh được tạo ra tổng cộng, GSpeech tiếp tục phát triển nhanh chóng. Nền tảng này được thiết kế để dễ dàng tích hợp — chỉ cần một dòng mã — và hỗ trợ các nhà sáng tạo, giáo viên và doanh nghiệp trong việc làm cho nội dung của họ trở nên bao gồm và hấp dẫn hơn.

GSpeech cũng được sử dụng trên tất cả các trang tiếng Anh của chúng tôi, bạn có thể nghe bài viết này và xem GSpeech hoạt động như thế nào bằng cách nhấp vào nút phát.

Nền tảng VLSI Design (Tích hợp quy mô rất lớn) và kinh nghiệm lập trình sớm của bạn đã tạo ra một nền tảng kỹ thuật vững chắc. Điều gì đã truyền cảm hứng cho bạn chuyển từ vi điện tử sang xây dựng phần mềm được hỗ trợ bởi AI, và làm thế nào điều đó dẫn đến việc tạo ra GSpeech?

Đam mê giải quyết vấn đề của tôi bắt đầu từ trường trung học, được thúc đẩy bởi tình yêu đối với toán học và vật lý. Điều đó đã dẫn tôi đến việc kiếm được bằng Cử nhân (2009) và Thạc sĩ (2011) về thiết kế VLSI từ Đại học Kỹ thuật Nhà nước Armenia, hợp tác với Synopsys Armenia. Việc học vật lý đã đào tạo tôi về sự chính xác và tư duy phân tích, nhưng đó là trong năm thứ hai khi tôi khám phá ra lập trình — bắt đầu với ngôn ngữ Pascal — và ngay lập tức yêu thích nó. Bạn và tôi sẽ hoàn thành các nhiệm vụ khóa học ngay khi chúng tôi nhận được chúng, ngay cả khi chúng tôi có sáu tháng để hoàn thành. Sau đó, vì thú vị, chúng tôi bắt đầu làm các nhiệm vụ của các sinh viên khác.

Đam mê này đã dẫn tôi sâu vào phát triển phần mềm. Tôi bắt đầu với việc tạo trang web, sau đó xây dựng CMS của riêng mình. Sau khi hoàn thành một số dự án về tự động hóa quy trình và thiết kế kiến trúc quản lý dữ liệu, tôi nhận ra rằng tôi yêu thích xây dựng các giải pháp kỹ thuật số cho giao diện web. Thông qua dự án 2GLux, tôi đã hợp tác với Edvard Ananyan — người tạo ra dịch vụ dịch thuật phổ biến GTranslate và là bạn học cùng trường Quant Gymnasium. Anh ấy đã giới thiệu tôi đến hệ sinh thái WordPress và Joomla, và khái niệm về GSpeech đã bắt nguồn từ anh ấy. Công việc đầu tiên đó đã dẫn đến phiên bản đầu tiên của công cụ của chúng tôi, cho phép người dùng nghe văn bản trên một trang web, gieo hạt cho những gì sau này sẽ trở thành một nền tảng AI đầy đủ tính năng. Đến năm 2023, tôi đã thành lập Smarts Club LLC để mở rộng GSpeech thành một giải pháp âm thanh AI toàn cầu, hỗ trợ 70 ngôn ngữ. Lời khen ngợi của Humanity Union về vai trò của GSpeech trong việc nâng cao khả năng tiếp cận của nền tảng tham gia công dân của họ phản ánh sứ mệnh của tôi là bắc cầu các khoảng cách kỹ thuật số thông qua AI — một tầm nhìn có gốc rễ từ những ngày lập trình đầu tiên của tôi.

GSpeech ban đầu bắt đầu như một công cụ để hỗ trợ người dùng khiếm thị. Làm thế nào nhiệm vụ đầu tiên đó đã ảnh hưởng đến sự tiến hóa của nền tảng thành một giải pháp text-to-speech AI đầy đủ tính năng?

Tập trung vào khả năng tiếp cận đã thúc đẩy sự phát triển của âm thanh AI chất lượng cao, thời gian thực, dịch sang hơn 70 ngôn ngữ và tích hợp trang web liền mạch thông qua một mãsnippet đơn giản. Sứ mệnh này đã dẫn đến các tính năng như trình phát âm thanh tùy chỉnh, bảng chọn ngôn ngữ và giọng nói, phát lại nhận thức ngữ cảnh, tải xuống âm thanh và thống kê sử dụng chi tiết — bao gồm dữ liệu quốc gia, thành phố, thiết bị và phân tích phát lại theo thời gian — tất cả đều được thiết kế để làm cho nội dung trở nên bao gồm và hấp dẫn hơn. Sau khi viết hơn 100.000 dòng mã, tôi đã ra mắt GSpeech Cloud Console vào năm 2023 — một giải pháp có thể mở rộng, cân bằng giữa khả năng tiếp cận và chức năng tiên tiến, cho phép các doanh nghiệp và nhà sáng tạo làm cho nội dung của họ trở nên dễ tiếp cận, đa ngôn ngữ và tương tác trên toàn web.

Những thách thức kỹ thuật lớn nhất bạn đã gặp phải trong quá trình phát triển GSpeech Cloud Console là gì?

Một trong những thách thức lớn nhất trong việc phát triển GSpeech Cloud Console là thiết kế một kiến trúc có thể mở rộng cho việc tạo âm thanh AI chất lượng cao, thời gian thực và bảo mật. Điều này đòi hỏi các giải pháp sáng tạo để lấy nội dung liên quan từ web, xử lý âm thanh trên máy chủ của chúng tôi và lưu trữ nó trên đám mây để phân phối nhanh chóng và đáng tin cậy. Việc thực hiện các biện pháp bảo mật mạnh mẽ, như mã hóa và kiểm soát truy cập, là rất quan trọng để bảo vệ nội dung được tạo động bởi người dùng.

Một chướng ngại vật khác là việc kích hoạt dịch thuật thời gian thực bằng các động cơ thần kinh tiên tiến. Chúng tôi phải đảm bảo dịch thuật chính xác và thấp độ trễ trong khi xây dựng một giao diện trực quan cho phép người dùng chọn ngôn ngữ và hồ sơ giọng nói yêu thích của họ để phát lại, ưu tiên sự thoải mái và cá nhân hóa của người dùng. Cuối cùng, chúng tôi đã phát triển một công cụ tạo mẫu âm thanh với nhiều chế độ xem trình phát tùy chỉnh, cho phép người dùng thiết kế các trình phát độc đáo, hấp dẫn về mặt hình ảnh được tùy chỉnh cho các trang web của họ. Việc cân bằng giữa tính linh hoạt, hiệu suất và sự dễ sử dụng trên các thiết bị là một thách thức thú vị.

Với dịch thuật thời gian thực trong hơn 70 ngôn ngữ và hơn 230 giọng nói nghe tự nhiên. Bạn đảm bảo chất lượng giọng nói và duy trì độ chính xác trên một tập hợp ngôn ngữ đa dạng như thế nào?

Để duy trì chất lượng giọng nói nhất quán, chúng tôi tích hợp nhiều mô hình text-to-speech (TTS) tiên tiến được tối ưu hóa và cập nhật liên tục. Những động cơ đa ngôn ngữ này xử lý nội dung ngôn ngữ hỗn hợp với độ chính xác cao. Chúng tôi cũng đang triển khai hơn 100 rung động giọng nói mới để cung cấp cho người dùng nhiều lựa chọn tự nhiên và biểu cảm hơn. Mỗi tháng, GSpeech tạo ra hơn 200 triệu ký tự âm thanh, phục vụ người dùng ở hơn 70 quốc gia, với các trình phát trực tuyến của chúng tôi được sử dụng hơn 200.000 lần mỗi tháng — và đang tăng. Quy mô này đảm bảo phản hồi và thử nghiệm trong thế giới thực liên tục, điều này trực tiếp thông báo cho việc điều chỉnh và kiểm soát chất lượng của chúng tôi.

Bạn có thể giải thích cách GSpeech tận dụng AI và học máy để cung cấp tổng hợp giọng nói giống như đời thực không? Bạn theo dõi những tiến bộ nhanh chóng trong công nghệ giọng nói thần kinh như thế nào?

GSpeech sử dụng AI và học máy tiên tiến, tích hợp nhiều mô hình text-to-speech hiện đại để tạo ra tổng hợp giọng nói giống như đời thực. Những mô hình này, được tối ưu hóa cho tính tự nhiên và hỗ trợ đa ngôn ngữ, xử lý các đầu vào văn bản để tạo ra âm thanh chất lượng cao với ngữ điệu và nhịp điệu thực tế, ngay cả đối với nội dung ngôn ngữ hỗn hợp. Chúng tôi nâng cao trải nghiệm người dùng bằng cách cung cấp các phong cách giọng nói tùy chỉnh cho các ngôn ngữ đa dạng. Chúng tôi cũng đã tích hợp các bí danh TTS, cho phép người dùng định nghĩa các quy tắc tùy chỉnh về cách một số từ hoặc cụm từ được hiển thị trong âm thanh — ví dụ, thay thế các thuật ngữ cụ thể để đạt được phát âm hoặc cụm từ chính xác hơn. Để theo kịp công nghệ giọng nói thần kinh, chúng tôi liên tục đánh giá và tích hợp những tiến bộ mới nhất, hợp tác với các nhà lãnh đạo trong ngành và dự định sẽ phát triển các mô hình độc quyền trong tương lai, đảm bảo GSpeech vẫn ở vị trí hàng đầu trong lĩnh vực tổng hợp giọng nói.

Điều chỉnh giọng nói, kiểm soát âm cao và tùy chỉnh phát lại có quan trọng như thế nào với người dùng của bạn — và trường hợp sử dụng mà bạn tự hào nhất mà các tính năng này thực sự tỏa sáng?

Điều chỉnh giọng nói, kiểm soát âm cao và tùy chỉnh phát lại rất quan trọng đối với người dùng của chúng tôi, cho phép họ tạo ra các phong cách giọng nói độc đáo, chất lượng cao được tùy chỉnh cho nhu cầu cụ thể của họ, từ các trang web tin tức và blog đến nội dung học trực tuyến có thể tiếp cận. Việc tích hợp liên tục hơn 100 rung động giọng nói mới còn nâng cao điều này, cung cấp cho người dùng sự linh hoạt chưa từng có để tạo ra các bản âm thanh độc đáo thực sự. Tôi tự hào nhất về GSpeech Studio, một nền tảng chỉnh sửa và tạo âm thanh mới mà tôi đang phát triển. Nó cho phép người dùng tạo nhiều kênh âm thanh, trộn chúng với nhạc nền và xuất các bản âm thanh hoàn chỉnh, cho phép các nhà sáng tạo sản xuất âm thanh chuyên nghiệp cho các ứng dụng đa dạng. Một bức thư từ một sinh viên khiếm thị, cảm ơn GSpeech vì đã cho phép họ học tập độc lập thông qua âm thanh tùy chỉnh, đã chạm đến trái tim tôi. Trường hợp sử dụng này cho thấy cách các tính năng này làm cho nội dung trở nên dễ tiếp cận và chuyển đổi, một mục tiêu mà tôi đã theo đuổi từ những ngày lập trình đầu tiên của mình.

GSpeech cung cấp tích hợp liền mạch với WordPress, Shopify, Wix và nhiều hơn nữa. Chiến lược của bạn để làm cho nền tảng trở nên plug-and-play cho các nhà sáng tạo và doanh nghiệp trên các hệ sinh thái khác nhau là gì?

Chiến lược của chúng tôi cho các tích hợp plug-and-play của GSpeech với các nền tảng như WordPress, Shopify và Wix tập trung vào sự đơn giản, khả năng tương thích và khả năng mở rộng. Chúng tôi đã phát triển các plugin và mãsnippet nhẹ, mô-đun tích hợp liền mạch, yêu cầu thiết lập tối thiểu — thường chỉ cần vài cú nhấp chuột. Điều này có nghĩa là hàng nghìn bài viết và khối nội dung động có thể ngay lập tức nhận được hỗ trợ giọng nói — mà không cần nỗ lực thủ công. Chúng tôi cung cấp các trình phát được thiết kế đẹp, linh hoạt và được tối ưu hóa cho khả năng tiếp cận và tương tác của người dùng. Đối với WordPress, chúng tôi đã nhúng bảng điều khiển đám mây GSpeech trực tiếp vào bảng điều khiển admin thông qua plugin của chúng tôi, giúp việc quản lý trở nên dễ dàng cho người dùng. Tài liệu chi tiết và bảng điều khiển trực quan hướng dẫn người dùng không chuyên về cài đặt và tùy chỉnh. Kiểm tra thường xuyên đảm bảo hiệu suất nhất quán trên các hệ sinh thái đa dạng, cho phép các nhà sáng tạo và doanh nghiệp thêm tính năng text-to-speech được hỗ trợ bởi AI một cách dễ dàng.

Nhìn lại hành trình từ năm 2012 đến ngày nay, cột mốc quan trọng nhất đối với bạn về mặt cá nhân hoặc chuyên nghiệp trong việc xây dựng GSpeech là gì?

Cột mốc quan trọng nhất đối với GSpeech là tạo ra 1 tỷ ký tự âm thanh AI chất lượng cao, thể hiện tác động toàn cầu của chúng tôi đến khả năng tiếp cận. Cũng có ý nghĩa là phản hồi mà chúng tôi nhận được từ các tổ chức như Humanity Union, những người ca ngợi GSpeech vì đã nâng cao khả năng tiếp cận của nền tảng tham gia công dân của họ, và từ các chủ sở hữu blog gọi nó là “một yếu tố thay đổi trò chơi” cho sự tương tác của người dùng. Hơn 110 đánh giá năm sao trên các nền tảng như WordPressAppSumo trong những tháng gần đây phản ánh sự tin tưởng ngày càng tăng này. GSpeech hiện cũng đang được sử dụng tích cực bởi Cục Thống kê Khu vực Namangan ở Uzbekistan — một cơ quan chính phủ có lưu lượng truy cập đáng kể và tầm nhìn quốc gia. Việc một cơ quan công quyền áp dụng công nghệ của chúng tôi một cách rộng rãi như vậy đã là một cột mốc có ý nghĩa và là một dấu hiệu mạnh mẽ về sự tin tưởng vào giải pháp của chúng tôi.

Là một người Kitô hữu và người phục vụ trong giáo hội Armenia, tôi cũng cố gắng hỗ trợ các sáng kiến dựa trên đức tin khác khi có thể. Tôi thường cung cấp GSpeech miễn phí cho các trang web Kitô giáo như một cách để giúp họ truyền đạt thông điệp của mình một cách hiệu quả hơn và làm cho Kinh Thánh trở nên dễ tiếp cận hơn thông qua âm thanh. Đó là sự đóng góp nhỏ của tôi vào điều gì đó lớn hơn. Đồng thời, tôi vinh dự được làm việc với các bộ phận truyền giáo tận tâm như The Cord — một cộng đồng Messianic và khách hàng GSpeech có giá trị — những sứ mệnh và nội dung của họ phản ánh sức mạnh của Kinh Thánh trong hành động.

Những khoảnh khắc — khi công nghệ trở thành một cây cầu cho đức tin, hiểu biết và hòa nhập — nhắc nhở tôi tại sao chúng tôi xây dựng GSpeech từ đầu.

Vai trò bạn nhìn thấy GSpeech sẽ đóng trong tương lai của truyền thông kỹ thuật số, đặc biệt là khi nội dung âm thanh và giao diện giọng nói trở nên chiếm ưu thế hơn?

Tôi hình dung GSpeech như một người lãnh đạo trong việc làm cho truyền thông kỹ thuật số trở nên dễ tiếp cận và hấp dẫn hơn bằng cách kích hoạt khả năng truy cập giọng nói vào web. Mục tiêu của chúng tôi là chuyển đổi toàn bộ trải nghiệm trực tuyến, để các trang web trở nên tự nhiên tương tác bằng giọng nói, bao gồm và đa ngôn ngữ theo mặc định. Với chỉ một dòng mã, chủ sở hữu trang web có thể chuyển đổi hàng nghìn bài viết thành nội dung được phát bằng giọng nói. Nhìn về phía trước, chúng tôi đang phát triển GSpeech Studio thành một nền tảng tạo và chỉnh sửa âm thanh mạnh mẽ và độc đáo, cho phép người dùng tạo nội dung giọng nói đa lớp với nhạc nền, hiệu ứng và điều chỉnh chính xác. Chúng tôi muốn làm cho web trở nên có thể nghe được, trực quan và dễ tiếp cận toàn cầu.

GSpeech gần đây đã ra mắt trên AppSumo và đã kiếm được xếp hạng gần như hoàn hảo từ những người dùng sớm. Phản hồi từ cộng đồng AppSumo có ý nghĩa như thế nào với bạn, và bạn dự định xây dựng trên đà này như thế nào trong tương lai?

Ra mắt AppSumo đã giới thiệu GSpeech đến hàng triệu người, và xếp hạng gần như hoàn hảo của nó vô cùng khẳng định. Người dùng, như những người chạy các khóa học trực tuyến, ca ngợi các công cụ trực quan và hỗ trợ phản hồi của chúng tôi, lặp lại phản hồi từ Humanity Union. Một chủ sở hữu blog gọi các giọng nói của chúng tôi là “thực sự hấp dẫn” và dịch là “ấn tượng”. Phản hồi tích cực của họ xác nhận giá trị của giải pháp text-to-speech được hỗ trợ bởi AI của chúng tôi và củng cố đam mê của tôi cho dự án. Hỗ trợ khách hàng trong quá trình ra mắt cũng khơi dậy những ý tưởng mới, đặc biệt là cho GSpeech Studio, được truyền cảm hứng từ yêu cầu của người dùng về các tính năng chỉnh sửa và xuất âm thanh tiên tiến. Tiếp theo, tôi dự định xây dựng trên đà này bằng cách lắng nghe chủ động cộng đồng của chúng tôi, tích hợp phản hồi của họ và phát triển các tính năng sáng tạo để nâng cao khả năng tiếp cận và tương tác, đảm bảo GSpeech tiếp tục phát triển như một công cụ chuyển đổi cho các nhà sáng tạo và doanh nghiệp.

Cuối cùng, lời khuyên bạn sẽ đưa ra cho các nhà phát triển trẻ hoặc doanh nhân muốn xây dựng các công cụ được hỗ trợ bởi AI, có thể tiếp cận được trong phong cảnh công nghệ đang thay đổi nhanh chóng ngày nay là gì?

Đối với các nhà phát triển trẻ và doanh nhân, lời khuyên của tôi là hãy đổ trái tim và tâm hồn của bạn vào công việc của mình và xác định một vấn đề thực sự mà bạn có thể cung cấp một giải pháp thông minh và độc đáo. Bắt đầu từ nhỏ, tiến từng bước vững chắc và lắng nghe phản hồi của khách hàng — họ sẽ hướng dẫn bạn trên con đường của mình. Hãy đối xử với người dùng của bạn như những người bạn đáng tin cậy, hãy cống hiến hết mình và hãy kiên nhẫn. Hãy chấp nhận các công nghệ AI như những người đồng minh mạnh mẽ; khi được sử dụng một cách khôn ngoan, chúng sẽ khuếch đại khả năng của bạn để tạo ra các công cụ có tác động và có thể tiếp cận được. Hãy xây dựng với niềm đam mê, sự kiên nhẫn và cam kết tạo ra sự khác biệt, và bạn sẽ tạo ra những giải pháp thực sự có ý nghĩa.

Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, chúng tôi đã chọn giải pháp GSpeech cho trang web của mình vì tính dễ tích hợp. Để tìm hiểu thêm, hãy truy cập GSpeech.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.