Phỏng vấn
Alexey Aylarov, Đồng sáng lập và CEO của Voximplant – Loạt phỏng vấn

Alexey Aylarov đồng sáng lập Voximplant sau một thập kỷ xây dựng các công cụ liên lạc từ đầu. Công việc đầu tiên của ông bao gồm phát triển IP PBX và điều hành công ty phần mềm viễn thông của riêng mình từ rất lâu trước khi điện thoại đám mây trở nên phổ biến. Zingaya đến tiếp theo, mang lại khả năng gọi từ trình duyệt. Voximplant theo sau, phát triển thành một nền tảng không cần máy chủ mà các nhà phát triển dựa vào để thực hiện thời gian thực giọng nói và video. Alexey viết về khía cạnh thực tế của Trí tuệ nhân tạo Giọng nói, đặc biệt là nơi các mô hình ngôn ngữ lớn va chạm với thực tế phức tạp của điện thoại toàn cầu.
Bạn bắt đầu sự nghiệp của mình với tư cách là một kỹ sư VoIP vào giữa những năm 2000, lâu trước khi Trí tuệ nhân tạo tham gia vào giao tiếp thời gian thực. Những khoảng trống lớn nhất bạn nhìn thấy vào thời điểm đó là gì mà cuối cùng đã đẩy bạn đến việc thành lập Voximplant?
Tôi đã tham gia vào các hệ thống VoIP từ năm 2005. Lúc đó, việc xây dựng các phương tiện liên lạc đáng tin cậy rất chậm và phức tạp. Tôi nhận thấy rằng nhiều nhà phát triển chia sẻ sự thất vọng của tôi – các đội đang cố gắng kết nối các thành phần điện thoại thay vì tập trung vào trải nghiệm sản phẩm mà họ thực sự muốn cung cấp. Điều này đã đẩy tôi đến ý tưởng về giao tiếp có thể lập trình cho các nhà phát triển. Chúng tôi muốn tạo ra một sản phẩm cho phép mọi người xây dựng sản phẩm mà không cần phải là chuyên gia về điện thoại.
Trước Voximplant, tôi đồng sáng lập các dịch vụ gọi dựa trên SIP như Flashphone và Zingaya, cung cấp các sản phẩm gọi từ trình duyệt sớm. Nhu cầu đã chứng minh một lần nữa rằng các đội muốn giao tiếp có thể lập trình, nhưng công cụ không có ở đó. Tất cả những điều đó đã dẫn đến việc tạo ra Voximplant vào năm 2013.
Ngày nay, chúng tôi đang chứng kiến một khoảng trống tương tự, nhưng trên quy mô lớn hơn. Trí tuệ nhân tạo Giọng nói đang tham gia vào các quy trình sản xuất, các mô hình ngôn ngữ lớn tiếp tục phát triển mỗi tháng, nhưng mạng điện thoại toàn cầu vẫn còn phân mảnh. Không có nhà cung cấp nào có thể giải quyết mọi vấn đề từ đầu đến cuối. Đó là lý do tại sao Voximplant hoạt động như một lớp điều phối, cung cấp cho các nhà phát triển một cách nhanh chóng và tiết kiệm chi phí để thử nghiệm với các công cụ và công nghệ tiên tiến nhất và triển khai Trợ lý Giọng nói trên các cuộc gọi thực, mà không cần lo lắng về cơ sở hạ tầng điện thoại hoặc sự phức tạp của luồng.
Voximplant tự định vị mình như một lớp điều phối chứ không phải là một nhà cung cấp Trí tuệ nhân tạo hoặc điện thoại duy nhất. Tại sao bạn tin rằng điều phối là lớp trừu tượng đúng đắn để xây dựng cho tương lai của Trí tuệ nhân tạo Giọng nói?
Điều quan trọng với chúng tôi từ đầu là phải là toàn cầu, và bạn không thể cung cấp một nền tảng điện thoại toàn cầu mà không thực hiện một số điều phối điện thoại. Các yêu cầu kỹ thuật và cơ sở hạ tầng khác nhau theo quốc gia, và chúng tôi cung cấp số điện thoại ở hơn 190 quốc gia, vì vậy điều này có nghĩa là chúng tôi thực hiện rất nhiều trung gian kỹ thuật.
Ngoài ra, các tiêu chuẩn điện thoại như SIP đã phát triển thành nhiều hương vị khác nhau trên các nhà cung cấp. Việc kết nối các nhà cung cấp điện thoại và cơ sở hạ tầng liên lạc của khách hàng khác nhau đòi hỏi các hệ thống linh hoạt có thể thích nghi nhanh chóng. Các mạng điện thoại mới hơn, như WhatsApp, tiếp tục thúc đẩy nhu cầu ở đây – và điều này xảy ra trước khi thêm logic điều khiển liên lạc thực sự thực hiện logic ứng dụng duy nhất của khách hàng.
Về phía Trí tuệ nhân tạo, thị trường rất mạnh mẽ và đang phát triển nhanh chóng. Nhà cung cấp “tốt nhất” ngày hôm nay có thể sẽ đứng thứ hai hoặc thứ ba vào tuần tới. Phương pháp của chúng tôi là hỗ trợ càng nhiều nhà cung cấp hàng đầu càng tốt. Chúng tôi muốn khách hàng của mình luôn có một bộ đầy đủ các lựa chọn tiên tiến nhất để lựa chọn. Họ có thể chọn các nhà cung cấp Trí tuệ nhân tạo phù hợp cho ứng dụng cụ thể của họ – hoặc thậm chí kết hợp và kết hợp. Nền tảng điều phối của chúng tôi cũng nhằm mục đích làm cho việc chuyển đổi giữa các nhà cung cấp trở nên đơn giản hơn – đồng thời vẫn暴露 đầy đủ khả năng của họ để các nhà phát triển không bị kẹt với một tập hợp tính năng chung thấp nhất.
Nhiều đội ngũ đánh giá thấp mức độ khó khăn khi một Trợ lý Giọng nói có thể đặt và quản lý các cuộc gọi điện thoại thực. Từ quan điểm của bạn, điều gì khiến điện thoại thực tế trở nên khó khăn so với các tương tác Trí tuệ nhân tạo kỹ thuật số thuần túy?
Mạng điện thoại vẫn còn phân mảnh và không nhất quán trên các khu vực, khiến nó trở nên khó đoán hơn. Ở một số quốc gia, các giao thức nhất định có thể bị hạn chế hoặc chặn, các nhà cung cấp dịch vụ trải qua thời gian ngừng hoạt động như một phần của hoạt động bình thường, và các mẫu định tuyến cuộc gọi có thể thay đổi trong suốt cả ngày. Ngoài ra, còn có các khu vực mà điện thoại đám mây có thể gặp phải các vấn đề pháp lý phức tạp.
Chúng tôi cũng đã chứng kiến các trường hợp mà cơ sở hạ tầng bản thân trở thành nút thắt. Ví dụ, một công ty khởi nghiệp chăm sóc sức khỏe của Úc xây dựng một Trợ lý gọi để kiểm tra tình trạng của bệnh nhân nói tiếng Quảng Đông đã gặp phải độ trễ cao đến các nhà cung cấp Trí tuệ nhân tạo dựa trên Mỹ (như OpenAI hoặc ElevenLabs), và sự sẵn có hạn chế của TTS chất lượng cao đã khiến cho các cuộc trò chuyện cảm giác chậm và không tự nhiên.
Ngoài độ tin cậy, còn có lớp tuân thủ. Các yêu cầu khác nhau rộng rãi từ quốc gia này sang quốc gia khác và thường chồng chéo với các khuôn khổ như HIPAA, PCI DSS và GDPR.
Hiệu suất giọng nói bản thân không phải là phổ quát. Không có một động cơ STT hoặc TTS nào hoạt động tốt nhất trong mọi môi trường. Các giọng nói, tiếng ồn nền, sự thay đổi chất lượng cuộc gọi hoặc thậm chí sự suy giảm của nhà cung cấp có thể gây ra sự sụt giảm đột ngột về độ chính xác và trải nghiệm người dùng.
Một số hệ thống Trí tuệ nhân tạo Giọng nói ngày nay dựa trên nhiều nhà cung cấp cho các mô hình ngôn ngữ lớn, chuyển giọng nói thành văn bản, văn bản thành giọng nói và định tuyến. Tại sao sự phân mảnh này là không thể tránh khỏi, và tại sao việc chuyển đổi nhà cung cấp Trí tuệ nhân tạo hoặc giọng nói nên là một thay đổi mã nhanh chóng chứ không phải là một dự án kỹ thuật lớn?
Trong giai đoạn đầu của Trí tuệ nhân tạo Giọng nói, không có tùy chọn giọng nói đến giọng nói thực sự, vì vậy bạn phải ráp lại giọng nói thành văn bản, mô hình ngôn ngữ lớn và văn bản thành giọng nói. Ngày nay, một số nhà cung cấp mô hình ngôn ngữ lớn tích hợp giọng nói trực tiếp (thường với một số mức độ hỗ trợ xâm nhập), loại bỏ nhu cầu xây dựng một đường ống dẫn đầy đủ. Những hệ thống này nhanh hơn và tương tác cao hơn, nhưng vẫn có những hạn chế về các khía cạnh như cuộc gọi chức năng và cung cấp ít tùy chọn hơn để cải thiện việc chuyển văn bản và giọng nói. Chúng tôi dự đoán rằng các mô hình ngôn ngữ lớn dựa trên giọng nói sẽ tương đương với các mô hình văn bản sớm.
Thay đổi nhà cung cấp Trí tuệ nhân tạo và giọng nói trên nền tảng của chúng tôi không phải là một nỗ lực kỹ thuật lớn, nhưng nó cũng không chỉ là một thay đổi mã đơn giản. Các nhà cung cấp giọng nói đang不断 chiến đấu chống lại sự hàng hóa bằng cách giới thiệu các tính năng độc đáo. Chúng tôi giữ các kết nối của mình càng nhất quán càng tốt trong khi暴露 khả năng của từng nhà cung cấp, vì vậy việc tận dụng những tính năng độc đáo này, thay đổi nhà cung cấp thường có nghĩa là thay đổi một vài dòng mã.
Làm thế nào các Trợ lý Giọng nói đang bắt đầu thay đổi kinh tế của hỗ trợ khách hàng, bán hàng và các hoạt động B2C khác so với các mô hình trung tâm cuộc gọi truyền thống?
Có thể còn quá sớm để nói về một sự thay đổi lớn trong kinh tế của hỗ trợ khách hàng, nhưng nó chắc chắn đang đến. Ngày nay, có những khu vực mà đại diện hỗ trợ khách hàng chi phí ít hơn so với dịch vụ Trí tuệ nhân tạo được hỗ trợ bởi mô hình ngôn ngữ lớn, nhưng mô hình này đi kèm với những thách thức nổi tiếng về khả năng mở rộng, kiệt sức, quản lý và vận hành. Tôi giả định rằng kinh tế sẽ thay đổi đáng kể khi tối ưu hóa mô hình ngôn ngữ lớn tiếp tục được cải thiện, mặc dù nó vẫn sẽ mất một chút thời gian.
Những tín hiệu nào cho bạn biết rằng Trí tuệ nhân tạo Giọng nói đang chuyển từ thử nghiệm sang cơ sở hạ tầng quan trọng cho các doanh nghiệp?
Tín hiệu mạnh nhất ở đây là đầu tư vào cơ sở hạ tầng Trí tuệ nhân tạo Giọng nói, đang tăng trưởng nhanh chóng. Có những cách để theo dõi các cuộc gọi hoặc phút được kích hoạt bởi Trí tuệ nhân tạo Giọng nói trên quy mô toàn cầu, nếu không chính xác, thì thông qua ước tính. Mặc dù tôi chỉ có thể theo dõi điều này trực tiếp cho Voximplant, nhưng chúng tôi rõ ràng thấy sự tăng trưởng mạnh mẽ.
Làm thế nào bạn nghĩ rằng kỳ vọng của nhà phát triển về sự linh hoạt và kiểm soát đã thay đổi khi các mô hình Trí tuệ nhân tạo và công nghệ giọng nói lặp lại nhanh hơn?
Đó là một câu hỏi thú vị. Khi nói đến tốc độ thay đổi, Trí tuệ nhân tạo không có đối thủ. Kiểm soát và linh hoạt không rõ ràng, tùy thuộc vào những gì chúng tôi ý định bởi những thuật ngữ đó. Khi nói đến kiểm soát, có nhiều thách thức nổi tiếng, và vượt qua chúng không dễ dàng. Hầu hết các công ty Trí tuệ nhân tạo dành nhiều nỗ lực để bảo vệ mô hình, nhưng làm điều này tốt đòi hỏi chuyên môn sâu và các công ty rõ ràng có các mục tiêu khác nhau.
Các công ty thường mắc sai lầm gì khi cố gắng triển khai Trợ lý Giọng nói trực tiếp trên các hệ thống điện thoại truyền thống?
Các hệ thống điện thoại truyền thống không tương thích trực tiếp với các dịch vụ Trí tuệ nhân tạo Giọng nói, vì vậy chúng thường yêu cầu tích hợp thêm, thường thông qua giao thức SIP hoặc WebSockets. Các sai lầm phổ biến bao gồm quản lý chuyển đổi không đầy đủ, vấn đề độ trễ (có thể được gây ra bởi các yếu tố khác nhau) và thách thức về khả năng mở rộng.
Điện thoại bản thân có thể mở rộng khá tốt, đặc biệt là với VoIP. Dịch vụ Trí tuệ nhân tạo Giọng nói khó mở rộng hơn do nhu cầu về phần cứng cần thiết để chạy mô hình ngôn ngữ lớn, và thậm chí các nhà cung cấp cơ sở hạ tầng lớn như Amazon có thể gặp phải các hạn chế về khả năng khi nói đến phần cứng suy luận.
Nhìn về tương lai, những khả năng nào bạn nghĩ rằng các nền tảng Trí tuệ nhân tạo Giọng nói phải hỗ trợ để vẫn còn phù hợp khi Trí tuệ nhân tạo thời gian thực trở nên tự chủ hơn?
Tôi nghĩ rằng các nền tảng Trí tuệ nhân tạo Giọng nói cần tập trung vào SLA, vì nó vẫn có thể là một vấn đề tại một số thời điểm, và vào các công cụ bổ sung cho thử nghiệm và quan sát.
Cuối cùng, các nền tảng tiên tiến nhất sẽ cung cấp mọi thứ cần thiết, nhưng ngày nay, chúng tôi vẫn đang học các bài học mới mỗi ngày, nhiều trong số đó nên trở thành một phần của ngăn xếp cốt lõi. Nếu bạn làm việc với các doanh nghiệp lớn hoặc trong môi trường được quản lý, việc có một phiên bản nội bộ của sản phẩm có thể là rất quan trọng.
Khi bạn nhìn lại hành trình của mình từ cơ sở hạ tầng VoIP ban đầu đến việc lãnh đạo một nền tảng Trí tuệ nhân tạo Giọng nói ngày nay, điều gì đã khiến bạn ngạc nhiên nhất về cách ngành công nghiệp đã phát triển?
Nhiều điều đã khiến tôi ngạc nhiên, nhưng một trong số đó là việc thay đổi cơ sở hạ tầng VoIP mất nhiều năm để xảy ra. Một ví dụ tốt là điện thoại vẫn dựa vào các codec âm thanh băng hẹp (G.711, G.729), trong khi mọi người đã quen với âm thanh băng rộng trong các dịch vụ liên lạc trực tuyến như Zoom, Google Meet, WhatsApp, v.v.
Hầu hết các mô hình Trí tuệ nhân tạo được đào tạo trên dữ liệu âm thanh băng rộng. Tất cả các điện thoại di động hiện đại đều có codec âm thanh băng rộng tích hợp, nhưng vẫn còn những thách thức đáng kể về khả năng tương tác ở cấp độ nhà cung cấp mà ngăn cản âm thanh băng rộng được sử dụng trong các cuộc gọi điện thoại truyền thống. Không giống như không có tiến bộ nào, nhưng theo quan điểm của tôi, nó rất khiêm tốn.












