sơ khai Vikrant Tomar, CTO và Founder của Fluent.ai - Chuỗi phỏng vấn - Unite.AI
Kết nối với chúng tôi

Phỏng vấn

Vikrant Tomar, CTO và Người sáng lập Fluent.ai – Loạt bài phỏng vấn

mm
cập nhật on

Vikrant Tomar, là CTO và người sáng lập của Thông thạo.ai, một phần mềm giao diện người dùng bằng giọng nói và hiểu giọng nói dành cho các nhà sản xuất thiết bị gốc và nhà cung cấp dịch vụ.

Điều gì ban đầu thu hút bạn nghiên cứu mô hình âm thanh để nhận dạng giọng nói?

Thực sự, có thể nói chuyện với các thiết bị giống như cách chúng ta nói chuyện với một người khác. Tầm nhìn này đã rất hấp dẫn đối với tôi. Tôi bắt đầu học nhận dạng giọng nói trong năm cuối đại học. Đây cũng là lúc tôi bắt đầu quan tâm đến nghiên cứu, vì vậy tôi đã tham gia một khóa học về nhận dạng giọng nói và một dự án nghiên cứu liên quan. Tôi đã có thể xuất bản một bài báo nghiên cứu trong hội nghị InterSpeech, một trong những hội nghị nhận dạng giọng nói lớn nhất và có uy tín nhất, từ công việc này. Tất cả những điều này đã thúc đẩy tôi chọn nghiên cứu về nhận dạng giọng nói làm trọng tâm lâu dài, từ đó lấy bằng Tiến sĩ.

Vào năm 2015, bạn đã ra mắt Fluent.ai, bạn có thể chia sẻ câu chuyện nguồn gốc đằng sau công ty khởi nghiệp này không?

Tôi đã có niềm khao khát kinh doanh trong mình từ lâu. Tôi cùng với hai người bạn khác đã cố gắng thành lập công ty sau khi tốt nghiệp đại học, tuy nhiên, vì một số lý do, nỗ lực đó đã không thành công. Trong thời gian làm tiến sĩ tại McGill, tôi đã để mắt đến bối cảnh khởi nghiệp của Montreal. Trong thời gian này, tôi cũng tình cờ liên lạc được với những người ở TandemLaunch – cơ sở khởi nghiệp nơi tôi đã tạo ra Fluent.ai. Vào thời điểm này, tôi đã sắp hoàn thành chương trình Tiến sĩ và tôi đang suy nghĩ nghiêm túc về việc thử sức kinh doanh một lần nữa. Thông qua kinh nghiệm làm việc, nghiên cứu và liên kết với các nhóm nghiên cứu giọng nói khác, tôi nhận ra rằng hầu hết những trải nghiệm này đều tập trung vào việc nhận dạng giọng nói theo một cách cụ thể: chuyển từ giọng nói sang phiên âm văn bản và sau đó là xử lý ngôn ngữ tự nhiên. Tuy nhiên, điều này để lại một khoảng trống trong khả năng sử dụng. Một phần lớn dân số không thể hưởng lợi từ các giải pháp giọng nói được phát triển theo cách này. Lượng dữ liệu cần thiết cho các phương pháp như vậy lớn đến mức sẽ không có ý nghĩa về mặt tài chính nếu phát triển các mô hình riêng biệt cho các ngôn ngữ có ít người sử dụng hơn. Hơn nữa, nhiều phương ngữ và ngôn ngữ không có hình thức viết riêng biệt. Ngay cả gia đình tôi cũng không thể sử dụng các công cụ do tôi phát triển (họ nói một phương ngữ của tiếng Hindi). Xem xét tất cả những điều này, tôi bắt đầu nghĩ về các cách khác nhau để tạo mô hình giọng nói, trong đó lượng dữ liệu cần thiết ít hơn và/hoặc người dùng cuối có thể tự đào tạo hoặc cập nhật mô hình. Tôi biết công việc được thực hiện tại Đại học KU Leuven (KUL) có thể đáp ứng một số yêu cầu này. Với một phần công nghệ đến từ KUL, chúng tôi đã có thể thực hiện những bước đầu tiên hướng tới Fluent như ngày nay.

Bạn có thể giải thích thêm về các giải pháp hiểu giọng nói trực quan của Fluent.ai không?

Các giải pháp nhận dạng giọng nói của Fluent.ai được lấy cảm hứng từ cách con người tiếp thu và nhận dạng ngôn ngữ. Các hệ thống nhận dạng giọng nói thông thường trước tiên phiên âm lời nói đầu vào thành văn bản, sau đó trích xuất ý nghĩa từ văn bản đó. Đây không phải là cách con người nhận ra lời nói. Hãy lấy một ví dụ về những đứa trẻ trước khi chúng học đọc và viết: mặc dù không biết gì về cách viết của các ngôn ngữ, chúng vẫn có thể trò chuyện bằng lời nói một cách dễ dàng. Theo cách tương tự, các mô hình dựa trên mạng thần kinh sâu của Fluent có khả năng trích xuất trực tiếp ý nghĩa từ âm thanh lời nói mà không cần phải phiên âm thành văn bản trước. Về mặt kỹ thuật, đây đúng là Hiểu ngôn ngữ nói. Có nhiều lợi thế của phương pháp này. Nhận dạng giọng nói truyền thống là một cách tiếp cận cồng kềnh, trong đó một số mô-đun được đào tạo rời rạc được kết hợp với nhau để đưa ra phản hồi cuối cùng. Điều này dẫn đến một giải pháp không tối ưu, dẫn đến các kết quả khác nhau về dấu, tiếng ồn, điều kiện nền, v.v. Hệ thống nhận dạng ý định tự động (AIR) của Fluent được tối ưu hóa từ đầu đến cuối; nó hoàn toàn là một kiến ​​trúc dựa trên mạng thần kinh, trong đó tất cả các mô-đun được đào tạo cùng nhau để cung cấp giải pháp tối ưu nhất. Ngoài ra, chúng tôi có thể loại bỏ một số mô-đun nặng tính toán thường có trong hệ thống nhận dạng giọng nói thông thường. Điều này cho phép chúng tôi tạo ra các hệ thống nhận dạng giọng nói ít dấu chân có thể chạy trong ít nhất 40KB RAM trên một bộ vi điều khiển công suất thấp chạy ở 50 MHz. Cuối cùng, các hệ thống AIR dựa trên khả năng hiểu ngôn ngữ nói của chúng tôi có thể khai thác những điểm tương đồng giữa các ngôn ngữ khác nhau theo một cách độc đáo để cung cấp các tính năng vô song như khả năng nhận dạng nhiều ngôn ngữ trong cùng một mô hình.

Một số thách thức AI đằng sau việc khắc phục vấn đề tiếng ồn xung quanh là gì?

Tiếng ồn là một trong những thách thức lớn nhất đối với nhận dạng giọng nói. Điều khiến nó trở thành một vấn đề thực sự khó khăn là có nhiều loại tiếng ồn khác nhau và chúng ảnh hưởng đến phổ giọng nói theo những cách khác nhau. Đôi khi tiếng ồn cũng có thể ảnh hưởng đến phản hồi của micrô. Trong nhiều trường hợp, không thể tách nguồn tiếng nói khỏi nguồn tiếng ồn. Trong một số trường hợp, tiếng ồn dẫn đến che lấp thông tin có sẵn trong phổ giọng nói, trong khi ở những trường hợp khác, nó có thể loại bỏ hoàn toàn thông tin hữu ích. Cả hai đều dẫn đến độ chính xác thấp. Mặc dù có thể dễ dàng loại bỏ các loại tiếng ồn nhất quán, chẳng hạn như tiếng quạt, nhưng một số loại tiếng ồn, chẳng hạn như tiếng bập bẹ hoặc tiếng người nói trong nền hoặc âm nhạc, lại rất khó loại bỏ vì cách chúng ảnh hưởng đến phổ giọng nói.

Bạn có thể định nghĩa Edge AI là gì và Fluent.ai đang sử dụng loại AI này như thế nào không?

Edge AI là một thuật ngữ chung được sử dụng để chỉ một số cách khác nhau trong đó các ứng dụng AI có thể được chuyển sang các thiết bị năng lượng thấp. Thuật ngữ này ngày càng được sử dụng nhiều hơn cho các trường hợp thiết bị biên đang tự thực hiện một số phép tính thông minh nhất định. Tại Fluent, chúng tôi tập trung vào việc nâng cao khả năng hiểu ngôn ngữ nói chất lượng cao. Chúng tôi đã phát triển các thuật toán hiệu quả cho phép các thiết bị điện toán công suất thấp tự nhận dạng giọng nói đầu vào mà không phải gửi dữ liệu đến máy chủ dựa trên đám mây để xử lý. Có hai ưu điểm: thứ nhất, quyền riêng tư của người dùng không bị xâm phạm khi truyền và lưu trữ dữ liệu giọng nói của họ lên đám mây. Thứ hai, cách tiếp cận như vậy làm giảm độ trễ vì dữ liệu giọng nói và phản hồi không phải di chuyển giữa máy chủ đám mây và thiết bị.

Những loại công nghệ học máy nào khác đang được sử dụng?

Trọng tâm chính của chúng tôi là các phương pháp tiếp cận dựa trên học sâu để nhận dạng giọng nói. Chúng tôi đang sử dụng các phương pháp RL (học tăng cường), ví dụ: NASIL[1], để khám phá các kiến ​​trúc mô hình AI mới, chưa từng được biết đến trước đây (vì vậy AI tạo ra AI theo một nghĩa nào đó). Và chúng tôi đang sử dụng AutoML để điều chỉnh các mô hình AI được xác định trước của mình nhằm đạt được kết quả đáng tin cậy cho các ứng dụng khác nhau, do đó tăng độ tin cậy và khả năng tái tạo. Nén mô hình và các phương pháp toán học khác giúp tối ưu hóa hiệu suất mô hình hơn nữa.

Bạn thấy điều gì sẽ xảy ra trong 5 năm tới cho cả hai hiểu ngôn ngữ tự nhiênxử lý ngôn ngữ tự nhiên?

Tôi nghĩ rằng các hệ thống sẽ phát triển để cung cấp nhiều tương tác tự nhiên hơn. Bất chấp những tiến bộ trong những năm gần đây, hầu hết các hệ thống hiện tại chỉ có thể trả lời các truy vấn đơn giản hoặc thực hiện tìm kiếm trên internet được kích hoạt bằng giọng nói. Chúng ta sẽ thấy ngày càng nhiều giải pháp có thể suy luận và trả lời một truy vấn hoàn chỉnh cho một người thay vì chỉ hoạt động như một công cụ tìm kiếm dựa trên giọng nói được tôn vinh.

Khía cạnh quan tâm khác là quyền riêng tư. Các giải pháp phổ biến hiện nay chủ yếu là các thiết bị được kết nối internet truyền tất cả dữ liệu giọng nói của người dùng đến máy chủ đám mây. Tuy nhiên, quyền riêng tư của các giải pháp như vậy đang trở thành một vấn đề. Chúng tôi cũng bắt đầu thấy các ứng dụng của giao diện người dùng giọng nói ngoài thiết bị điện tử tiêu dùng trong môi trường công nghiệp, trong không gian âm thanh chuyên nghiệp, cũng như trong phòng khách sạn và hội nghị. Yêu cầu chính đối với các ứng dụng này là quyền riêng tư, do đó các giải pháp được kết nối hiện tại không đáp ứng đủ – vì vậy chúng ta sẽ thấy nhiều giải pháp AI tiên tiến hơn hoặc ngôn ngữ tự nhiên trên thiết bị.

Như tôi đã đề cập trước đó, các giải pháp ngôn ngữ tự nhiên và lời nói vẫn không thể tiếp cận được với phần lớn dân số trên toàn thế giới. Có một khối lượng công việc đáng kể sẽ tạo ra loại mô hình AI mới có thể đào tạo với lượng dữ liệu nhỏ dẫn đến giảm chi phí phát triển và từ đó cho phép phát triển các mô hình bằng các ngôn ngữ có ít người nói hơn. Đồng thời, chúng ta sẽ thấy các giải pháp có thể học cách nhận dạng nhiều ngôn ngữ trong cùng một mô hình. Nhìn chung, chúng ta sẽ thấy ngày càng nhiều triển khai các mô hình AI đa ngôn ngữ có thể trả lời truy vấn của người dùng bằng ngôn ngữ mẹ đẻ của họ.

Có điều gì khác mà bạn muốn chia sẻ về Fluent.ai không?

Công nghệ giọng nói đã đi một chặng đường dài trong vài năm qua và có rất nhiều tiềm năng phát triển trên con đường phía trước. Tại Fluent.ai, chúng tôi luôn tìm kiếm các trường hợp sử dụng mới cho công nghệ hiện có của mình đồng thời liên tục đổi mới nội bộ. Đại dịch COVID-19 đã tạo ra sự nhạy cảm cao hơn đối với các khu vực thường xuyên chạm vào, chẳng hạn như nút thang máy, ki-ốt trong nhà hàng, v.v., điều này làm dấy lên nhu cầu mới về công nghệ hỗ trợ giọng nói. Fluent.ai hy vọng sẽ giúp lấp đầy những khoảng trống đó, vì các giải pháp của chúng tôi đa ngôn ngữ, do đó mang tính toàn diện hơn và hoạt động ngoại tuyến, cung cấp thêm một lớp bảo mật. Những chức năng này, như đã đề cập, có thể sẽ là tương lai của công nghệ giọng nói.

Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm nên truy cập r của Lưu loát.ai.

[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

Một đối tác sáng lập của unity.AI & một thành viên của Hội đồng Công nghệ Forbes, Antoine là một nhà tương lai học người đam mê tương lai của AI và robot.

Ông cũng là người sáng lập của Chứng khoán.io, một trang web tập trung vào đầu tư vào công nghệ đột phá.