Trí tuệ nhân tạo
Vikrant Tomar, CTO và Người sáng lập của Fluent.ai – Loạt phỏng vấn

Vikrant Tomar, là CTO và Người sáng lập của Fluent.ai, một phần mềm hiểu tiếng nói và giao diện người dùng giọng nói cho các nhà sản xuất thiết bị và nhà cung cấp dịch vụ.
Điều gì đã thu hút bạn đến với việc nghiên cứu mô hình âm thanh cho nhận dạng giọng nói?
Thực sự, việc có thể nói chuyện với các thiết bị giống như cách chúng ta nói chuyện với con người khác. Tầm nhìn này đã thu hút tôi. Tôi bắt đầu nghiên cứu nhận dạng giọng nói trong năm cuối của khóa học đại học. Đây cũng là thời điểm tôi bắt đầu quan tâm đến nghiên cứu, vì vậy tôi đã tham gia một khóa học về nhận dạng giọng nói và một dự án nghiên cứu liên quan. Tôi đã có thể xuất bản một bài báo nghiên cứu tại hội nghị InterSpeech, một trong những hội nghị nhận dạng giọng nói lớn nhất và uy tín nhất, từ công việc này. Tất cả điều này đã thúc đẩy tôi chọn nghiên cứu nhận dạng giọng nói làm trọng tâm cho lâu dài, vì vậy tôi đã theo đuổi bằng tiến sĩ.
Vào năm 2015, bạn đã ra mắt Fluent.ai, bạn có thể chia sẻ câu chuyện về sự ra đời của công ty khởi nghiệp này không?
Tôi đã có một khát vọng kinh doanh trong mình từ lâu. Tôi, cùng với hai người bạn khác, đã cố gắng thành lập một công ty sau khi tốt nghiệp đại học, tuy nhiên, vì một số lý do, nỗ lực đó đã không thành công. Trong thời gian học tiến sĩ tại McGill, tôi đã theo dõi cảnh quan khởi nghiệp tại Montreal. Trong thời gian này, tôi cũng may mắn được gặp gỡ những người từ TandemLaunch – nơi tôi đã tạo ra Fluent.ai. Lúc đó, tôi đã gần hoàn thành tiến sĩ và tôi đang nghiêm túc xem xét việc kinh doanh lại. Thông qua kinh nghiệm làm việc, nghiên cứu và liên kết với các nhóm nghiên cứu tiếng nói khác, tôi nhận ra rằng hầu hết những kinh nghiệm này đã tập trung vào việc thực hiện nhận dạng giọng nói theo một cách nhất định: từ giọng nói đến chuyển đổi văn bản và sau đó là xử lý ngôn ngữ tự nhiên. Tuy nhiên, điều này đã để lại một khoảng trống trong tính khả dụng. Một phần lớn dân số không thể hưởng lợi từ các giải pháp tiếng nói được phát triển theo cách này. Số lượng dữ liệu cần thiết cho các phương pháp này là rất lớn, vì vậy nó sẽ không có ý nghĩa về mặt tài chính để phát triển các mô hình riêng biệt cho các ngôn ngữ có ít người nói. Hơn nữa, nhiều phương ngữ và ngôn ngữ không có hình thức viết riêng biệt. Thậm chí gia đình tôi cũng không thể sử dụng các công cụ được phát triển bởi tôi (họ nói một phương ngữ của tiếng Hindi). Xem xét tất cả những điều này, tôi bắt đầu suy nghĩ về các cách khác để tạo ra các mô hình tiếng nói, nơi số lượng dữ liệu cần thiết ít hơn, và/hoặc người dùng cuối có thể tự đào tạo hoặc cập nhật các mô hình. Tôi biết về công việc được thực hiện tại Đại học KU Leuven (KUL) có thể phù hợp với một số yêu cầu này. Với một phần công nghệ đến từ KUL, chúng tôi đã có thể thực hiện các bước đầu tiên hướng tới những gì Fluent là ngày nay.
Bạn có thể giải thích về các giải pháp hiểu tiếng nói trực giác của Fluent.ai không?
Các giải pháp nhận dạng giọng nói của Fluent.ai được lấy cảm hứng từ cách con người học và nhận biết ngôn ngữ. Các hệ thống nhận dạng giọng nói thông thường đầu tiên chuyển đổi giọng nói đầu vào thành văn bản, và sau đó trích xuất ý nghĩa từ văn bản đó. Đây không phải là cách con người nhận biết giọng nói. Hãy lấy ví dụ về trẻ em trước khi chúng học đọc và viết: mặc dù không biết gì về biểu diễn viết của ngôn ngữ, chúng vẫn có thể tham gia vào một cuộc trò chuyện dễ dàng. Tương tự, các mô hình dựa trên mạng nơ-ron sâu của Fluent có khả năng trích xuất trực tiếp ý nghĩa từ âm thanh giọng nói mà không cần phải chuyển đổi trước thành văn bản. Về mặt kỹ thuật, đây là Sự hiểu ngôn ngữ nói thực sự. Có nhiều lợi thế của cách tiếp cận này. Nhận dạng giọng nói truyền thống là một cách tiếp cận cồng kềnh, nơi nhiều mô-đun được đào tạo riêng biệt được kết hợp lại để cung cấp một phản hồi cuối cùng. Điều này dẫn đến một giải pháp không tối ưu, bị ảnh hưởng bởi các biến thể trong kết quả đối với các giọng, tiếng ồn, điều kiện nền tảng, v.v. Hệ thống nhận dạng ý định tự động (AIR) của Fluent được tối ưu hóa từ đầu đến cuối; đây là một kiến trúc hoàn toàn dựa trên mạng nơ-ron, nơi tất cả các mô-đun được đào tạo chung để cung cấp giải pháp tối ưu nhất. Ngoài ra, chúng tôi có thể loại bỏ một số mô-đun tính toán nặng thường có trong hệ thống nhận dạng giọng nói thông thường. Điều này cho phép chúng tôi tạo ra các hệ thống nhận dạng giọng nói có dấu ấn thấp có thể chạy trong ít nhất 40KB RAM trên một bộ điều khiển thấp công suất chạy ở 50 MHz. Cuối cùng, các hệ thống hiểu ngôn ngữ nói dựa trên AIR của chúng tôi có thể khai thác sự tương似 giữa các ngôn ngữ theo một cách độc đáo để cung cấp các tính năng không thể sánh được như khả năng nhận biết nhiều ngôn ngữ trong cùng một mô hình.
Điều gì là một số thách thức về AI trong việc vượt qua vấn đề tiếng ồn?
Tiếng ồn là một trong những thách thức lớn nhất đối với nhận dạng giọng nói. Điều làm cho nó trở thành một vấn đề thực sự khó khăn là có nhiều loại tiếng ồn khác nhau và chúng ảnh hưởng đến phổ của giọng nói theo các cách khác nhau. Đôi khi tiếng ồn cũng có thể ảnh hưởng đến phản hồi của micro. Trong nhiều trường hợp, không thể tách nguồn giọng nói khỏi nguồn tiếng ồn. Trong một số trường hợp, tiếng ồn dẫn đến che giấu thông tin có sẵn trong phổ giọng nói, trong khi ở những trường hợp khác, nó có thể loại bỏ hoàn toàn thông tin hữu ích. Cả hai đều dẫn đến độ chính xác thấp. Mặc dù việc loại bỏ các loại tiếng ồn nhất quán như tiếng ồn của quạt là dễ dàng, nhưng một số loại tiếng ồn, như tiếng ồn của đám đông hoặc người nói chuyện ở hậu cảnh hoặc âm nhạc, rất khó loại bỏ vì chúng ảnh hưởng đến phổ giọng nói theo các cách khác nhau.
Bạn có thể định nghĩa Edge AI là gì và Fluent.ai đang sử dụng loại AI này như thế nào không?
Edge AI là một thuật ngữ ô dùng để bao gồm nhiều cách khác nhau mà các ứng dụng AI có thể được di chuyển đến các thiết bị công suất thấp. Ngày càng nhiều, thuật ngữ này được sử dụng cho các trường hợp mà các thiết bị biên thực hiện một số tính toán thông minh. Tại Fluent, chúng tôi tập trung vào việc mang lại sự hiểu biết ngôn ngữ nói chất lượng cao đến biên. Chúng tôi đã phát triển các thuật toán hiệu quả cho phép các thiết bị tính toán công suất thấp nhận ra giọng nói đầu vào của chúng mà không cần phải gửi dữ liệu đến máy chủ dựa trên đám mây để xử lý. Ưu điểm là twofold: đầu tiên, quyền riêng tư của người dùng không bị xâm phạm bởi việc truyền và lưu trữ dữ liệu giọng nói của họ lên đám mây. Thứ hai, cách tiếp cận này giảm độ trễ vì dữ liệu giọng nói và phản hồi không cần phải di chuyển giữa máy chủ đám mây và thiết bị.
Có những loại công nghệ học máy nào khác đang được sử dụng?
Trọng tâm chính của chúng tôi là các phương pháp dựa trên học sâu cho nhận dạng giọng nói. Chúng tôi đang sử dụng các phương pháp học tăng cường (RL) như NASIL[1], để khám phá các kiến trúc mô hình AI mới, chưa biết trước (tức là AI tạo ra AI theo một nghĩa nào đó). Và chúng tôi đang sử dụng AutoML để điều chỉnh các mô hình AI đã xác định trước của chúng tôi để đạt được kết quả đáng tin cậy cho các ứng dụng khác nhau, do đó tăng cường độ tin cậy và tái tạo. Nén mô hình và các phương pháp toán học khác giúp tối ưu hóa hiệu suất của mô hình.
Bạn thấy điều gì sẽ xảy ra trong 5 năm tới cho cả hiểu ngôn ngữ tự nhiên và xử lý ngôn ngữ tự nhiên?
Tôi nghĩ rằng các hệ thống sẽ tiến hóa để cung cấp các tương tác tự nhiên hơn. Mặc dù đã có tiến bộ trong những năm gần đây, nhưng hầu hết các hệ thống hiện tại chỉ có thể trả lời các truy vấn đơn giản hoặc thực hiện tìm kiếm dựa trên giọng nói. Chúng tôi sẽ thấy nhiều giải pháp hơn có thể suy luận và trả lời một truy vấn hoàn chỉnh cho một người thay vì chỉ hoạt động như một công cụ tìm kiếm dựa trên giọng nói được nâng cấp.
Khía cạnh khác thú vị là quyền riêng tư. Các giải pháp phổ biến hiện tại chủ yếu là các thiết bị kết nối internet mà truyền tất cả dữ liệu giọng nói của người dùng lên máy chủ đám mây. Tuy nhiên, quyền riêng tư của các giải pháp này đang trở thành một vấn đề. Chúng tôi cũng bắt đầu thấy các ứng dụng của giao diện người dùng giọng nói ngoài thiết bị điện tử tiêu dùng trong các môi trường công nghiệp, không gian âm thanh chuyên nghiệp, cũng như trong khách sạn và phòng họp. Một yêu cầu quan trọng cho các ứng dụng này là quyền riêng tư, do đó các giải pháp kết nối hiện tại không đủ – vì vậy chúng tôi sẽ thấy nhiều giải pháp AI biên hoặc xử lý ngôn ngữ tự nhiên trên thiết bị hơn.
Như tôi đã đề cập trước đó, các giải pháp tiếng nói và ngôn ngữ tự nhiên vẫn còn không thể tiếp cận được với một phần lớn dân số trên toàn thế giới. Có một lượng công việc đáng kể đang được thực hiện để tạo ra các loại mô hình AI mới có thể đào tạo với số lượng dữ liệu nhỏ, dẫn đến giảm chi phí phát triển, và do đó cho phép phát triển các mô hình trong các ngôn ngữ có ít người nói. Theo cùng một hướng, chúng tôi sẽ thấy các giải pháp có thể học để nhận biết nhiều ngôn ngữ trong cùng một mô hình. Tổng thể, chúng tôi sẽ thấy nhiều triển khai hơn của các mô hình AI đa ngôn ngữ có thể trả lời truy vấn của người dùng bằng ngôn ngữ bản địa của họ.
Có điều gì khác bạn muốn chia sẻ về Fluent.ai không?
Công nghệ tiếng nói đã đi một chặng đường dài trong những năm gần đây và có rất nhiều tiềm năng phát triển trên con đường phía trước. Tại Fluent.ai, chúng tôi luôn tìm kiếm các trường hợp sử dụng mới cho công nghệ hiện có của mình trong khi liên tục đổi mới nội bộ. Đại dịch COVID-19 đã tạo ra một sự nhạy cảm cao đối với các khu vực chạm cao, chẳng hạn như nút bấm thang máy, ki-ốt trong nhà hàng và nhiều hơn, điều này đã tạo ra một nhu cầu mới về công nghệ kích hoạt bằng giọng nói. Fluent.ai hy vọng sẽ giúp lấp đầy những khoảng trống này, vì các giải pháp của chúng tôi là đa ngôn ngữ, và do đó bao gồm hơn, và hoạt động ngoại tuyến, cung cấp một lớp bảo vệ quyền riêng tư bổ sung. Những chức năng này, như đã đề cập, có khả năng sẽ là tương lai của công nghệ tiếng nói.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập trang web của Fluent.ai.
[1] https://www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit












