Trí tuệ nhân tạo

Modulate Giới Thiệu Các Mô Hình Nghe Tập Hợp, Định Nghĩa Lại Cách Thức AI Hiểu Giọng Nói Của Con Người

Đã xuất bản 20 tháng 1, 2026

Đã cập nhật 17 tháng 5, 2026

Antoine Tardif, Giám đốc điều hành & Người sáng lập của Unite.AI

Trí tuệ nhân tạo đã phát triển nhanh chóng, nhưng một lĩnh vực vẫn còn khó khăn: hiểu thực sự giọng nói của con người. Không chỉ là những từ được nói, mà còn là cảm xúc đằng sau chúng, ý định được hình thành bởi giọng điệu và thời gian, và những tín hiệu tinh vi phân biệt giữa trò đùa thân thiện và sự lừa dối, hoặc gây hại. Hôm nay, Modulate đã công bố một bước đột phá quan trọng với việc giới thiệu Mô Hình Nghe Tập Hợp (ELM), một kiến trúc AI mới được thiết kế đặc biệt cho việc hiểu giọng nói trong thế giới thực.

Cùng với thông báo nghiên cứu, Modulate đã giới thiệu Velma 2.0, phiên bản sản xuất đầu tiên của Mô Hình Nghe Tập Hợp. Công ty báo cáo rằng Velma 2.0 vượt qua các mô hình nền tảng hàng đầu về độ chính xác trong hội thoại trong khi hoạt động với chi phí chỉ bằng một phần nhỏ, một tuyên bố đáng chú ý tại thời điểm các doanh nghiệp đang đánh giá lại tính bền vững của các triển khai AI quy mô lớn.

Tại Sao Giọng Nói Đã Khó Đối Với AI

Hầu hết các hệ thống AI phân tích giọng nói đều theo một phương pháp quen thuộc. Âm thanh được chuyển đổi thành văn bản, và bản ghi đó sau đó được xử lý bởi một mô hình ngôn ngữ lớn. Mặc dù hiệu quả cho việc chuyển录 và tóm tắt, nhưng quá trình này loại bỏ nhiều thứ làm cho giọng nói có ý nghĩa.

Giọng điệu, cảm xúc, sự do dự, sự讽刺, giọng nói chồng chéo và tiếng ồn nền đều mang lại ngữ cảnh quan trọng. Khi giọng nói được làm phẳng thành văn bản, những chiều kích này bị mất, thường dẫn đến sự hiểu lầm ý định hoặc cảm xúc. Điều này trở nên đặc biệt vấn đề trong các môi trường như hỗ trợ khách hàng, phát hiện gian lận, trò chơi trực tuyến và giao tiếp AI, nơi sắc thái trực tiếp ảnh hưởng đến kết quả.

Theo Modulate, hạn chế này là kiến trúc chứ không phải do dữ liệu. Các mô hình ngôn ngữ lớn được tối ưu hóa cho dự đoán văn bản, không phải để tích hợp nhiều tín hiệu âm thanh và hành vi trong thời gian thực. Mô Hình Nghe Tập Hợp được tạo ra để giải quyết khoảng trống đó.

Mô Hình Nghe Tập Hợp Là Gì?

Mô Hình Nghe Tập Hợp không phải là một mạng nơ-ron đơn được đào tạo để làm mọi thứ cùng một lúc. Thay vào đó, nó là một hệ thống được điều phối bao gồm nhiều mô hình chuyên dụng, mỗi mô hình chịu trách nhiệm phân tích một chiều kích khác nhau của tương tác giọng nói.

Trong ELM, các mô hình riêng biệt kiểm tra cảm xúc, căng thẳng, chỉ số lừa dối, danh tính người nói, thời gian, ngữ điệu, tiếng ồn nền và giọng nói tổng hợp hoặc giả mạo. Những tín hiệu này được đồng bộ hóa thông qua một lớp điều phối thời gian thực, tạo ra một giải thích thống nhất và có thể giải thích được về những gì đang xảy ra trong một cuộc hội thoại.

Sự phân chia lao động này là trung tâm của phương pháp ELM. Thay vì dựa vào một mô hình khổng lồ để suy luận ý nghĩa ngầm, Mô Hình Nghe Tập Hợp kết hợp nhiều quan điểm được nhắm mục tiêu, cải thiện cả độ chính xác và tính minh bạch.

Bên Trong Velma 2.0

Velma 2.0 là một sự tiến hóa đáng kể của hệ thống dựa trên tập hợp trước đó của Modulate. Nó sử dụng hơn 100 mô hình thành phần hoạt động cùng nhau trong thời gian thực, được cấu trúc trên năm lớp phân tích.

Lớp đầu tiên tập trung vào xử lý âm thanh cơ bản, xác định số lượng người nói, thời gian nói và khoảng ngừng. Tiếp theo là việc trích xuất tín hiệu âm thanh, xác định trạng thái cảm xúc, mức độ căng thẳng, chỉ số lừa dối, dấu hiệu giọng nói tổng hợp và tiếng ồn môi trường.

Lớp thứ ba đánh giá ý định được nhận thức, phân biệt giữa lời khen chân thành và lời bình luận讽刺 hoặc thù địch. Mô hình hành vi sau đó theo dõi động lực hội thoại theo thời gian, đánh dấu sự thất vọng, sự nhầm lẫn, lời nói theo kịch bản hoặc nỗ lực kỹ thuật xã hội. Lớp cuối cùng, phân tích hội thoại, dịch những thông tin này thành các sự kiện liên quan đến doanh nghiệp như khách hàng không hài lòng, vi phạm chính sách, gian lận tiềm năng hoặc đại lý AI không hoạt động.

Modulate báo cáo rằng Velma 2.0 hiểu ý nghĩa và ý định hội thoại chính xác hơn khoảng 30% so với các phương pháp dựa trên LLM, đồng thời có hiệu quả về chi phí từ 10 đến 100 lần khi mở rộng quy mô.

Từ Điều Khiển Trò Đánh Đến Trí Tuệ Doanh Nghiệp

Nguồn gốc của Mô Hình Nghe Tập Hợp nằm trong công việc ban đầu của Modulate với các trò chơi trực tuyến. Các tựa game phổ biến như Call of Duty và Grand Theft Auto Online tạo ra một số môi trường giọng nói khó khăn nhất có thể tưởng tượng. Cuộc hội thoại diễn ra nhanh chóng, ồn ào, đầy cảm xúc và lấp đầy bởi ngôn ngữ lóng và tham chiếu ngữ cảnh.

Phân biệt giữa trò đùa và hành vi quấy rối thực sự trong thời gian thực đòi hỏi nhiều hơn là chỉ chuyển录. Khi Modulate vận hành hệ thống điều khiển giọng nói của mình, ToxMod, nó dần dần lắp ráp các tập hợp ngày càng phức tạp của các mô hình để nắm bắt những sắc thái này. Việc điều phối hàng chục mô hình chuyên dụng trở nên cần thiết để đạt được độ chính xác yêu cầu, cuối cùng dẫn đội ngũ đến việc chính thức hóa phương pháp thành một khuôn khổ kiến trúc mới.

Velma 2.0 tổng quát hóa kiến trúc đó vượt ra ngoài trò chơi. Ngày nay, nó cung cấp năng lượng cho nền tảng doanh nghiệp của Modulate, phân tích hàng trăm triệu cuộc hội thoại trên các ngành để xác định gian lận, hành vi lạm dụng, sự không hài lòng của khách hàng và hoạt động AI bất thường.

Thử Thách Với Các Mô Hình Nền Tảng

Thông báo này đến vào thời điểm các doanh nghiệp đang đánh giá lại chiến lược AI của mình. Mặc dù đầu tư lớn, một tỷ lệ lớn các sáng kiến AI không đạt được sản xuất hoặc mang lại giá trị lâu dài. Các chướng ngại vật phổ biến bao gồm ảo giác, chi phí suy luận tăng cao, quyết định không rõ ràng và khó khăn trong việc tích hợp thông tin AI vào các quy trình hoạt động.

Mô Hình Nghe Tập Hợp giải quyết những vấn đề này trực tiếp. Bằng cách dựa vào nhiều mô hình nhỏ, được thiết kế riêng biệt thay vì một hệ thống khổng lồ, ELM ít tốn kém hơn để vận hành, dễ kiểm toán hơn và có thể giải thích được. Mỗi đầu ra có thể được truy tìm lại đến các tín hiệu cụ thể, cho phép các tổ chức hiểu tại sao một kết luận được đưa ra.

Mức độ minh bạch này đặc biệt quan trọng trong các môi trường được quản lý hoặc có rủi ro cao, nơi các quyết định của hộp đen là không thể chấp nhận được. Modulate định vị ELM không phải là thay thế cho các mô hình ngôn ngữ lớn, mà là một kiến trúc phù hợp hơn cho trí tuệ giọng nói cấp doanh nghiệp.

Vượt Ra Ngoài Chuyển Đổi Giọng Nói Sang Văn Bản

Một trong những khía cạnh tiến bộ nhất của Velma 2.0 là khả năng phân tích cách thức nói, không chỉ là những gì được nói. Điều này bao gồm việc phát hiện giọng nói tổng hợp hoặc giả mạo, một mối quan ngại ngày càng tăng khi công nghệ tạo giọng nói trở nên dễ tiếp cận hơn.

Khi công nghệ tạo giọng nói cải thiện, các doanh nghiệp phải đối mặt với rủi ro ngày càng tăng liên quan đến gian lận, giả mạo danh tính và kỹ thuật xã hội. Bằng cách nhúng phát hiện giọng nói tổng hợp trực tiếp vào tập hợp của mình, Velma 2.0 coi tính xác thực là một tín hiệu cốt lõi chứ không phải là một tùy chọn.

Mô hình hành vi của hệ thống cũng cho phép có thông tin chi tiết chủ động. Nó có thể xác định khi một người nói đang đọc từ một kịch bản, khi sự thất vọng đang gia tăng hoặc khi một tương tác đang đi đến xung đột. Những khả năng này cho phép các tổ chức can thiệp sớm và hiệu quả hơn.

Hướng Mới Cho Trí Tuệ Doanh Nghiệp

Modulate mô tả Mô Hình Nghe Tập Hợp như một loại kiến trúc AI mới, khác biệt với cả đường ống xử lý tín hiệu truyền thống và các mô hình nền tảng lớn. Sự nhận thức cơ bản là các tương tác con người phức tạp được hiểu tốt hơn thông qua chuyên môn hóa được điều phối chứ không phải là mở rộng quy mô thô.

Khi các doanh nghiệp yêu cầu các hệ thống AI có trách nhiệm, hiệu quả và phù hợp với nhu cầu hoạt động thực sự, Mô Hình Nghe Tập Hợp chỉ ra một tương lai nơi trí tuệ được lắp ráp từ nhiều thành phần tập trung. Với Velma 2.0 hiện đang hoạt động trong môi trường sản xuất, Modulate đang đặt cược rằng sự thay đổi kiến trúc này sẽ vang vọng vượt ra ngoài điều khiển giọng nói và hỗ trợ khách hàng.

Trong một ngành công nghiệp đang tìm kiếm các giải pháp thay thế cho các hộp đen ngày càng lớn, Mô Hình Nghe Tập Hợp gợi ý rằng bước tiến lớn tiếp theo trong AI có thể đến từ việc lắng nghe cẩn thận hơn, không chỉ là tính toán hung hãn hơn.

Antoine Tardif, Giám đốc điều hành & Người sáng lập của Unite.AI

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi niềm đam mê không ngừng nghỉ trong việc định hình và thúc đẩy tương lai của trí tuệ nhân tạo và robot. Là một doanh nhân liên tục, ông tin rằng trí tuệ nhân tạo sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường được bắt gặp khi nói về tiềm năng của các công nghệ gián đoạn và AGI.

Là một nhà tương lai học, ông dành mình để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định hình lại tương lai và thay đổi toàn bộ lĩnh vực.

Unite.AI