Trí tuệ nhân tạo
Modulate Giới Thiệu Các Mô Hình Nghe Tập Hợp, Định Nghĩa Lại Cách Trí Tuệ Nhân Tạo Hiểu Biết Giọng Nói Của Con Người

Trí tuệ nhân tạo đã phát triển nhanh chóng, nhưng một lĩnh vực vẫn còn khó khăn: hiểu thực sự giọng nói của con người. Không chỉ là những từ được nói, mà còn là cảm xúc đằng sau chúng, ý định được định hình bởi giọng điệu và thời gian, và những tín hiệu tinh vi phân biệt giữa trò chuyện thân thiện và thất vọng, lừa dối hoặc gây hại. Hôm nay, Modulate đã công bố một bước đột phá lớn với việc giới thiệu Mô Hình Nghe Tập Hợp (ELM), một kiến trúc trí tuệ nhân tạo mới được thiết kế đặc biệt cho việc hiểu giọng nói trong thế giới thực.
Cùng với thông báo nghiên cứu, Modulate đã giới thiệu Velma 2.0, phiên bản sản xuất đầu tiên của Mô Hình Nghe Tập Hợp. Công ty báo cáo rằng Velma 2.0 vượt qua các mô hình nền tảng hàng đầu về độ chính xác trong hội thoại trong khi hoạt động với chi phí thấp hơn nhiều, một tuyên bố đáng chú ý vào thời điểm các doanh nghiệp đang đánh giá lại tính bền vững của các triển khai trí tuệ nhân tạo quy mô lớn.
Tại Sao Giọng Nói Đã Khó Đối Với Trí Tuệ Nhân Tạo
Hầu hết các hệ thống trí tuệ nhân tạo phân tích giọng nói đều theo một cách tiếp cận quen thuộc. Âm thanh được chuyển đổi thành văn bản, và bản ghi đó sau đó được xử lý bởi một mô hình ngôn ngữ lớn. Mặc dù hiệu quả cho việc chuyển đổi và tóm tắt, nhưng quá trình này loại bỏ nhiều yếu tố làm cho giọng nói có ý nghĩa.
Giọng điệu, cảm xúc, sự do dự, sự讽刺, nói chuyện chồng chéo và tiếng ồn nền đều mang lại ngữ cảnh quan trọng. Khi giọng nói được làm phẳng thành văn bản, những chiều kích này bị mất, thường dẫn đến sự hiểu lầm ý định hoặc cảm xúc. Điều này trở nên đặc biệt vấn đề trong các môi trường như hỗ trợ khách hàng, phát hiện gian lận, trò chơi trực tuyến và giao tiếp dựa trên trí tuệ nhân tạo, nơi sắc thái trực tiếp ảnh hưởng đến kết quả.
Theo Modulate, hạn chế này là kiến trúc chứ không phải dữ liệu. Các mô hình ngôn ngữ lớn được tối ưu hóa cho dự đoán văn bản, không phải cho tích hợp nhiều tín hiệu âm thanh và hành vi trong thời gian thực. Mô Hình Nghe Tập Hợp được tạo ra để giải quyết khoảng trống đó.
Mô Hình Nghe Tập Hợp Là Gì?
Mô Hình Nghe Tập Hợp không phải là một mạng nơ-ron đơn được đào tạo để làm mọi thứ cùng một lúc. Thay vào đó, nó là một hệ thống được điều phối bao gồm nhiều mô hình chuyên dụng, mỗi mô hình chịu trách nhiệm phân tích một chiều khác nhau của tương tác giọng nói.
Trong ELM, các mô hình riêng biệt kiểm tra cảm xúc, căng thẳng, chỉ số lừa dối, danh tính người nói, thời gian, ngữ điệu, tiếng ồn nền và giọng nói tổng hợp hoặc giả mạo có thể. Những tín hiệu này được đồng bộ hóa thông qua một lớp sắp xếp thời gian cho phép tạo ra một giải thích thống nhất và có thể giải thích được về những gì đang xảy ra trong một cuộc trò chuyện.
Sự phân chia lao động rõ ràng này là trung tâm của cách tiếp cận ELM. Thay vì dựa vào một mô hình lớn để suy luận ý nghĩa ngầm, Mô Hình Nghe Tập Hợp kết hợp nhiều quan điểm được nhắm mục tiêu, cải thiện cả độ chính xác và minh bạch.
Bên Trong Velma 2.0
Velma 2.0 là một sự tiến hóa đáng kể của hệ thống dựa trên tập hợp trước đó của Modulate. Nó sử dụng hơn 100 mô hình thành phần hoạt động cùng nhau trong thời gian thực, được cấu trúc trên năm lớp phân tích.
Lớp đầu tiên tập trung vào xử lý âm thanh cơ bản, xác định số lượng người nói, thời gian nói và khoảng ngừng. Tiếp theo là trích xuất tín hiệu âm thanh, xác định trạng thái cảm xúc, mức độ căng thẳng, dấu hiệu lừa dối, dấu hiệu giọng nói tổng hợp và tiếng ồn môi trường.
Lớp thứ ba đánh giá ý định được nhận thức, phân biệt giữa lời khen chân thành và lời bình luận讽刺 hoặc thù địch. Mô hình hóa hành vi sau đó theo dõi động lực hội thoại theo thời gian, đánh dấu sự thất vọng, nhầm lẫn, lời nói theo kịch bản hoặc nỗ lực xã hội. Lớp cuối cùng, phân tích hội thoại, dịch những thông tin này thành các sự kiện liên quan đến doanh nghiệp như khách hàng không hài lòng, vi phạm chính sách, gian lận tiềm năng hoặc đại lý trí tuệ nhân tạo bị lỗi.
Modulate báo cáo rằng Velma 2.0 hiểu ý nghĩa và ý định của hội thoại khoảng 30% chính xác hơn so với các phương pháp dựa trên LLM hàng đầu, trong khi có chi phí thấp hơn từ 10 đến 100 lần khi mở rộng quy mô.
Từ Điều Khiển Trò Chơi Đến Trí Tuệ Doanh Nghiệp
Nguồn gốc của Mô Hình Nghe Tập Hợp nằm trong công việc đầu tiên của Modulate với các trò chơi trực tuyến. Các tựa game phổ biến như Call of Duty và Grand Theft Auto Online tạo ra một số môi trường giọng nói khó khăn nhất có thể tưởng tượng. Các cuộc trò chuyện diễn ra nhanh, ồn ào, đầy cảm xúc và chứa đầy tiếng lóng và tham chiếu ngữ cảnh.
Phân biệt lời nói đùa vui từ lời nói thực sự trong thời gian thực đòi hỏi nhiều hơn là chuyển đổi giọng nói thành văn bản. Khi Modulate vận hành hệ thống điều khiển giọng nói của mình, ToxMod, nó dần dần lắp ráp các tập hợp mô hình ngày càng phức tạp để bắt được những sắc thái này. Điều phối hàng chục mô hình chuyên dụng trở nên cần thiết để đạt được độ chính xác yêu cầu, cuối cùng dẫn đội ngũ đến việc chính thức hóa cách tiếp cận thành một khuôn khổ kiến trúc mới.
Velma 2.0 tổng quát hóa kiến trúc đó vượt ra ngoài trò chơi. Ngày nay, nó cung cấp năng lượng cho nền tảng doanh nghiệp của Modulate, phân tích hàng trăm triệu cuộc trò chuyện trên nhiều ngành để xác định gian lận, hành vi lạm dụng, sự không hài lòng của khách hàng và hoạt động trí tuệ nhân tạo bất thường.
Thử Thách Đối Với Các Mô Hình Nền Tảng
Thông báo này đến vào thời điểm các doanh nghiệp đang đánh giá lại chiến lược trí tuệ nhân tạo của mình. Mặc dù đầu tư lớn, một tỷ lệ lớn các sáng kiến trí tuệ nhân tạo không đạt được sản xuất hoặc mang lại giá trị lâu dài. Các rào cản phổ biến bao gồm ảo giác, chi phí suy luận tăng cao, việc ra quyết định không minh bạch và khó khăn trong việc tích hợp thông tin trí tuệ nhân tạo vào các quy trình hoạt động.
Mô Hình Nghe Tập Hợp giải quyết các vấn đề này trực tiếp. Bằng cách dựa vào nhiều mô hình nhỏ, được xây dựng cho mục đích cụ thể thay vì một hệ thống đơn lẻ khổng lồ, ELM ít tốn kém để vận hành, dễ kiểm toán hơn và có thể giải thích được. Mỗi đầu ra có thể được theo dõi lại đến các tín hiệu cụ thể, cho phép các tổ chức hiểu tại sao một kết luận được đưa ra.
Mức độ minh bạch này đặc biệt quan trọng trong các môi trường được quản lý hoặc có rủi ro cao nơi các quyết định hộp đen là không thể chấp nhận được. Modulate định vị ELM không phải là thay thế cho các mô hình ngôn ngữ lớn, mà là một kiến trúc phù hợp hơn cho trí tuệ giọng nói cấp doanh nghiệp.
Vượt Ra Ngoài Chuyển Đổi Giọng Nói Sang Văn Bản
Một trong những khía cạnh tiến bộ nhất của Velma 2.0 là khả năng phân tích cách một điều gì đó được nói, không chỉ là những gì được nói. Điều này bao gồm việc phát hiện giọng nói tổng hợp hoặc giả mạo, một mối quan ngại ngày càng tăng khi công nghệ tạo giọng nói trở nên dễ tiếp cận hơn.
Khi công nghệ tạo giọng nói cải thiện, các doanh nghiệp phải đối mặt với rủi ro ngày càng tăng liên quan đến gian lận, giả mạo danh tính và kỹ thuật xã hội. Bằng cách nhúng phát hiện giọng nói tổng hợp trực tiếp vào tập hợp của mình, Velma 2.0 đối xử với tính xác thực như một tín hiệu cốt lõi chứ không phải là một tùy chọn bổ sung.
Mô hình hóa hành vi của hệ thống cũng cho phép có những thông tin sâu sắc chủ động. Nó có thể xác định khi một người nói đang đọc từ một kịch bản, khi sự thất vọng đang gia tăng, hoặc khi một tương tác đang đi đến xung đột. Những khả năng này cho phép các tổ chức can thiệp sớm và hiệu quả hơn.
Một Hướng Đi Mới Cho Trí Tuệ Nhân Tạo Doanh Nghiệp
Modulate mô tả Mô Hình Nghe Tập Hợp như một loại kiến trúc trí tuệ nhân tạo mới, khác biệt với cả đường ống xử lý tín hiệu truyền thống và các mô hình nền tảng lớn. Sự hiểu biết cơ bản là rằng các tương tác con người phức tạp được hiểu tốt hơn thông qua chuyên môn hóa được điều phối chứ không phải bằng cách mở rộng quy mô thô.
Khi các doanh nghiệp yêu cầu hệ thống trí tuệ nhân tạo có trách nhiệm, hiệu quả và phù hợp với nhu cầu hoạt động thực sự, Mô Hình Nghe Tập Hợp chỉ ra một tương lai nơi trí tuệ được lắp ráp từ nhiều thành phần tập trung. Với Velma 2.0 hiện đang hoạt động trong các môi trường sản xuất, Modulate đặt cược rằng sự thay đổi kiến trúc này sẽ vang vọng vượt ra ngoài điều khiển giọng nói và hỗ trợ khách hàng.
Trong một ngành công nghiệp đang tìm kiếm các giải pháp thay thế cho các hộp đen ngày càng lớn, Mô Hình Nghe Tập Hợp gợi ý rằng bước tiến lớn tiếp theo trong trí tuệ nhân tạo có thể đến từ việc lắng nghe cẩn thận hơn, không chỉ đơn giản là tính toán hung hãn hơn.












