Trí tuệ nhân tạo
Modulate giới thiệu mô hình nghe tập thể, định nghĩa lại cách trí tuệ nhân tạo hiểu giọng nói con người.

Trí tuệ nhân tạo đã phát triển nhanh chóng, nhưng một lĩnh vực vẫn luôn khó khăn: thực sự hiểu được giọng nói của con người. Không chỉ là những từ ngữ được nói ra, mà còn là cảm xúc đằng sau chúng, ý định được thể hiện qua giọng điệu và thời điểm, và những tín hiệu tinh tế phân biệt giữa lời nói đùa thân thiện với sự thất vọng, lừa dối hoặc gây hại. Ngày nay, Ngâm nga đã công bố một bước đột phá lớn với việc giới thiệu sản phẩm này. Mô hình Nghe Tập Thể (ELM)một kiến trúc AI mới được thiết kế đặc biệt để hiểu giọng nói trong môi trường thực tế.
Cùng với thông báo về nghiên cứu, Modulate đã công bố... Velma 2.0Đây là lần triển khai sản phẩm đầu tiên của Mô hình Lắng nghe Tập thể. Công ty báo cáo rằng Velma 2.0 vượt trội hơn các mô hình nền tảng hàng đầu về độ chính xác hội thoại trong khi hoạt động với chi phí thấp hơn đáng kể, một tuyên bố đáng chú ý trong bối cảnh các doanh nghiệp đang đánh giá lại tính bền vững của việc triển khai AI quy mô lớn.
Vì sao trí tuệ nhân tạo nhận diện giọng nói lại gặp khó khăn?
Hầu hết các hệ thống AI phân tích giọng nói đều tuân theo một phương pháp quen thuộc. Âm thanh được chuyển đổi thành văn bản, và bản ghi đó sau đó được xử lý bởi một mô hình ngôn ngữ lớn. Mặc dù hiệu quả cho việc phiên âm và tóm tắt, quá trình này lại loại bỏ phần lớn những gì làm cho giọng nói có ý nghĩa.
Giọng điệu, ngữ điệu cảm xúc, sự ngập ngừng, sự mỉa mai, sự chồng chéo lời nói và tiếng ồn xung quanh đều mang ý nghĩa ngữ cảnh quan trọng. Khi lời nói được chuyển hóa thành văn bản, những khía cạnh đó bị mất đi, thường dẫn đến sự thiếu tự nhiên trong giao tiếp. sự hiểu sai ý định hoặc cảm xúc. Điều này trở nên đặc biệt nan giải trong các môi trường như hỗ trợ khách hàng, phát hiện gian lận, trò chơi trực tuyến và truyền thông dựa trên trí tuệ nhân tạo, nơi mà sự tinh tế ảnh hưởng trực tiếp đến kết quả.
Theo Modulate, hạn chế này là do kiến trúc chứ không phải do dữ liệu. Các mô hình ngôn ngữ lớn được tối ưu hóa cho việc dự đoán văn bản, chứ không phải để tích hợp nhiều tín hiệu âm thanh và hành vi trong thời gian thực. Mô hình Nghe Kết Hợp (Ensemble Listening Models) được tạo ra để giải quyết vấn đề đó.
Mô hình nghe tập thể là gì?
Mô hình lắng nghe tổng hợp không phải là một mạng nơ-ron duy nhất được huấn luyện để thực hiện mọi thứ cùng một lúc. Thay vào đó, nó là một hệ thống phối hợp bao gồm nhiều mô hình chuyên biệt, mỗi mô hình chịu trách nhiệm phân tích một khía cạnh khác nhau của tương tác giọng nói.
Trong mô hình ELM, các mô hình riêng biệt phân tích cảm xúc, căng thẳng, các dấu hiệu lừa dối, danh tính người nói, thời gian, ngữ điệu, tiếng ồn nền và cả giọng nói tổng hợp hoặc giả mạo. Các tín hiệu này được đồng bộ hóa thông qua một lớp điều phối được căn chỉnh theo thời gian, tạo ra một cách diễn giải thống nhất và dễ hiểu về những gì đang diễn ra trong cuộc hội thoại.
Sự phân công lao động rõ ràng này là trọng tâm của phương pháp ELM. Thay vì dựa vào một mô hình khổng lồ duy nhất để suy luận ý nghĩa một cách ngầm định, Mô hình Nghe Tập thể kết hợp nhiều góc nhìn mục tiêu, cải thiện cả độ chính xác và tính minh bạch.
Bên trong Velma 2.0
Velma 2.0 là một bước tiến đáng kể so với các hệ thống dựa trên tập hợp mô hình trước đây của Modulate. Nó sử dụng hơn 100 mô hình thành phần hoạt động cùng nhau trong thời gian thực, được cấu trúc trên năm lớp phân tích.
Lớp đầu tiên tập trung vào xử lý âm thanh cơ bản, xác định số lượng người nói, thời gian nói và các khoảng dừng. Tiếp theo là trích xuất tín hiệu âm thanh, giúp xác định trạng thái cảm xúc, mức độ căng thẳng, dấu hiệu lừa dối, các dấu hiệu giọng nói tổng hợp và tiếng ồn môi trường.
Lớp thứ ba đánh giá ý định được nhận thức, phân biệt giữa lời khen chân thành và những nhận xét mỉa mai hoặc thù địch. Mô hình hành vi sau đó theo dõi động thái hội thoại theo thời gian, phát hiện sự thất vọng, nhầm lẫn, lời nói được soạn sẵn hoặc các nỗ lực thao túng tâm lý. Lớp cuối cùng, phân tích hội thoại, chuyển đổi những hiểu biết này thành các sự kiện có liên quan đến doanh nghiệp như khách hàng không hài lòng, vi phạm chính sách, gian lận tiềm tàng hoặc các tác nhân AI hoạt động sai chức năng.
Theo báo cáo của Modulate, Velma 2.0 hiểu ý nghĩa và mục đích hội thoại chính xác hơn khoảng 30% so với các phương pháp dựa trên LLM hàng đầu, đồng thời tiết kiệm chi phí hơn từ 10 đến 100 lần khi áp dụng trên quy mô lớn.
Từ kiểm duyệt game đến phân tích dữ liệu doanh nghiệp
Nguồn gốc của Mô hình Nghe Tập thể nằm ở những công việc ban đầu của Modulate với các trò chơi trực tuyến. Các tựa game nổi tiếng như Call of Duty và Grand Theft Auto Online tạo ra một số môi trường giọng nói khó khăn nhất có thể tưởng tượng được. Các cuộc hội thoại diễn ra nhanh, ồn ào, đầy cảm xúc và chứa nhiều tiếng lóng cũng như các tham chiếu ngữ cảnh.
Việc phân biệt giữa những lời nói đùa cợt và hành vi quấy rối thực sự trong thời gian thực đòi hỏi nhiều hơn là chỉ phiên âm. Khi Modulate vận hành hệ thống kiểm duyệt giọng nói của mình, ToxModDần dần, nhóm nghiên cứu đã tập hợp các mô hình ngày càng phức tạp để nắm bắt những sắc thái tinh tế này. Việc phối hợp hàng chục mô hình chuyên biệt trở nên thiết yếu để đạt được độ chính xác cần thiết, cuối cùng dẫn đến việc nhóm chính thức hóa phương pháp này thành một khung kiến trúc mới.
Velma 2.0 mở rộng kiến trúc đó ra ngoài lĩnh vực trò chơi. Hiện nay, nó cung cấp sức mạnh cho nền tảng doanh nghiệp của Modulate, phân tích hàng trăm triệu cuộc hội thoại trên nhiều ngành công nghiệp để xác định gian lận, hành vi lạm dụng, sự không hài lòng của khách hàng và hoạt động AI bất thường.
Thách thức đối với các mô hình nền tảng
Thông báo này được đưa ra vào thời điểm các doanh nghiệp đang đánh giá lại chiến lược trí tuệ nhân tạo của mình. Bất chấp khoản đầu tư khổng lồ, Một tỷ lệ lớn các sáng kiến về trí tuệ nhân tạo thất bại trong việc được đưa vào sản xuất. hoặc mang lại giá trị lâu dài. Những trở ngại thường gặp bao gồm: ảo giác, chi phí suy luận leo thang, quá trình ra quyết định thiếu minh bạch và khó khăn trong việc tích hợp những hiểu biết từ AI vào quy trình làm việc vận hành.
Mô hình Nghe Tập Thể (Ensemble Listening Models - ELM) giải quyết trực tiếp những vấn đề này. Bằng cách dựa vào nhiều mô hình nhỏ hơn, được xây dựng chuyên dụng thay vì một hệ thống duy nhất, ELM có chi phí vận hành thấp hơn, dễ kiểm toán hơn và dễ hiểu hơn. Mỗi kết quả đầu ra có thể được truy ngược lại các tín hiệu cụ thể, cho phép các tổ chức hiểu lý do tại sao một kết luận được đưa ra.
Mức độ minh bạch này đặc biệt quan trọng trong môi trường được quản lý chặt chẽ hoặc có rủi ro cao, nơi các quyết định "hộp đen" là không thể chấp nhận được. Modulate định vị ELM không phải là sự thay thế cho các mô hình ngôn ngữ lớn, mà là một kiến trúc phù hợp hơn cho trí tuệ giọng nói cấp doanh nghiệp.
Vượt xa chuyển đổi giọng nói thành văn bản
Một trong những khía cạnh tiên tiến nhất của Velma 2.0 là khả năng phân tích cách thức phát âm, chứ không chỉ nội dung phát âm. Điều này bao gồm việc phát hiện giọng nói tổng hợp hoặc giọng nói giả mạo, một mối lo ngại ngày càng tăng khi công nghệ tạo giọng nói trở nên dễ tiếp cận hơn.
Khi công nghệ sao chép giọng nói ngày càng được cải thiện, các doanh nghiệp phải đối mặt với những rủi ro ngày càng tăng liên quan đến gian lận, giả mạo danh tính và tấn công phi kỹ thuật. Bằng cách tích hợp trực tiếp tính năng phát hiện giọng nói tổng hợp vào hệ thống của mình, Velma 2.0 coi tính xác thực là một tín hiệu cốt lõi chứ không phải là một tính năng bổ sung tùy chọn.
Mô hình hành vi của hệ thống cũng cho phép đưa ra những hiểu biết chủ động. Nó có thể xác định khi nào người nói đang đọc theo kịch bản, khi nào sự thất vọng leo thang hoặc khi nào một cuộc tương tác đang chuyển hướng sang xung đột. Những khả năng này cho phép các tổ chức can thiệp sớm hơn và hiệu quả hơn.
Một hướng đi mới cho Trí tuệ nhân tạo doanh nghiệp
Ngâm nga Bài viết mô tả Mô hình Lắng nghe Tập thể như một loại kiến trúc AI mới, khác biệt với cả các quy trình xử lý tín hiệu truyền thống và các mô hình nền tảng lớn. Ý tưởng cốt lõi là các tương tác phức tạp của con người được hiểu rõ hơn thông qua sự chuyên môn hóa phối hợp hơn là mở rộng quy mô một cách thô bạo.
Khi các doanh nghiệp yêu cầu các hệ thống AI có trách nhiệm, hiệu quả và phù hợp với nhu cầu hoạt động thực tế, Mô hình Lắng nghe Tập thể (Ensemble Listening Models) hướng đến một tương lai nơi trí tuệ được xây dựng từ nhiều thành phần tập trung. Với Velma 2.0 hiện đã được triển khai trong môi trường sản xuất, Modulate tin rằng sự thay đổi kiến trúc này sẽ có tác động sâu rộng hơn nhiều so với chỉ kiểm duyệt giọng nói và hỗ trợ khách hàng.
Trong một ngành công nghiệp đang tìm kiếm các giải pháp thay thế cho những "hộp đen" ngày càng lớn, Mô hình Lắng nghe Tập thể cho thấy bước tiến lớn tiếp theo trong trí tuệ nhân tạo có thể đến từ việc lắng nghe cẩn thận hơn, chứ không chỉ đơn thuần là tính toán mạnh mẽ hơn.












