Connect with us

aiOla Giới Thiệu QUASAR Để Thay Đổi Cách Nhận Dạng Giọng Nói Hoạt Động Trong Sản Xuất

Trí tuệ nhân tạo

aiOla Giới Thiệu QUASAR Để Thay Đổi Cách Nhận Dạng Giọng Nói Hoạt Động Trong Sản Xuất

mm

aiOla đã ra mắt QUASAR, một nền tảng được thiết kế để giải quyết một trong những vấn đề dai dẳng nhất trong lĩnh vực giọng nói AI doanh nghiệp: hiệu suất nhận dạng giọng nói không nhất quán trong điều kiện thực tế. Thay vì khóa khách hàng vào một nhà cung cấp nhận dạng giọng nói tự động (ASR) duy nhất, QUASAR hoạt động như một cổng thông minh động态 định tuyến mỗi tương tác âm thanh đến động cơ ASR có khả năng hoạt động tốt nhất tại thời điểm đó.

Sự thay đổi này rất quan trọng khi giọng nói trở thành đầu vào cốt lõi cho các quy trình làm việc được thúc đẩy bởi AI trên các trung tâm liên lạc, tuân thủ, phân tích, tìm kiếm và ngày càng nhiều, các tác nhân AI tự động. Trong khi các điểm chuẩn thường hướng dẫn việc lựa chọn ASR, môi trường sản xuất bị chi phối bởi các yếu tố như giọng nói, tiếng ồn, thuật ngữ chuyên ngành và chất lượng mạng thay đổi – những yếu tố có thể thay đổi đáng kể độ chính xác nhận dạng từ tương tác này sang tương tác khác.

Tại Sao ASR Một Kích Cỡ Cho Tất Cả Sẽ Thất Bại Khi Tăng Tốc

Hầu hết các doanh nghiệp ngày nay triển khai ASR như một quyết định cơ sở hạ tầng tĩnh. Một nhà cung cấp được chọn dựa trên điểm chuẩn tổng hợp, sau đó được tích hợp sâu vào các quy trình làm việc. Trong thực tế, điều này tạo ra những điểm mù. Một động cơ hoạt động tốt với giọng nói sạch, đọc rõ ràng có thể gặp khó khăn với người nói có giọng hoặc từ vựng chuyên ngành. Một động cơ khác có thể xử lý âm thanh ồn ào tốt nhưng bỏ lỡ các danh từ riêng hoặc chuỗi số quan trọng cho tuân thủ và hóa đơn.

Chuyển đổi nhà cung cấp để giải quyết những khoảng trống này là tốn kém và gây gián đoạn, thường yêu cầu đào tạo lại, xác thực lại và thời gian ngừng hoạt động. Trong khi đó, các mô hình ASR mới và cập nhật được phát hành với tốc độ vượt quá khả năng của hầu hết các tổ chức để kiểm tra và áp dụng chúng. Kết quả là tỷ lệ chứa thấp hơn, tóm tắt không chính xác, phân tích yếu hơn và chi phí đảm bảo chất lượng cao hơn – tất cả đều do các lỗi chuyển录 có thể đã tránh được.

Bên Trong Kiến Trúc Của QUASAR: Xử Lý ASR Là Một Thách Thức Động

QUASAR tiếp cận nhận dạng giọng nói như một thách thức tối ưu hóa thời gian thực. Mỗi yêu cầu âm thanh đến được đánh giá trước khi chuyển录, tính đến các yếu tố như đặc điểm người nói, điều kiện âm thanh và ngữ cảnh lĩnh vực. Dựa trên đánh giá này, hệ thống định tuyến âm thanh đến động cơ ASR có khả năng cung cấp kết quả chất lượng cao nhất cho tương tác cụ thể đó.

Về mặt kỹ thuật, QUASAR hoạt động như một lớp điều phối có thể làm việc trên các API đám mây thương mại, mô hình tự tổ chức và triển khai ASR tùy chỉnh. Sự trừu tượng này cho phép các doanh nghiệp thử nghiệm với các động cơ mới, cân bằng chi phí so với chất lượng và tránh bị khóa nhà cung cấp lâu dài – tất cả mà không cần thay đổi các ứng dụng hạ nguồn.

Ở lõi là một cơ chế đánh giá và xếp hạng không giám sát đánh giá các lựa chọn ASR theo thời gian thực. Thay vì chỉ dựa vào trung bình lịch sử, hệ thống liên tục học hỏi từ các điều kiện trực tiếp, cho phép quyết định chuyển录 thích ứng khi môi trường, người nói và trường hợp sử dụng phát triển.

Hiệu Suất Trên Các Điều Kiện Âm Thanh Thực Tế

Trong các đánh giá nội bộ trên sáu tập dữ liệu chuẩn hóa đa dạng – từ giọng nói sạch, đọc rõ ràng và nói chuyện chuyên nghiệp đến âm thanh có giọng, ồn và nặng về lĩnh vực tài chính – QUASAR đã chọn động cơ ASR hoạt động tốt nhất với độ chính xác tổng thể là 88,8% hoặc lựa chọn hàng đầu khi kết quả hiệu quả là hòa. Độ chính xác đạt đến 97% trên giọng nói sạch và vẫn ở mức 79-88% đối với âm thanh thách thức hơn liên quan đến giọng, tiếng ồn và từ vựng chuyên ngành.

Những kết quả này nhấn mạnh một nhận xét quan trọng: không có động cơ ASR nào liên tục chiến thắng trên tất cả các kịch bản, nhưng định tuyến thông minh có thể tận dụng điểm mạnh của nhiều động cơ.

Bật Tính Giọng Nói Là Cơ Sở Hạ Tầng Sống

Bằng cách tách chất lượng nhận dạng giọng nói khỏi một nhà cung cấp cố định, QUASAR biến ASR thành những gì aiOla mô tả là “cơ sở hạ tầng sống”. Các doanh nghiệp có được khả năng hiển thị chi tiết về hiệu suất chuyển录 tại cấp độ tương tác, cùng với khả năng tối ưu hóa cho độ chính xác, chi phí hoặc độ trễ tùy thuộc vào trường hợp sử dụng.

Cách tiếp cận này cũng tăng tốc việc mở rộng sang các khu vực và lĩnh vực mới. Thay vì chờ một nhà cung cấp duy nhất hỗ trợ một ngôn ngữ, giọng hoặc từ vựng chuyên ngành, các tổ chức có thể định tuyến lưu lượng đến động cơ phù hợp nhất cho đó niềm đó – và chuyển đổi khi có các lựa chọn tốt hơn xuất hiện.

Tầm Nhìn Tổng Thể Của aiOla Về Các Quy Trình Làm Việc Được Thúc Đẩy Bởi Giọng Nói

QUASAR xây dựng trên nhiệm vụ tổng thể của aiOla nhằm biến giọng nói thành giao diện tự nhiên cho các hệ thống doanh nghiệp. Các mô hình được cấp bằng sáng chế của công ty vượt quá nhận dạng giọng nói tiêu chuẩn, kết hợp nhận dạng giọng nói với trí tuệ quy trình làm việc để chuyển đổi đầu vào giọng nói thành dữ liệu thời gian thực có cấu trúc. Điều này cho phép tự động hóa không cần dùng tay trên các ngành công nghiệp quan trọng mà việc nhập dữ liệu thủ công vẫn còn là một nút thắt.

Được hỗ trợ bởi 58 triệu đô la tiền vốn và một đội ngũ nghiên cứu, aiOla đang định vị giọng nói không chỉ là một phương thức nhập liệu, mà là cơ sở hạ tầng cơ bản cho các hoạt động được thúc đẩy bởi AI. Với QUASAR, công ty đang mở rộng tầm nhìn đó đến lớp ASR chính nó – thách thức những giả định lâu đời về cách nhận dạng giọng nói nên được triển khai trên quy mô lớn.

Khi giọng nói trở thành giao diện chính cho các tác nhân AI và hệ thống doanh nghiệp, nhận dạng giọng nói động, nhận thức ngữ cảnh có thể chứng minh là thiết yếu. Việc ra mắt QUASAR báo hiệu một bước chuyển khỏi việc lựa chọn mô hình tĩnh đến điều phối thích ứng, hiệu suất – một cách tiếp cận có thể thay đổi cách toàn bộ hệ sinh thái AI giọng nói tiêu thụ ASR.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.