Kết nối với chúng tôi

Trí tuệ nhân tạo giọng nói đang bùng nổ – Nhưng liệu nó đã đủ thực tế để tạo ra tác động?

Lãnh đạo tư tưởng

Trí tuệ nhân tạo giọng nói đang bùng nổ – Nhưng liệu nó đã đủ thực tế để tạo ra tác động?

mm

Thị trường toàn cầu dành cho các trợ lý giọng nói AI đang bùng nổ. dự Dự kiến ​​thị trường trí tuệ nhân tạo giọng nói sẽ tăng trưởng từ 3.14 tỷ đô la vào năm 2024 lên 47.5 tỷ đô la vào năm 2034. Không còn là công nghệ ngách, hầu hết các công ty công nghệ lớn (bao gồm Google, Amazon, Apple, Meta và Microsoft) hiện đều có sản phẩm giọng nói, các công ty khởi nghiệp đang cung cấp những đổi mới cho thị trường, và bản thân công nghệ này ngày càng trở nên dễ tiếp cận hơn với các mô hình mã nguồn mở. Từ các trợ lý ảo hàng ngày như Siri và Alexa đến lồng tiếng vùng miền trong phim và truyền hình, chưa bao giờ có cơ hội màu mỡ hơn cho việc ứng dụng trí tuệ nhân tạo giọng nói.

Nhưng khi khả năng tiếp cận trí tuệ nhân tạo giọng nói ngày càng phổ biến, trải nghiệm vẫn còn rất khác biệt. Đó là bởi vì phần khó nhất của trí tuệ nhân tạo giọng nói không phải là tạo ra âm thanh của một giọng nói, mà là tạo ra một giọng nói nghe có vẻ chân thực trong các tương tác hàng ngày. Sự phổ biến rộng rãi không có nghĩa là những giọng nói AI này đủ đáp ứng nhu cầu của doanh nghiệp hoặc cho việc người dùng chấp nhận lâu dài. Cuộc cạnh tranh thực sự sẽ thuộc về những ai cung cấp được giọng nói nghe có vẻ giống con người, năng động và có nhận thức về cảm xúc trong các tình huống thực tế.

Thung lũng kỳ lạ: "Đủ tốt" là chưa đủ.

Ngày càng nhiều người trong ngành cho rằng việc đạt được giọng nói AI tương đối giống con người sẽ là "đủ tốt" để được sử dụng rộng rãi, và cuộc đua sẽ kết thúc một cách hiệu quả. Người dùng sẽ chấp nhận sự thiếu tự nhiên nhỏ vì tiện ích của nó vượt trội hơn so với những thiếu sót.

Trên thực tế, giả định này hiểu sai cách mọi người cảm nhận lời nói, cảm xúc và tính chân thực. Những giọng nói gần giống giọng người thường dễ tạo ra sự khác biệt. “thung lũng kỳ lạ” Tác động này khiến người dùng cảm thấy khó chịu, đặc biệt là trong các hoạt động hỗ trợ khách hàng, tương tác chăm sóc sức khỏe hoặc lập kế hoạch du lịch, nơi cảm xúc có thể dâng cao và việc cảm thấy được thấu hiểu là vô cùng quan trọng. Khi mức độ tiếp xúc với giọng nói AI tăng lên, khả năng chịu đựng sự tầm thường đang giảm xuống.

Trong thực tế, nghiên cứu Các nghiên cứu về tương tác giữa người và máy móc luôn chỉ ra rằng khi một giọng nói được gần như Tuy giọng nói nghe giống con người nhưng thiếu sự đồng điệu về cảm xúc hoặc nhịp điệu, người dùng theo bản năng cảm nhận được điều gì đó không ổn. Ví dụ, một số công ty sử dụng lễ tân AI nhận thấy người dùng mô tả các tương tác là rùng rợn hoặc khó chịu vì giọng nói có những sự sai lệch tinh tế về nhịp điệu hoặc cảm xúc, khiến họ cảm thấy không thoải mái. Trong môi trường tiếp xúc trực tiếp với khách hàng, ngay cả những khoảnh khắc khó chịu nhỏ cũng có thể nhanh chóng tích tụ thành sự không hài lòng thực sự và cuối cùng là sự bỏ đi.

Thoát khỏi lối suy nghĩ “chỉ cần đủ tốt” ngày càng trở nên quan trọng đối với các mục tiêu kinh doanh. Trí tuệ nhân tạo (AI) được dự đoán sẽ xử lý khoảng... 50% số lượng trường hợp dịch vụ khách hàng vào năm 2027, tuy nhiên tương tác tự động tiêu cực Điều này có thể gây tổn hại trực tiếp đến nhận thức về thương hiệu. Một tương tác chatbot tồi tệ, tiếp theo là trải nghiệm giọng nói kém hoặc không tự nhiên, rất có thể sẽ tạo ra cảm giác thất vọng sâu sắc và báo hiệu rằng không có cách nào đáng tin cậy để nhận được sự trợ giúp thực sự.

Khi người tiêu dùng ngày càng tương tác nhiều hơn với giọng nói AI, khả năng chịu đựng đối với các tương tác máy móc hoặc vụng về sẽ giảm đi, và người dùng sẽ nhanh chóng rời bỏ, gây ra những hậu quả nghiêm trọng cho hoạt động kinh doanh của các công ty dựa vào những công cụ này.

Chủ nghĩa hiện thực đích thực

Trong trí tuệ nhân tạo giọng nói, sự chân thực ở mức độ con người không chỉ đơn thuần là độ chính xác về phát âm hay loại bỏ những âm điệu nghe như robot. Nó còn đòi hỏi sự kết hợp đa chiều giữa cảm xúc, ngữ cảnh, sắc thái văn hóa, thời điểm và các yếu tố tinh tế hơn. Thử thách thực sự nằm ở việc phân tích, thấu hiểu và cuối cùng là tái tạo các lớp cấu thành nên giao tiếp của con người, chẳng hạn như:

Phạm vi cảm xúc và tính chân thực

Vẻ đẹp của giọng nói con người nằm ở khả năng truyền tải sự ấm áp, khẩn cấp, hài hước, thất vọng, phấn khích và vô số cảm xúc khác, cùng với chính ngôn từ. Sắc thái cảm xúc này ảnh hưởng trực tiếp đến việc người dùng cảm thấy được thấu hiểu hay bị coi thường, được trấn an hay khó chịu.

Ví dụ, hãy tưởng tượng một trợ lý ảo AI đang giải quyết vấn đề với một khách hàng đang bực bội. Bot có thể nói, “Tôi hoàn toàn hiểu bạn đang cảm thấy bực bội như thế nào. Hãy cùng xem chúng ta có thể khắc phục vấn đề này ra sao.” Khi giọng nói phát ra những lời đó thể hiện sự đồng cảm, nó có thể làm giảm căng thẳng cho người gọi và báo hiệu việc giải quyết xung đột thực sự. Ngược lại, nếu những lời tương tự được nói bằng giọng đều đều hoặc không tự nhiên, phản ứng sẽ bị đảo ngược.

Trí thông minh bối cảnh

Con người theo bản năng điều chỉnh lời nói của mình dựa trên mức độ khẩn cấp của tình huống, trạng thái cảm xúc của người nghe, độ phức tạp của thông tin và bối cảnh xã hội. Giọng nói AI hiện nay có xu hướng nói các câu thoại một cách đồng nhất, bỏ qua các tín hiệu ngữ cảnh khiến lời nói trở nên tự nhiên và chân thực. Lời nói chân thực đòi hỏi sự hiểu biết không chỉ về từ ngữ, mà còn về lý do tại sao chúng được nói ra và tâm thế của người nói.

Biểu cảm vi mô trong âm thanh

Lời nói tự nhiên bao gồm những khiếm khuyết nhỏ như hơi thở, tạm dừng, dấu hiệu ngập ngừng và nhịp điệu không đều. Đó là một trong những lý do chính khiến lời nói của AI hoàn hảo, không bị gián đoạn, vốn dĩ nghe kém tự nhiên hơn. Thật không may, việc tái tạo những dấu hiệu này một cách thuyết phục vẫn là một thách thức về mặt kỹ thuật.

Sắc thái văn hóa và ngôn ngữ

Bên cạnh việc tái tạo giọng điệu, giao tiếp vùng miền đích thực phụ thuộc vào sự hiểu biết về nhịp điệu, ngữ điệu, thành ngữ, mức độ trang trọng và phong cách giao tiếp của các nền văn hóa khác nhau. Ví dụ, một kiểu ngữ điệu lên cao thể hiện sự thân thiện và phấn khích trong một nền văn hóa có thể được hiểu là sự không chắc chắn hoặc nghi vấn trong một nền văn hóa khác, có khả năng làm thay đổi nhận thức của người dùng về ý định hoặc cảm xúc.

Nếu không tích hợp những sắc thái giọng nói này vào các mô hình AI, ngay cả những giọng nói chính xác về mặt kỹ thuật cũng có thể gây cảm giác không phù hợp hoặc khó hiểu đối với người dùng đến từ các nền văn hóa khác nhau. Tính chân thực thực sự đòi hỏi khả năng điều chỉnh giọng điệu và phong cách dựa trên kỳ vọng của từng người dùng cụ thể.

Khi xem xét tất cả những yếu tố tinh tế nhưng quan trọng này, rõ ràng là giọng nói AI không chỉ phải... âm thanh giống như con người nhưng cũng phản ứng Trong thời gian thực, giống như một con người. Đó là lý do tại sao độ trễ là một yếu tố quan trọng để đánh giá mức độ giống con người của giọng nói AI. Trong cuộc trò chuyện tự nhiên, con người lần lượt nói chuyện với khoảng thời gian trung bình là... 250 mili giâyNếu thời gian tương tác kéo dài hơn, cuộc trò chuyện sẽ trở nên chậm chạp, thiếu tập trung hoặc khó hiểu. Chỉ cần một chút khác biệt giữa một khoảng lặng suy nghĩ và một sự chậm trễ kỹ thuật cũng đủ để phá vỡ ảo tưởng về cuộc trò chuyện tự nhiên và khiến giọng nói trở nên kém tập trung hơn.

Tại sao vấn đề này

Trong tương lai, thị trường chắc chắn sẽ ưu tiên những công ty có thể đáp ứng cả tính chân thực và khả năng phản hồi tức thời.

Đối với các trợ lý và tác nhân AI, việc người dùng chấp nhận và duy trì sử dụng phụ thuộc vào việc liệu họ có muốn tương tác với công nghệ đó ngay từ đầu hay không. Sự khác biệt giữa một công cụ mà người dùng chỉ thử một lần và một công cụ mà họ sử dụng hàng ngày nằm ở chất lượng trải nghiệm hội thoại.

Trong ngành giải trí, sự cuốn hút và giữ chân khán giả phụ thuộc vào tính chân thực của nội dung, và chỉ một câu thoại thiếu tự nhiên cũng có thể phá vỡ sự tương tác của người xem. Giọng nói AI được sử dụng trong lồng tiếng hoặc diễn xuất nhân vật phải hoàn toàn hòa nhập vào cốt truyện để duy trì tác động cảm xúc.

Đối với dịch vụ hỗ trợ khách hàng, sự tin tưởng và thấu cảm là tối quan trọng, đặc biệt là khi nhiều tương tác với khách hàng diễn ra trong những khoảnh khắc bực bội hoặc bối rối. Một giọng nói cứng nhắc hoặc thiếu cảm xúc có thể làm trầm trọng thêm tình hình thay vì giải quyết vấn đề. Người dùng mong đợi những giọng nói thể hiện sự quan tâm, kiên nhẫn hoặc trấn an, chứ không chỉ là những câu trả lời rập khuôn.

Tiếp theo là gì

Những công ty chiến thắng trong cuộc đua trí tuệ nhân tạo giọng nói sẽ là những công ty nắm vững sắc thái cảm xúc, hiểu được sự khác biệt về văn hóa và ngữ cảnh, phản hồi tức thì và trôi chảy, đồng thời mang đến trải nghiệm không thể phân biệt được với việc nói chuyện với con người.

Trong một thị trường mà bất cứ ai cũng có thể tạo ra giọng nói AI và kỳ vọng của người dùng cũng thay đổi theo, "đủ tốt" sẽ nhanh chóng trở nên không còn tốt nữa. Cách duy nhất để duy trì khả năng cạnh tranh là tạo ra những giọng nói AI mà người dùng dễ dàng quên rằng đó là giọng nói AI.

Oz Krakowski, Giám đốc Phát triển Kinh doanh, lãnh đạo của Deepdub phát triển kinh doanh và bán hàng chiến lược và đã giám sát việc bản địa hóa hàng trăm giờ nội dung có kịch bản và không có kịch bản sang nhiều ngôn ngữ bằng cách sử dụng nền tảng bản địa hóa đột phá do AI cung cấp của Deepdub. Từ việc lồng tiếng cho các vở kịch, phim độc lập từng đoạt giải thưởng, bộ phim truyền hình có kịch bản đầu tiên được lồng tiếng trên Hulu ("Vanda") cho đến nội dung không có kịch bản như chương trình truyền hình thực tế "Hardcore Pawn" và phim tài liệu về tội phạm "Forensic Files", Oz đã thúc đẩy sự hợp tác và quan hệ đối tác với các hãng phim và chủ sở hữu nội dung trên toàn cầu, anh ấy cũng là thành viên của Ủy ban lập kế hoạch Giải thưởng DEG. Oz là một doanh nhân nối tiếp và trước khi gia nhập Deepdub, anh ấy là đồng sáng lập của một công ty khởi nghiệp trong thị trường chăm sóc sức khỏe.