Trí tuệ nhân tạo
Các nhà phát triển trò chơi tìm đến Voice AI để có cơ hội sáng tạo mới

Công nghệ tổng hợp âm thanh, đặc biệt là tổng hợp giọng nói, đã trở nên phức tạp hơn nhiều trong những năm gần đây. Mặc dù công nghệ chuyển văn bản thành giọng nói đã xuất hiện trong nhiều thập kỷ nhưng công nghệ này đã trở nên tự nhiên hơn nhiều. Các thuật toán gần đây có thể chỉ mất vài giờ âm thanh và tổng hợp các mẫu âm thanh có độ chân thực cao. Khi công nghệ tiến bộ, nhiều ứng dụng mở ra, bao gồm các khả năng trong phương tiện truyền thông sáng tạo. Gần đây, theo báo cáo của VentureBeat, các công ty trò chơi điện tử đã bắt đầu nghiên cứu việc sử dụng công nghệ tạo giọng nói AI để tạo lời thoại cho trò chơi điện tử.
Một công ty, Trò chơi Leviathan, đã bắt đầu triển khai AI bằng giọng nói trong các trò chơi mà họ hiện đang phát triển. Wyeth Ridgway, chủ sở hữu của Leviathan Games, giải thích rằng giọng nói AI có thể thay đổi thiết kế trò chơi theo những cách ấn tượng. Ridgway giải thích rằng việc sử dụng AI giọng nói trong thiết kế trò chơi là một xu hướng mới nổi và so sánh nó với cách phần mềm hoạt hình 3D đã thay đổi trong suốt thập kỷ qua, với các công ty như Pixar tạo ra phần mềm độc quyền nhằm tạo điều kiện thuận lợi cho hoạt hình và mô hình hóa.
Các phương pháp tạo lời nói truyền thống hoạt động bằng cách nối các tệp âm thanh được ghi sẵn lại với nhau một cách nhanh chóng, ghép các câu lại với nhau từ các từ và cụm từ đã có trước đó. Phương pháp tạo giọng nói này yêu cầu ghi lại đoạn hội thoại trị giá hàng trăm giờ và ghi nhãn thủ công các đoạn âm thanh. Nó cũng có vẻ hơi không tự nhiên vì sự biến đổi và nhấn mạnh có xu hướng thay đổi giữa các từ. Để so sánh, AI giọng nói hiện đại nghe tự nhiên hơn nhiều và hoạt động theo một kiểu khác.
Voice AI dựa trên mạng lưới thần kinh sâu. SóngNet là một trong những AI đầu tiên có thể tạo ra các mẫu âm thanh có âm thanh tự nhiên, thuyết phục. Vì các mẫu âm thanh được tạo từ đầu nên không cần phải ghi âm trước hàng trăm giờ đối thoại, miễn là có đủ dữ liệu huấn luyện. Các mô hình GAN và LSTM được tối ưu hóa có thể tạo âm thanh sau khi được đào tạo chỉ trong vài giờ âm thanh được gắn nhãn. Kết quả có thể cực kỳ thuyết phục, chẳng hạn như khi thử nghiệm Duplex của Google đã gọi cho một tiệm làm tóc để đặt lịch hẹn.
Khi các công nghệ này ngày càng mạnh mẽ, được chuẩn hóa và dễ dàng tiếp cận hơn thông qua điện toán đám mây, nhiều khả năng các nhà phát triển game sẽ chuyển sang AI giọng nói để giảm thời gian và chi phí sản xuất. Một số công ty đã và đang tạo ra các mô hình có tiềm năng được các nhà phát triển game sử dụng. Xưởng nhân bản chuyên về công nghệ giọng nói AI và một số mẫu âm thanh do công nghệ của họ tạo ra có thể được nghe thấy tại các liên kết đây và đây.
Không chắc rằng các nhà phát triển trò chơi sẽ chọn từ bỏ việc sử dụng các diễn viên lồng tiếng thay vì AI. Trên thực tế, AI giọng nói có thể mở ra nhiều cơ hội hơn cho các diễn viên lồng tiếng. Hiện tại, nhiều công ty phát triển trò chơi thường bỏ qua việc lồng tiếng đối thoại vì đầu tư thời gian và chi phí liên quan đến việc tạo ra lời thoại lồng tiếng. Các diễn viên lồng tiếng thường cần được đưa trở lại để ghi âm nhiều hơn nếu có những thay đổi đối với kịch bản hoặc nếu các đạo diễn trò chơi muốn có một kiểu biểu diễn khác. Voice AI có thể được sử dụng để thử nghiệm/đối thoại mẫu, cảm nhận về loại kịch bản thay đổi và sửa đổi cần được thực hiện trước khi gọi một diễn viên lồng tiếng chuyên nghiệp để ghi lại kịch bản. Điều này có thể dẫn đến việc nhiều công ty có nguồn lực hơn để đầu tư vào việc tạo ra các cuộc đối thoại có tiếng nói.
Các mẫu giọng nói AI thậm chí có thể được đào tạo dựa trên giọng nói của một diễn viên lồng tiếng cụ thể và AI được sử dụng để tạo các đoạn đối thoại tầm thường, miễn là diễn viên được trả tiền cho việc sử dụng giọng nói của họ. Theo báo cáo của VentureBeat, các diễn viên lồng tiếng như Simon J. Smith, rất lạc quan về việc sử dụng ngày càng nhiều các mô hình AI giọng nói và tiềm năng mở ra các cơ hội lồng tiếng mới của chúng.
Ngoài việc sử dụng AI giọng nói để tạo mẫu kịch bản hoặc tạo lời thoại cho các nhân vật phụ, các nhà phát triển trò chơi cũng có thể sử dụng AI giọng nói để cung cấp cho người chơi nhiều tùy chọn tùy chỉnh hơn cho các trò chơi điện tử nhập vai. Hiện tại, ngay cả những trò chơi cho phép người chơi chọn giọng nói cho hình đại diện của họ thường chỉ có một số tùy chọn. Với việc sử dụng AI bằng giọng nói, các tùy chọn có thể là vô hạn về mặt chức năng.