Trí tuệ nhân tạo

StyleTTS 2: Tổng hợp giọng nói cấp độ con người với các mô hình ngôn ngữ lớn

Published December 4, 2023

Updated May 22, 2026

Kunal Kejriwal

Nhờ sự gia tăng của các phương pháp tổng hợp giọng nói tự nhiên và tổng hợp, một trong những thành tựu chính của ngành công nghiệp AI trong những năm gần đây là tổng hợp các khuôn khổ văn bản thành giọng nói hiệu quả với các ứng dụng tiềm năng trên nhiều ngành công nghiệp khác nhau, bao gồm sách nói, trợ lý ảo, thuyết minh và nhiều hơn nữa, với một số mô hình tiên tiến nhất cung cấp hiệu suất và hiệu quả cấp độ con người trên nhiều nhiệm vụ liên quan đến giọng nói. Tuy nhiên, mặc dù hiệu suất mạnh mẽ của chúng, vẫn còn nhiều chỗ để cải thiện cho các nhiệm vụ nhờ giọng nói biểu cảm và đa dạng, yêu cầu một lượng lớn dữ liệu đào tạo để tối ưu hóa các khuôn khổ văn bản thành giọng nói không cần thiết, và độ bền cho các văn bản ngoài phạm vi phân phối hoặc OOD, khiến các nhà phát triển phải làm việc trên một khuôn khổ tổng hợp giọng nói mạnh mẽ và dễ tiếp cận hơn.

Trong bài viết này, chúng tôi sẽ thảo luận về StyleTTS-2, một khuôn khổ tổng hợp giọng nói mạnh mẽ và sáng tạo được xây dựng trên nền tảng của khuôn khổ StyleTTS, và nhằm mục đích trình bày bước tiếp theo hướng tới các hệ thống tổng hợp giọng nói tiên tiến nhất. Khuôn khổ StyleTTS2 mô hình hóa các phong cách giọng nói như các biến ngẫu nhiên ẩn, và sử dụng một mô hình khuếch tán xác suất để lấy mẫu các phong cách giọng nói hoặc biến ngẫu nhiên này, cho phép khuôn khổ StyleTTS2 tổng hợp giọng nói thực tế hiệu quả mà không cần sử dụng đầu vào âm thanh tham chiếu. Nhờ vào cách tiếp cận này, khuôn khổ StyleTTS2 có thể cung cấp kết quả tốt hơn và hiệu suất cao hơn so với các khuôn khổ tổng hợp giọng nói tiên tiến nhất hiện tại, nhưng cũng có thể tận dụng lợi thế của sự tổng hợp giọng nói đa dạng được cung cấp bởi các khuôn khổ mô hình khuếch tán. Chúng tôi sẽ thảo luận về khuôn khổ StyleTTS2 chi tiết hơn, và xem xét kiến trúc và phương pháp luận của nó, cũng như kết quả đạt được bởi khuôn khổ này. Vậy hãy bắt đầu.

StyleTTS2 cho Tổng hợp giọng nói: Giới thiệu

StyleTTS2 là một mô hình tổng hợp giọng nói sáng tạo lấy bước tiếp theo hướng tới xây dựng các khuôn khổ tổng hợp giọng nói cấp độ con người, và nó được xây dựng trên nền tảng của StyleTTS, một mô hình tổng hợp giọng nói dựa trên phong cách. Khuôn khổ StyleTTS2 mô hình hóa các phong cách giọng nói như các biến ngẫu nhiên ẩn, và sử dụng một mô hình khuếch tán xác suất để lấy mẫu các phong cách giọng nói hoặc biến ngẫu nhiên này, cho phép khuôn khổ StyleTTS2 tổng hợp giọng nói thực tế hiệu quả mà không cần sử dụng đầu vào âm thanh tham chiếu. Việc mô hình hóa các phong cách như các biến ngẫu nhiên ẩn là điều phân biệt khuôn khổ StyleTTS2 với khuôn khổ tiền nhiệm của nó, StyleTTS, và nhằm mục đích tạo ra phong cách giọng nói phù hợp nhất cho văn bản đầu vào mà không cần một đầu vào âm thanh tham chiếu, và có thể đạt được sự khuếch tán ẩn hiệu quả trong khi tận dụng lợi thế của khả năng tổng hợp giọng nói đa dạng được cung cấp bởi các mô hình khuếch tán. Ngoài ra, khuôn khổ StyleTTS2 cũng sử dụng các mô hình ngôn ngữ lớn đã được đào tạo trước như WavLM làm bộ phân loại, và kết hợp nó với phương pháp mô hình hóa độ dài mới để đào tạo khuôn khổ từ đầu đến cuối, và cuối cùng tạo ra giọng nói với sự tự nhiên được cải thiện. Nhờ vào cách tiếp cận này, khuôn khổ StyleTTS2 vượt qua các khuôn khổ hiện tại về hiệu suất tổng hợp giọng nói, và là một trong những khuôn khổ hiệu quả nhất cho việc đào tạo các mô hình giọng nói lớn trong môi trường không cần thiết.

Tiếp theo, để cung cấp tổng hợp giọng nói cấp độ con người, khuôn khổ StyleTTs2 kết hợp các kiến thức từ các công việc hiện có, bao gồm các mô hình khuếch tán cho tổng hợp giọng nói, và các mô hình ngôn ngữ lớn. Các mô hình khuếch tán thường được sử dụng cho các nhiệm vụ tổng hợp giọng nói nhờ khả năng kiểm soát giọng nói chi tiết, và khả năng lấy mẫu giọng nói đa dạng. Tuy nhiên, các mô hình khuếch tán không hiệu quả như các khuôn khổ dựa trên GAN không lặp lại, và một trong những lý do chính là yêu cầu lấy mẫu các biểu diễn ẩn, sóng, và phổ mel-đặc trưng lặp lại đến độ dài mục tiêu của giọng nói.

Mặt khác, các công việc gần đây về các mô hình ngôn ngữ lớn đã chỉ ra khả năng của chúng trong việc cải thiện chất lượng tổng hợp giọng nói, và thích nghi tốt với người nói. Các mô hình ngôn ngữ lớn thường chuyển đổi văn bản đầu vào thành các biểu diễn lượng tử hoặc liên tục được dẫn xuất từ các khuôn khổ ngôn ngữ đã được đào tạo trước để tái tạo giọng nói. Tuy nhiên, các tính năng của các mô hình ngôn ngữ này không được tối ưu hóa trực tiếp cho tổng hợp giọng nói. Ngược lại, khuôn khổ StyleTTS2 tận dụng kiến thức được thu thập bởi các khuôn khổ mô hình ngôn ngữ lớn bằng cách đào tạo đối lập để tổng hợp các tính năng của mô hình ngôn ngữ mà không cần sử dụng bản đồ không gian ẩn, và do đó, học một không gian ẩn được tối ưu hóa cho tổng hợp giọng nói trực tiếp.

StyleTTS2: Kiến trúc và Phương pháp luận

Ở cốt lõi, StyleTTS2 được xây dựng trên khuôn khổ tiền nhiệm của nó, StyleTTS, một khuôn khổ tổng hợp giọng nói không tự hồi quy sử dụng một bộ mã hóa phong cách để dẫn xuất một vector phong cách từ âm thanh tham chiếu, cho phép tạo ra giọng nói tự nhiên và biểu cảm. Vector phong cách được sử dụng trong khuôn khổ StyleTTS được kết hợp trực tiếp vào bộ mã hóa, độ dài, và các dự đoán bằng cách sử dụng AdaIN hoặc Chuẩn hóa Instance Thích ứng, cho phép mô hình StyleTTS tạo ra đầu ra giọng nói với nhiều nhịp điệu, độ dài, và thậm chí cảm xúc khác nhau. Khuôn khổ StyleTTS bao gồm 8 mô hình được chia thành ba loại

Mô hình âm thanh hoặc Hệ thống Tạo giọng nói với một bộ mã hóa phong cách, một bộ mã hóa văn bản, và một bộ giải mã giọng nói.
Hệ thống Dự đoán Văn bản thành Giọng nói sử dụng các dự đoán nhịp điệu và độ dài.
Hệ thống Tiện ích bao gồm một bộ căn chỉnh văn bản, một bộ trích xuất âm cao, và một bộ phân loại cho mục đích đào tạo.

Nhờ vào cách tiếp cận này, khuôn khổ StyleTTS cung cấp hiệu suất cấp độ nhà nước về tổng hợp giọng nói có thể kiểm soát và đa dạng. Tuy nhiên, hiệu suất này có những hạn chế như sự suy giảm chất lượng mẫu, hạn chế biểu cảm, và phụ thuộc vào các ứng dụng hạn chế giọng nói trong thời gian thực.

Cải thiện khuôn khổ StyleTTS, mô hình StyleTTS2 dẫn đến các nhiệm vụ tổng hợp giọng nói biểu cảm được cải thiện với hiệu suất ngoài phạm vi phân phối được cải thiện, và chất lượng cấp độ con người cao. Khuôn khổ StyleTTS2 sử dụng một quá trình đào tạo từ đầu đến cuối để tối ưu hóa các thành phần khác nhau với đào tạo đối lập, và tổng hợp sóng trực tiếp chung. Không giống như khuôn khổ StyleTTS, khuôn khổ StyleTTS2 mô hình hóa phong cách giọng nói như một biến ngẫu nhiên, và lấy mẫu nó thông qua các mô hình khuếch tán, tạo ra các mẫu giọng nói đa dạng mà không cần sử dụng âm thanh tham chiếu. Hãy cùng xem xét chi tiết các thành phần này.

Đào tạo từ Đầu đến Cuối cho Sự can thiệp

Trong khuôn khổ StyleTTS2, một cách tiếp cận đào tạo từ đầu đến cuối được sử dụng để tối ưu hóa các thành phần khác nhau của tổng hợp giọng nói cho sự can thiệp mà không cần dựa vào các thành phần cố định. Khuôn khổ StyleTTS2 đạt được điều này bằng cách sửa đổi bộ giải mã để tạo ra sóng trực tiếp từ vector phong cách, đường cong âm cao và năng lượng, và các biểu diễn căn chỉnh. Sau đó, khuôn khổ loại bỏ lớp dự đoán cuối cùng của bộ giải mã và thay thế nó bằng một bộ giải mã sóng. Khuôn khổ StyleTTS2 sử dụng hai bộ mã hóa: bộ giải mã dựa trên HifiGAN để tạo ra sóng trực tiếp, và một bộ giải mã dựa trên iSTFT để tạo ra pha và độ lớn được chuyển đổi thành sóng cho sự can thiệp và đào tạo nhanh hơn.

Hình ảnh trên đại diện cho các mô hình âm thanh được sử dụng cho quá trình đào tạo trước và đào tạo chung. Để giảm thời gian đào tạo, các mô hình được tối ưu hóa trước trong giai đoạn đào tạo trước, sau đó là tối ưu hóa tất cả các thành phần trừ bộ trích xuất âm cao trong quá trình đào tạo chung. Lý do tại sao quá trình đào tạo chung không tối ưu hóa bộ trích xuất âm cao là vì nó được sử dụng để cung cấp sự thật cho các đường cong âm cao.

Hình ảnh trên đại diện cho quá trình đào tạo đối lập của mô hình ngôn ngữ và sự can thiệp với khuôn khổ WavLM được đào tạo trước nhưng không được điều chỉnh trước. Quá trình này khác với quá trình được đề cập ở trên vì nó có thể nhận đầu vào văn bản khác nhau nhưng tích lũy các gradient để cập nhật các tham số trong mỗi批.

Khuếch tán Phong cách

Khuôn khổ StyleTTS2 nhằm mục đích mô hình hóa giọng nói như một phân phối có điều kiện thông qua một biến ngẫu nhiên ẩn, và biến này được gọi là phong cách giọng nói tổng quát, và đại diện cho bất kỳ đặc điểm nào trong mẫu giọng nói ngoài phạm vi nội dung ngữ pháp, bao gồm cả căng thẳng từ vựng, nhịp điệu, tốc độ nói, và thậm chí cả chuyển tiếp hình dạng.

Bộ phân loại Mô hình Ngôn ngữ

Các mô hình ngôn ngữ được biết đến với khả năng mã hóa thông tin có giá trị về nhiều khía cạnh ngữ nghĩa và âm thanh, và các biểu diễn của mô hình ngôn ngữ đã truyền thống được sử dụng để bắt chước nhận thức của con người để đánh giá chất lượng giọng nói tổng hợp. Khuôn khổ StyleTTS2 sử dụng một cách tiếp cận đào tạo đối lập để tận dụng khả năng của các bộ mã hóa mô hình ngôn ngữ để thực hiện các nhiệm vụ tạo ra, và sử dụng một khuôn khổ WavLM 12 lớp làm bộ phân loại. Cách tiếp cận này cho phép khuôn khổ có thể đào tạo trên các văn bản ngoài phạm vi phân phối hoặc OOD, giúp cải thiện hiệu suất. Hơn nữa, để ngăn chặn các vấn đề quá拟 hợp, khuôn khổ lấy mẫu các văn bản OOD và trong phạm vi phân phối với xác suất bằng nhau.

Mô hình hóa Độ dài Khác biệt

Truyền thống, một bộ dự đoán độ dài được sử dụng trong các khuôn khổ tổng hợp giọng nói, tạo ra độ dài của các âm tiết, nhưng các phương pháp lấy mẫu độ dài mà các bộ dự đoán độ dài này sử dụng thường chặn dòng chảy gradient trong quá trình đào tạo từ đầu đến cuối, và khuôn khổ NaturalSpeech sử dụng một bộ lấy mẫu dựa trên sự chú ý cho việc chuyển đổi giọng nói cấp độ con người. Tuy nhiên, khuôn khổ StyleTTS2 thấy rằng cách tiếp cận này không ổn định trong quá trình đào tạo đối lập vì khuôn khổ StyleTTS2 đào tạo bằng cách lấy mẫu khác biệt với đào tạo đối lập mà không mất các điều khoản phụ trội do sự không phù hợp về độ dài do sự khác biệt. Mặc dù việc sử dụng một cách tiếp cận thời gian warping mềm có thể giúp giảm thiểu sự không phù hợp này, việc sử dụng nó không chỉ tốn kém về mặt tính toán mà còn có vấn đề về sự ổn định khi làm việc với các mục tiêu đối lập hoặc các nhiệm vụ tái tạo mel.

Để đối phó với hạn chế này, khuôn khổ StyleTTC2 đề xuất sử dụng một cách tiếp cận lấy mẫu không tham số mới mà không cần đào tạo thêm, và có khả năng tính toán các độ dài khác nhau của các căn chỉnh. Đối với mỗi âm tiết, khuôn khổ StyleTTC2 mô hình hóa căn chỉnh như một biến ngẫu nhiên, và chỉ ra chỉ số của khung giọng nói mà âm tiết căn chỉnh với.

Đào tạo và Đánh giá Mô hình

Khuôn khổ StyleTTC2 được đào tạo và thí nghiệm trên ba tập dữ liệu: VCTK, LibriTTS, và LJSpeech. Thành phần đơn giọng nói của khuôn khổ StyleTTS2 được đào tạo bằng cách sử dụng tập dữ liệu LJSpeech, bao gồm khoảng 13.000 mẫu âm thanh, chia thành 12.500 mẫu đào tạo, 100 mẫu xác thực, và gần 500 mẫu thử nghiệm, với thời gian chạy tổng cộng gần 24 giờ. Thành phần đa giọng nói của khuôn khổ được đào tạo trên tập dữ liệu VCTK, bao gồm hơn 44.000 đoạn âm thanh với hơn 100 người nói bản địa có các giọng nói khác nhau, và được chia thành 43.500 mẫu đào tạo, 100 mẫu xác thực, và gần 500 mẫu thử nghiệm. Cuối cùng, để trang bị cho khuôn khổ khả năng thích nghi không cần thiết, khuôn khổ được đào tạo trên tập dữ liệu LibriTTS kết hợp, bao gồm các đoạn âm thanh tổng cộng khoảng 250 giờ âm thanh với hơn 1.150 người nói. Để đánh giá hiệu suất của nó, mô hình sử dụng hai chỉ số: MOS-N hoặc Điểm chất lượng tự nhiên, và MOS-S hoặc Điểm chất lượng tương tự.

Kết quả

Cách tiếp cận và phương pháp luận được sử dụng trong khuôn khổ StyleTTS2 được thể hiện trong hiệu suất của nó, khi mô hình vượt qua nhiều khuôn khổ tổng hợp giọng nói tiên tiến nhất, đặc biệt là trên tập dữ liệu NaturalSpeech, và trên đường đi, thiết lập một tiêu chuẩn mới cho tập dữ liệu. Hơn nữa, khuôn khổ StyleTTS2 vượt qua khuôn khổ VITS tiên tiến nhất trên tập dữ liệu VCTK, và kết quả được thể hiện trong hình ảnh sau.

Mô hình StyleTTS2 cũng vượt qua các mô hình trước đó trên tập dữ liệu LJSpeech, và nó không hiển thị bất kỳ mức độ suy giảm chất lượng nào trên các văn bản ngoài phạm vi phân phối hoặc OOD như được hiển thị bởi các khuôn khổ trước đó trên cùng các chỉ số. Hơn nữa, trong môi trường không cần thiết, mô hình StyleTTC2 vượt qua khuôn khổ Vall-E hiện có về sự tự nhiên mặc dù nó tụt lại phía sau về sự tương tự. Tuy nhiên, điều đáng chú ý là khuôn khổ StyleTTS2 có thể đạt được hiệu suất cạnh tranh mặc dù chỉ được đào tạo trên 245 giờ mẫu âm thanh khi so sánh với hơn 60.000 giờ đào tạo cho khuôn khổ Vall-E, do đó chứng minh StyleTTC2 là một phương pháp thay thế hiệu quả về dữ liệu so với các phương pháp đào tạo trước lớn hiện có.

Tiếp theo, do thiếu dữ liệu âm thanh có nhãn cảm xúc, khuôn khổ StyleTTC2 sử dụng mô hình GPT-4 để tạo ra hơn 500 thể hiện trên nhiều cảm xúc khác nhau cho việc trực quan hóa các vector phong cách mà khuôn khổ tạo ra bằng quá trình khuếch tán của nó.

Trong hình ảnh đầu tiên, các phong cách cảm xúc đối với cảm xúc của văn bản đầu vào được minh họa bởi các vector phong cách từ mô hình LJSpeech, và nó chứng minh khả năng của khuôn khổ StyleTTC2 trong việc tổng hợp giọng nói biểu cảm với nhiều cảm xúc khác nhau. Hình ảnh thứ hai mô tả các cụm riêng biệt được hình thành cho mỗi một trong năm người nói cá nhân, cho thấy sự đa dạng rộng lớn được nguồn gốc từ một tệp âm thanh đơn. Hình ảnh cuối cùng minh họa cụm cảm xúc lỏng lẻo từ người nói 1, và cho thấy rằng, mặc dù có một số chồng chéo, các cụm cảm xúc dựa trên cảm xúc là nổi bật, cho thấy khả năng điều khiển cảm xúc của giọng nói bất kể mẫu âm thanh tham chiếu và âm điệu đầu vào. Mặc dù sử dụng một cách tiếp cận dựa trên khuếch tán, khuôn khổ StyleTTS2 vẫn vượt qua các khuôn khổ hiện có, bao gồm VITS, ProDiff, và FastDiff.

Suy nghĩ Cuối cùng

Trong bài viết này, chúng tôi đã thảo luận về StyleTTS2, một khuôn khổ tổng hợp giọng nói mới, mạnh mẽ và sáng tạo được xây dựng trên nền tảng của khuôn khổ StyleTTS, và nhằm mục đích trình bày bước tiếp theo hướng tới các hệ thống tổng hợp giọng nói tiên tiến nhất. Khuôn khổ StyleTTS2 mô hình hóa các phong cách giọng nói như các biến ngẫu nhiên ẩn, và sử dụng một mô hình khuếch tán xác suất để lấy mẫu các phong cách giọng nói hoặc biến ngẫu nhiên này, cho phép khuôn khổ StyleTTS2 tổng hợp giọng nói thực tế hiệu quả mà không cần sử dụng đầu vào âm thanh tham chiếu. Khuôn khổ StyleTTS2 sử dụng sự khuếch tán phong cách và các bộ phân loại mô hình ngôn ngữ để đạt được hiệu suất cấp độ con người trên các nhiệm vụ tổng hợp giọng nói, và vượt qua các khuôn khổ hiện có trên nhiều nhiệm vụ giọng nói.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.