Kecerdasan buatan

StyleTTS 2: Teknologi Text-to-Speech dengan Tingkat Manusia menggunakan Model Bahasa Besar

Published December 4, 2023

Updated April 4, 2026

Kunal Kejriwal

Berkat peningkatan dalam pendekatan sintesis ucapan alami dan sintetis, salah satu pencapaian utama yang telah diraih oleh industri AI dalam beberapa tahun terakhir adalah mensintesis kerangka kerja text-to-speech yang efektif dengan potensi aplikasi di berbagai industri, termasuk buku audio, asisten virtual, narasi suara, dan lain-lain, dengan beberapa model canggih yang menghasilkan kinerja dan efisiensi tingkat manusia di berbagai tugas terkait ucapan. Namun, meskipun kinerja yang kuat, masih ada ruang untuk perbaikan dalam tugas-tugas tersebut berkat ucapan yang ekspresif dan beragam, kebutuhan akan sejumlah besar data pelatihan untuk mengoptimalkan kerangka kerja text-to-speech zero-shot, dan kekuatan untuk teks di luar distribusi yang menyebabkan pengembang bekerja pada kerangka kerja text-to-speech yang lebih kuat dan lebih mudah diakses.

Dalam artikel ini, kita akan membahas tentang StyleTTS-2, sebuah kerangka kerja text-to-speech yang kuat dan inovatif yang dibangun atas dasar kerangka kerja StyleTTS, dan bertujuan untuk mempresentasikan langkah selanjutnya menuju sistem text-to-speech tingkat canggih. Kerangka kerja StyleTTS2 memodelkan gaya ucapan sebagai variabel acak laten, dan menggunakan model difusi probabilistik untuk mengambil sampel gaya ucapan atau variabel acak tersebut, sehingga memungkinkan kerangka kerja StyleTTS2 untuk mensintesis ucapan yang realistis tanpa menggunakan input audio referensi. Berkat pendekatan ini, kerangka kerja StyleTTS2 dapat menghasilkan hasil yang lebih baik dan menunjukkan efisiensi tinggi dibandingkan dengan kerangka kerja text-to-speech canggih saat ini, tetapi juga dapat memanfaatkan sintesis ucapan yang beragam yang ditawarkan oleh kerangka kerja model difusi.

StyleTTS2 untuk Sintesis Text-to-Speech: Pengantar

StyleTTS2 adalah model sintesis text-to-speech inovatif yang mengambil langkah selanjutnya menuju pembangunan kerangka kerja TTS tingkat manusia, dan dibangun atas dasar StyleTTS, sebuah model generatif text-to-speech berbasis gaya. Kerangka kerja StyleTTS2 memodelkan gaya ucapan sebagai variabel acak laten, dan menggunakan model difusi probabilistik untuk mengambil sampel gaya ucapan atau variabel acak tersebut, sehingga memungkinkan kerangka kerja StyleTTS2 untuk mensintesis ucapan yang realistis tanpa menggunakan input audio referensi. Pemodelan gaya sebagai variabel acak laten adalah apa yang membedakan kerangka kerja StyleTTS2 dari pendahulunya, kerangka kerja StyleTTS, dan bertujuan untuk menghasilkan gaya ucapan yang paling sesuai untuk teks input tanpa memerlukan input audio referensi, dan dapat mencapai difusi laten yang efektif sambil memanfaatkan kemampuan sintesis ucapan yang beragam yang ditawarkan oleh model difusi.

Selain itu, kerangka kerja StyleTTS2 juga menggunakan model bahasa ucapan besar pra-train sebagai diskriminator seperti kerangka kerja WavLM, dan menggabungkannya dengan pendekatan pemodelan durasi diferensial baru untuk melatih kerangka kerja secara end-to-end, dan akhirnya menghasilkan ucapan dengan naturalitas yang ditingkatkan. Berkat pendekatan yang diikuti, kerangka kerja StyleTTS2 outperforms kerangka kerja canggih saat ini untuk tugas-tugas generasi ucapan, dan merupakan salah satu kerangka kerja paling efisien untuk pra-pelatihan model ucapan skala besar dalam pengaturan zero-shot untuk tugas-tugas adaptasi pembicara.

StyleTTS2: Arsitektur dan Metodologi

Pada intinya, StyleTTS2 dibangun atas dasar pendahulunya, kerangka kerja StyleTTS yang merupakan kerangka kerja text-to-speech non-otoregresif yang menggunakan encoder gaya untuk menghasilkan vektor gaya dari audio referensi, sehingga memungkinkan generasi ucapan yang ekspresif dan alami. Vektor gaya yang digunakan dalam kerangka kerja StyleTTS diintegrasikan langsung ke dalam encoder, durasi, dan prediktor dengan menggunakan AdaIN atau Normalisasi Instans Adaptif, sehingga memungkinkan model StyleTTS untuk menghasilkan output ucapan dengan prosodi, durasi, dan emosi yang beragam.

End to End Training untuk Interferensi

Dalam kerangka kerja StyleTTS2, pendekatan pelatihan end-to-end digunakan untuk mengoptimalkan berbagai komponen text-to-speech untuk interferensi tanpa harus bergantung pada komponen yang tetap. Kerangka kerja StyleTTS2 mencapai ini dengan memodifikasi decoder untuk menghasilkan waveform secara langsung dari vektor gaya, kurva pitch & energi, dan representasi yang diselaraskan.

Gambar di atas merepresentasikan model akustik yang digunakan untuk pra-pelatihan dan pelatihan gabungan. Untuk mengurangi waktu pelatihan, modul-modul tersebut dioptimalkan terlebih dahulu dalam fase pra-pelatihan, diikuti dengan optimasi semua komponen kecuali extractor pitch selama pelatihan gabungan.

Style Difusi

Kerangka kerja StyleTTS2 bertujuan untuk memodelkan ucapan sebagai distribusi kondisional melalui variabel laten yang mengikuti distribusi kondisional, dan variabel ini disebut gaya ucapan umum, dan merepresentasikan karakteristik apa pun dalam sampel ucapan di luar cakupan konten fonetik, termasuk stres leksikal, prosodi, kecepatan berbicara, dan bahkan transisi forman.

Model Bahasa Ucapan Diskriminator

Model bahasa ucapan terkenal karena kemampuan umum mereka untuk mengkodekan informasi yang berharga tentang berbagai aspek semantik dan akustik, dan representasi SLM telah secara tradisional dapat meniru persepsi manusia untuk mengevaluasi kualitas ucapan yang disintesis. Kerangka kerja StyleTTS2 menggunakan pendekatan pelatihan adversarial untuk memanfaatkan kemampuan encoder SLM untuk melakukan tugas generatif, dan menggunakan kerangka kerja WavLM 12-lapis sebagai diskriminator.

Pemodelan Durasi Diferensial

Secara tradisional, prediktor durasi digunakan dalam kerangka kerja text-to-speech yang menghasilkan durasi fonem, tetapi metode upsampling yang digunakan oleh prediktor durasi ini sering memblokir aliran gradien selama proses pelatihan E2E, dan kerangka kerja NaturalSpeech menggunakan upsampler berbasis perhatian untuk konversi text-to-speech tingkat manusia.

Hasil

Pendekatan dan metodologi yang digunakan dalam kerangka kerja StyleTTS2 ditunjukkan dalam kinerjanya, karena model ini outperforms beberapa kerangka kerja TTS canggih, terutama pada dataset NaturalSpeech, dan sepanjang jalan, menetapkan standar baru untuk dataset tersebut.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang StyleTTS2, sebuah kerangka kerja text-to-speech inovatif yang dibangun atas dasar kerangka kerja StyleTTS, dan bertujuan untuk mempresentasikan langkah selanjutnya menuju sistem text-to-speech tingkat canggih. Kerangka kerja StyleTTS2 memodelkan gaya ucapan sebagai variabel acak laten, dan menggunakan model difusi probabilistik untuk mengambil sampel gaya ucapan atau variabel acak tersebut, sehingga memungkinkan kerangka kerja StyleTTS2 untuk mensintesis ucapan yang realistis tanpa menggunakan input audio referensi.

Unite.AI