Connect with us

Kecerdasan buatan

HierSpeech++ : Inferensi Variasional Hierarkis untuk Sintesis Suara Zero-Shot

mm

Pengembangan dan kemajuan baru-baru ini dalam kemampuan model bahasa besar telah memainkan peran penting dalam kemajuan kerangka kerja berbasis LLM untuk tugas sintesis suara dan generasi audio, terutama dalam pengaturan zero-shot. Kerangka sintesis suara tradisional telah menyaksikan kemajuan signifikan sebagai hasil dari integrasi fitur tambahan seperti kodek audio neural untuk audio dan unit suara yang terpisah. Meskipun kerangka sintesis suara dan audio ini menghasilkan hasil yang memuaskan, masih ada ruang untuk perbaikan karena kerangka kerja audio berbasis LLM saat ini memiliki tiga keterbatasan utama

  1. Mereka cenderung menghasilkan output audio secara otomatis yang pada akhirnya menyebabkan kekurangan kekuatan dan kecepatan interferensi yang lambat dan menghasilkan kesalahan pengucapan, melewatkan, atau mengulangi. 
  2. Mereka cenderung bergantung pada unit suara terpisah atau kodek audio neural pra-terlatih. 
  3. Mereka sering memerlukan sejumlah besar data pelatihan. 

Untuk mengatasi masalah di atas dan meningkatkan kemampuan model sintesis suara dan audio berbasis LLM, pengembang telah mengembangkan HierSpeech++, sebuah sintetisator suara zero-shot yang kuat dan efisien untuk konversi teks ke suara atau TTS. Kerangka HierSpeech++ membangun pada pembelajaran dari kerangka sintesis suara hierarkis yang tidak hanya meningkatkan kekuatan, tetapi juga menambah ekspresivitas output suara sintetis sambil juga meningkatkan kesamaan dan keserupaan suara buatan dengan suara asli bahkan dalam pengaturan zero-shot. 

Dalam artikel ini, kita akan membahas kerangka HierSpeech++ secara rinci dan melihat arsitektur model, cara kerjanya, dan hasilnya dibandingkan dengan model generasi teks dan audio yang ada. Jadi mari kita mulai. 

HierSpeech++ : Inferensi Variasional Hierarkis untuk Sintesis Suara Zero-Shot

HierSpeech++ adalah kerangka sintesis suara zero-shot yang cepat, kuat, dan efisien yang menggunakan pipa sintesis suara hierarkis, dan dengan mengadopsi kerangka sintesis suara ujung-ke-ujung ini, model HierSpeech++ dapat memaksimalkan potensi generasi gelombang yang berkualitas tinggi untuk menghubungkan kesenjangan antara representasi semantik dan akustik dengan mengadopsi representasi suara mandiri sebagai representasi semantik suara, dan dengan demikian mencoba memecahkan keterbatasan gaya adaptasi saat ini. Kerangka sintesis suara ujung-ke-ujung pertama kali diperkenalkan oleh model VITS, dan mengadopsi VAE atau Variational Auto-Encoder yang ditingkatkan dengan pelatihan adversarial dan aliran normalisasi. Selanjutnya, kerangka VAE dengan pipa pelatihan ujung-ke-ujung memiliki kemampuan untuk menghasilkan gelombang audio berkualitas tinggi dengan kualitas sintesis suara perseptual yang jauh lebih baik daripada yang dihasilkan oleh kerangka sintesis suara lainnya. 

Kualitas rekonstruksi audio dari kerangka ini dapat ditingkatkan lebih lanjut dengan menggunakan pengkode akustik kondisional hierarkis seperti yang digunakan dalam kerangka HierSpeech. Meskipun potensinya, model berbasis pipa pelatihan ujung-ke-ujung memiliki keterbatasan tertentu, terutama dalam pengaturan zero-shot karena meskipun mereka dapat mensintesis sampel suara dengan kualitas audio tinggi, kesamaan suara dalam tugas kloning suara zero-shot masih dipenuhi dengan kompleksitas komputasi yang tinggi. Di sisi lain, model sintesis suara berbasis difusi berperforma baik dalam hal adaptasi suara tetapi mereka masih jauh dari sempurna karena mereka menggunakan proses generasi interaktif yang memperlambat kecepatan inferensi, mereka rentan terhadap data bising, dan sebagai hasil dari ketidakcocokan antara pelatihan dan inferensi proses generasi dua tahap antara Mel-spectrogram dan gelombang audio yang dihasilkan, kualitas audio tidak memuaskan. 

Untuk mengatasi masalah yang dihadapi oleh pendahulunya, model HierSpeech++ menggunakan sintetisator suara hierarkis, super-resolusi suara, dan komponen teks-ke-vektor, dan memperkenalkan sintetisator suara hierarkis yang ditingkatkan yang dibangun di atas pengkode akustik kondisional hierarkis atau Variational AutoEncoder. Dalam upaya untuk meningkatkan kualitas audio di luar kualitas perseptual, kerangka HierSpeech++ mengadopsi dual-audio untuk meningkatkan posterior akustik, dan meningkatkan generalisasi out-of-distribution dengan menggunakan generator adaptif hierarkis yang dilengkapi dengan generasi kondisional dan tidak kondisional. Selanjutnya, untuk memisahkan komponen suara, dan meningkatkan informasi semantik yang terkait suara dan tidak terkait suara, kerangka HierSpeech++ juga mengadopsi pengkode semantik multi-jalur berbasis teori sumber-filter. Sebagai hasil dari penggunaan Variational AutoEncoder, model HierSpeech++ dapat menghubungkan dan mempelajari representasi secara hierarkis, dan secara progresif beradaptasi dengan gaya suara target untuk menyimpulkan gelombang audio. Selain itu, kerangka HierSpeech++ juga menerapkan jaringan normalisasi aliran Transformer berarah ganda dalam upaya untuk meningkatkan adaptasi, dan juga mengurangi ketidakcocokan antara pelatihan dan inferensi. 

Secara keseluruhan, model HierSpeech++ adalah kerangka sintesis suara hierarkis yang sepenuhnya paralel, baru, dan kuat yang ditujukan untuk mensintesis sampel suara dalam pengaturan zero-shot, dan mencoba membuat kontribusi berikut

  • Menggunakan kerangka sintesis suara hierarkis untuk mengontrol dan mentransfer gaya suara dan prosodi. 
  • Mengaktifkan skalabilitas data, dan sintesis suara resolusi tinggi dengan mensampling gelombang audio dari 16 ke 48 kHz. 
  • Mencapai kemampuan manusia di seluruh konversi suara zero-shot dan tugas teks-ke-suara. 

HierSpeech++ : Komponen Model dan Arsitektur

Seperti yang dibahas, HierSpeech++ adalah model sintesis suara zero-shot yang mencoba mencapai akurasi manusia dalam hal kesamaan suara dan keserupaan suara. 

Model HierSpeech++ terdiri dari komponen yang berbeda termasuk sintetisator suara hierarkis, super-resolusi suara, dan teks-ke-vektor ke TTV yang bekerja secara sinkron untuk memfasilitasi pelatihan masing-masing model yang dapat secara efektif menggunakan sejumlah besar data suara resolusi rendah untuk kloning suara. Mari kita pecah kerangka ini dan membahas masing-masing komponen. 

Representasi Suara

Karena pita frekuensi manusia berada di bawah 4 kHz, untuk sintesis suara, kerangka HierSpeech++ mensampling audio pada 16 kHz. Selanjutnya untuk merekonstruksi sinyal suara, sangat penting untuk menggunakan setidaknya dua kali komponen frekuensi suara tertinggi serta mensampling audio. Untuk mencapai kualitas perseptual yang ditingkatkan, kerangka HierSpeech++ menggunakan komponen super-resolusi suara atau SpeechSR untuk mensampling gelombang audio dari 16 ke 48 kHz, dan menggunakan representasi resolusi rendah untuk representasi semantik dan akustik. 

Untuk representasi akustik, kerangka teks-ke-suara tradisional menggunakan Mel-spectrogram sebagai fitur akustik antara yang kemudian diubah dari gelombang dengan bantuan STFT atau Short-Time Fourier Transform. Namun, perlu diingat bahwa karena fitur akustik adalah representasi kaya yang mencakup berbagai atribut termasuk konten dan pengucapan, informasi suara, dan lain-lain yang membuat kerangka sulit untuk menyimpulkan representasi ini, situasi yang sering menyebabkan kesalahan pengucapan, kekurangan kesamaan, atau penghalusan suara. 

Melanjutkan, untuk mengekstrak representasi semantik kontinu dari gelombang, kerangka HierSpeech++ menggunakan kerangka Wav2Vec sebagai lawan dari pendekatan representasi suara mandiri yang populer untuk representasi semantik. Meskipun pendekatan ini membuat alternatif yang baik untuk model monolingual yang kaya, itu mempengaruhi kemampuan kloning suara zero-shot model dalam hal kekuatan dan ekspresivitas terutama pada tugas sintesis suara multibahasa. 

Sintetisator Suara Hierarkis

Komponen Sintetisator Suara Hierarkis adalah batu fondasi untuk kerangka HierSpeech++ karena memungkinkan pelatihan modul tanpa menggunakan label seperti transkrip teks atau ID suara, dan hanya bergantung pada data suara. Untuk meningkatkan kapasitas akustik, model sintesis suara state-of-the-art sebelumnya menggantikan Mel-spectrogram dengan spektrum linier, namun pendekatan ini meminimalkan skor divergensi KL dalam hal periodisitas pitch, PESQ, skor suara dan tidak suara, dan bahkan jarak Mel-spectrogram. Sintetisator Suara Hierarkis menggunakan Pengkode Akustik Dual-audio untuk memecahkan tantangan yang ditawarkan oleh penggunaan spektrum linier yang dirancang untuk menangkap representasi akustik yang lebih kaya dan lebih komprehensif. Kerangka ini juga menggunakan pengkode gelombang untuk menyuling informasi dari gelombang audio mentah, dan menggabungkannya dengan representasi spektrum linier, dan akhirnya memproyeksikan representasi akustik sebagai representasi yang digabungkan. 

Selanjutnya, untuk menangani representasi semantik yang terkait suara dan tidak terkait suara, kerangka HierSpeech++ menggunakan representasi suara mandiri multi-jalur di mana masing-masing representasi individual digunakan untuk adaptasi gaya hierarkis dengan representasi semantik yang diekstrak untuk mendapatkan informasi linguistik dari lapisan tengah MMS. Kerangka ini juga menggunakan frekuensi dasar untuk meningkatkan pemisahan suara yang memungkinkan kontrol kontur pitch manual. Kerangka ini juga menggunakan representasi linguistik sebagai informasi kondisional untuk menghasilkan gelombang audio secara hierarkis, dan menggunakan representasi linguistik yang ditingkatkan dari representasi suara mandiri. Juga perlu diingat bahwa representasi akustik yang diekstrak selama pelatihan dengan menggunakan gelombang dan spektrum linier digunakan untuk merekonstruksi gelombang audio mentah, dan inferensi variasional hierarkis digunakan untuk menghubungkan representasi akustik dengan representasi linguistik multi-jalur. Kerangka ini juga menggunakan generator adaptif hierarkis (HAG) untuk menghasilkan sampel semantik-ke-gelombang, dan representasi yang dihasilkan yang mencakup representasi gaya dan representasi akustik diberikan kepada generator sumber dan gelombang. 

Teks-ke-Vektor

Untuk sintesis teks-ke-suara, kerangka HierSpeech++ menggunakan model teks-ke-vektor atau TTV yang menghasilkan frekuensi dasar dan representasi semantik dari urutan teks, dan menggunakan pencarian penyelarasan monotonik yang dipasangkan dengan Variational AutoEncoder untuk menyelaraskan suara dan teks secara internal. Kerangka HierSpeech++ kemudian menggantikan spektrum linier dengan representasi linier mandiri, dan merekonstruksi representasi yang sama untuk berfungsi sebagai output untuk TTV. 

Selain itu, kerangka HierSpeech++ memprediksi frekuensi dasar dengan resolusi yang empat kali lebih besar dibandingkan dengan representasi suara mandiri, dan menggunakan representasi teks kondisional sebagai informasi prior. Sebagai hasil dari informasi semantik representasi suara mandiri, kerangka ini dapat mentransfer gaya prosodi dalam model teks-ke-vektor, dan memberikan representasi laten kepada pengkode fonem untuk meningkatkan kemampuan linguistik representasi. 

SpeechSR atau Super-Resolusi Suara

Kerangka HierSpeech++ dilatih pada dataset resolusi rendah yang relatif dalam hal efisiensi data dan ketersediaan, dan mensampling gelombang suara resolusi rendah ke gelombang suara resolusi tinggi dari 16 ke 48 kHz. Kerangka ini juga menggantikan konvolusi transpos dengan upsampler tetangga terdekat yang sebelumnya diketahui dapat mengurangi artefak sebagai hasil dari konvolusi transpos. 

Arsitektur

Encoder konten model teks-ke-vektor terdiri dari 16 lapisan WaveNet non-kasual dengan ukuran kernel 5 dan ukuran tersembunyi 256 sedangkan decoder konten terdiri dari 8 lapisan WaveNet non-kasual dengan ukuran kernel 5 dan ukuran tersembunyi 512. Komponen encoder teks terdiri dari tiga jaringan Transformer kondisional prosodi dan tiga jaringan Transformer tidak kondisional dengan ukuran kernel 9, ukuran filter 1024, dan ukuran tersembunyi 256 dengan encoder teks memiliki tingkat dropout 0,2. Untuk mengkodekan informasi yang berdekatan, dan meningkatkan adaptasi gaya prosodi, kerangka ini mengadopsi CNN dengan ukuran kernel 5 dalam blok Transformer. SpeechSR di sisi lain terdiri dari satu blok AMP dengan 32 saluran awal tanpa kehadiran lapisan upsampling. Kerangka ini menggunakan upsampler tetangga terdekat untuk mensampling representasi tersembunyi dan menggunakan MPD sebagai diskriminator dengan enam ukuran jendela yang berbeda dan empat diskriminator sub-band. 

Gambar di atas menunjukkan pipa inferensi kerangka HierSpeech++ yang dimulai dengan mengekstrak representasi semantik dari audio pada frekuensi 16 kHz dan pada frekuensi dasar dengan menggunakan algoritma YAPPT. Sebelum frekuensi dasar dapat diberikan kepada Sintetisator Suara Hierarkis, itu dinormalisasi menggunakan standar dan deviasi mean sumber audio, dan frekuensi dasar yang dinormalisasi kemudian dinormalisasi kembali dengan menggunakan standar dan deviasi mean target audio. Untuk ekstraksi teks-ke-suara, kerangka HierSpeech++ mengekstrak representasi teks sebagai gantinya representasi suara, dan menggunakan model teks-ke-vektor untuk menghasilkan representasi semantik dari prompt prosodi. 

Eksperimen dan Hasil

Kerangka ini menggunakan dataset LibriTTS yang tersedia secara publik untuk melatih komponen sintetisator suara hierarkis dengan langkah pertama adalah melatih model dengan subset trainclean dari dataset, dan menggunakan data yang tersisa untuk memungkinkan transfer gaya suara yang ditingkatkan. Selain itu, untuk meningkatkan keanekaragaman dan kekuatan, kerangka ini menskalakan dataset hingga 1 kHz seperti yang ditunjukkan pada gambar berikut. 

Tugas Rekonstruksi, Resintesis, dan Konversi Suara

Untuk mengevaluasi kinerja kerangka HierSpeech++ pada tugas rekonstruksi dan resintesis, pengembang melakukan tujuh metrik objektif, dan hasilnya ditunjukkan pada gambar berikut untuk tugas rekonstruksi dan resintesis. 

Untuk tugas konversi suara, kerangka ini menggunakan dua metrik subjektif untuk evaluasi: kesamaan suara MOS atau sMOS dan skor opini naturalitas mean atau nMOS dengan tiga metrik objektif naturalitas dan dua metrik kesamaan objektif. 

Melanjutkan, tujuan utama kerangka HierSpeech++ adalah untuk memungkinkan sintesis suara zero-shot, dan untuk mengevaluasi kinerjanya dalam zero-shot, itu dibandingkan dengan model dasar lain seperti AutoVC, VoiceMixer, model berbasis difusi, dan banyak lagi dengan hasilnya ditunjukkan pada gambar berikut. 

Gambar berikut menunjukkan hasil teks-ke-suara zero-shot dengan prompt bising dan prompt bising yang sangat bising. 

Pemikiran Akhir

Dalam artikel ini, kita telah membahas model HierSpeech++, sebuah pendekatan baru untuk memungkinkan sintesis suara yang kuat dan efektif dalam pengaturan zero-shot, dan mengatasi keterbatasan yang dihadapi oleh kerangka sintesis suara saat ini termasuk ketergantungan mereka pada sejumlah besar data pelatihan, ketergantungan pada unit suara terpisah atau kodek audio neural pra-terlatih, dan kecenderungan mereka untuk menghasilkan output audio secara otomatis yang pada akhirnya menyebabkan kekurangan kekuatan dan kecepatan interferensi yang lambat dan menghasilkan kesalahan pengucapan, melewatkan, atau mengulangi. Model HierSpeech++ adalah kerangka sintesis suara hierarkis yang sepenuhnya paralel, baru, dan kuat yang ditujukan untuk mensintesis sampel suara dalam pengaturan zero-shot, dan mencoba membuat kontribusi berikut

  • Menggunakan kerangka sintesis suara hierarkis untuk mengontrol dan mentransfer gaya suara dan prosodi. 
  • Mengaktifkan skalabilitas data, dan sintesis suara resolusi tinggi dengan mensampling gelombang audio dari 16 ke 48 kHz. 
  • Mencapai kemampuan manusia di seluruh konversi suara zero-shot dan tugas teks-ke-suara. 

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.