Connect with us

Kecerdasan buatan

OpenVoice: Instan Voice Cloning yang Serbaguna

mm

Dalam sintesis Text-to-Speech (TTS), Instan Voice Cloning (IVC) memungkinkan model TTS untuk mengkloning suara pembicara referensi menggunakan sampel audio pendek, tanpa memerlukan pelatihan tambahan untuk pembicara referensi. Teknik ini juga dikenal sebagai Sintesis Text-to-Speech Zero-Shot. Pendekatan Instan Voice Cloning memungkinkan kustomisasi yang fleksibel dari suara yang dihasilkan dan menunjukkan nilai signifikan di berbagai situasi dunia nyata, termasuk chatbot kustom, pembuatan konten, dan interaksi antara manusia dan Model Bahasa Besar (LLM).

Meskipun kerangka kerja pengkloning suara saat ini melakukan pekerjaan mereka dengan baik, mereka dipenuhi dengan beberapa tantangan di bidang termasuk Kontrol Gaya Suara yang Fleksibel yaitu model kekurangan kemampuan untuk memanipulasi gaya suara dengan fleksibel setelah mengkloning suara. Hambatan besar lainnya yang dihadapi oleh kerangka kerja pengkloning instan saat ini adalah Pengkloning Suara Cross-Lingual Zero-Shot yaitu untuk pelatihan, model saat ini memerlukan akses ke dataset multi-bahasa besar atau MSML yang luas, terlepas dari bahasa.

Untuk mengatasi masalah ini, dan berkontribusi pada peningkatan model pengkloning suara instan, pengembang telah bekerja pada OpenVoice, kerangka kerja pengkloning suara instan yang serbaguna yang mengkloning suara pengguna dan menghasilkan ucapan dalam beberapa bahasa menggunakan klip audio pendek dari pembicara referensi. OpenVoice menunjukkan bahwa model Pengkloning Suara Instan dapat mengkloning warna nada pembicara referensi, dan mencapai kontrol granular atas gaya suara termasuk aksen, irama, intonasi, jeda, dan bahkan emosi. Yang lebih mengesankan adalah bahwa kerangka kerja OpenVoice juga menunjukkan kemampuan luar biasa dalam mencapai pengkloning suara cross-lingual zero-shot untuk bahasa di luar dataset MSML, memungkinkan OpenVoice untuk mengkloning suara ke dalam bahasa baru tanpa pelatihan ekstensif untuk bahasa tersebut. OpenVoice menghasilkan hasil pengkloning suara instan yang unggul sambil memiliki biaya operasional yang viable dengan biaya hingga 10 kali lebih rendah daripada API yang tersedia saat ini dengan kinerja yang lebih rendah.

Dalam artikel ini, kita akan membahas kerangka kerja OpenVoice secara mendalam, dan kita akan mengungkap arsitektur yang memungkinkan untuk menghasilkan kinerja yang unggul dalam tugas pengkloning suara instan. Jadi mari kita mulai.

OpenVoice : Mengaktifkan Pengkloning Suara Instan yang Serbaguna

Seperti yang disebutkan sebelumnya, Pengkloning Suara Instan, juga dikenal sebagai Sintesis Text-to-Speech Zero-Shot, memungkinkan model TTS untuk mengkloning suara pembicara referensi menggunakan sampel audio pendek tanpa memerlukan pelatihan tambahan untuk pembicara referensi. Pengkloning Suara Instan telah menjadi topik penelitian yang populer dengan karya yang ada termasuk kerangka kerja XTTS dan VALLE yang mengekstrak embedding pembicara dan/atau token akustik dari audio referensi yang berfungsi sebagai kondisi untuk model auto-regresif. Model auto-regresif kemudian menghasilkan token akustik secara berurutan, dan kemudian mendekode token tersebut menjadi gelombang audio mentah.

Meskipun model pengkloning suara instan auto-regresif mengkloning warna nada dengan luar biasa, mereka kurang dalam memanipulasi parameter gaya lainnya termasuk aksen, emosi, jeda, dan irama. Selain itu, model auto-regresif juga mengalami kecepatan inferensi yang rendah, dan biaya operasionalnya cukup tinggi. Pendekatan yang ada seperti kerangka kerja YourTTS menggunakan pendekatan non-auto-regresif yang menunjukkan inferensi ucapan yang jauh lebih cepat daripada kerangka kerja auto-regresif, tetapi masih tidak dapat menyediakan pengguna dengan kontrol yang fleksibel atas parameter gaya. Selain itu, baik kerangka kerja pengkloning suara instan auto-regresif maupun non-auto-regresif memerlukan akses ke dataset multi-bahasa besar atau MSML untuk pengkloning suara cross-lingual.

Untuk mengatasi tantangan yang dihadapi oleh kerangka kerja pengkloning suara instan saat ini, pengembang telah bekerja pada OpenVoice, perpustakaan pengkloning suara instan sumber terbuka yang bertujuan untuk menyelesaikan tantangan berikut yang dihadapi oleh kerangka kerja IVC.

  1. Tantangan pertama adalah untuk mengaktifkan kerangka kerja IVC untuk memiliki kontrol yang fleksibel atas parameter gaya termasuk aksen, irama, intonasi, dan jeda. Parameter gaya sangat penting untuk menghasilkan percakapan alami dan ucapan dalam konteks daripada membacakan teks input dengan monoton.
  2. Tantangan kedua adalah untuk mengaktifkan kerangka kerja IVC untuk mengkloning suara cross-lingual dalam pengaturan zero-shot.
  3. Tantangan terakhir adalah untuk mencapai kecepatan inferensi waktu nyata yang tinggi tanpa mengurangi kualitas.

Untuk mengatasi dua hambatan pertama, arsitektur kerangka kerja OpenVoice dirancang untuk memisahkan komponen dalam suara sebanyak mungkin. Selain itu, OpenVoice menghasilkan warna nada, bahasa, dan fitur suara lainnya secara independen, memungkinkan kerangka kerja untuk memanipulasi jenis bahasa dan gaya suara individu dengan fleksibel. Kerangka kerja OpenVoice mengatasi tantangan ketiga secara default karena struktur yang dipisahkan mengurangi kompleksitas komputasi dan kebutuhan ukuran model.

OpenVoice : Metodologi dan Arsitektur

Kerangka kerja teknis OpenVoice efektif dan sederhana untuk diimplementasikan. Tidak ada rahasia bahwa mengkloning warna nada untuk pembicara mana pun, menambahkan bahasa baru, dan mengaktifkan kontrol yang fleksibel atas parameter suara secara bersamaan dapat menjadi tantangan. Ini karena menjalankan tiga tugas ini secara bersamaan memerlukan parameter yang dikontrol untuk berpotongan menggunakan sejumlah besar dataset kombinatorial. Selain itu, dalam sintesis text-to-speech tunggal pembicara yang biasa, untuk tugas yang tidak memerlukan pengkloning suara, lebih mudah untuk menambahkan kontrol atas parameter gaya lainnya. Berdasarkan hal ini, kerangka kerja OpenVoice bertujuan untuk memisahkan tugas Pengkloning Suara Instan menjadi sub-tugas. Model ini mengusulkan untuk menggunakan model Text-to-Speech pembicara dasar untuk mengontrol bahasa dan parameter gaya, dan menggunakan pengubah warna nada untuk memasukkan warna nada referensi ke dalam suara yang dihasilkan. Berikut adalah arsitektur kerangka kerja.

Pada intinya, kerangka kerja OpenVoice menggunakan dua komponen: pengubah warna nada, dan model Text-to-Speech pembicara dasar. Model Text-to-Speech pembicara dasar dapat berupa model tunggal-pembicara atau multi-pembicara yang memungkinkan kontrol presisi atas parameter gaya, bahasa, dan aksen. Model ini menghasilkan suara yang kemudian diteruskan ke pengubah warna nada, yang mengubah warna nada pembicara dasar menjadi warna nada pembicara referensi.

Kerangka kerja OpenVoice menawarkan banyak fleksibilitas ketika datang ke model Text-to-Speech pembicara dasar karena dapat menggunakan model VITS dengan sedikit modifikasi yang memungkinkan untuk menerima embedding bahasa dan gaya dalam prediktor durasi dan pengkode teks. Kerangka kerja juga dapat menggunakan model seperti Microsoft TTS yang secara komersial murah atau dapat mengirimkan model seperti InstructTTS yang dapat menerima prompt gaya. Untuk saat ini, kerangka kerja OpenVoice menggunakan model VITS meskipun model lainnya juga merupakan pilihan yang layak.

Pengubah Warna Nada adalah komponen encoder-decoder yang berisi aliran normalisasi yang dapat dibalik di tengah. Komponen encoder dalam pengubah warna nada adalah satu-dimensi CNN yang menerima spektrum Fourier waktu-pendek dari model Text-to-Speech pembicara dasar sebagai input. Encoder kemudian menghasilkan peta fitur sebagai output. Pengambil warna nada adalah dua-dimensi CNN sederhana yang beroperasi pada mel-spectrogram dari suara input, dan menghasilkan vektor fitur tunggal sebagai output yang mengkodekan informasi warna nada. Lapisan aliran normalisasi menerima peta fitur yang dihasilkan oleh encoder sebagai input dan menghasilkan representasi fitur yang mempertahankan semua properti gaya tetapi menghilangkan informasi warna nada. Kerangka kerja OpenVoice kemudian menerapkan lapisan aliran normalisasi dalam arah terbalik, dan mengambil representasi fitur sebagai input dan output lapisan aliran normalisasi. Kerangka kerja kemudian mendekode lapisan aliran normalisasi menjadi gelombang audio mentah menggunakan tumpukan konvolusi satu-dimensi yang diputar.

Arsitektur keseluruhan kerangka kerja OpenVoice adalah feed-forward tanpa menggunakan komponen auto-regresif. Komponen pengubah warna nada mirip dengan konversi suara pada tingkat konseptual tetapi berbeda dalam fungsi, tujuan pelatihan, dan bias induktif dalam struktur model. Lapisan aliran normalisasi memiliki struktur yang sama dengan model text-to-speech berbasis aliran tetapi berbeda dalam fungsi dan tujuan pelatihan.

Selain itu, ada pendekatan lain untuk mengekstrak representasi fitur, metode yang diimplementasikan oleh kerangka kerja OpenVoice memberikan kualitas audio yang lebih baik. Juga perlu diperhatikan bahwa kerangka kerja OpenVoice tidak memiliki niat untuk menemukan komponen dalam arsitektur model, tetapi kedua komponen utama yaitu pengubah warna nada dan model Text-to-Speech pembicara dasar, keduanya berasal dari karya yang ada. Tujuan utama kerangka kerja OpenVoice adalah untuk membentuk kerangka kerja yang dipisahkan yang memisahkan kontrol bahasa dan gaya suara dari pengkloning warna nada. Meskipun pendekatan ini cukup sederhana, tetapi sangat efektif terutama pada tugas yang mengontrol gaya dan aksen, atau tugas generalisasi bahasa baru. Mencapai kontrol yang sama ketika menggunakan kerangka kerja yang terhubung memerlukan sejumlah besar komputasi dan data, dan tidak generalisasi dengan baik ke bahasa baru.

Pada intinya, filosofi utama kerangka kerja OpenVoice adalah untuk memisahkan generasi bahasa dan gaya suara dari generasi warna nada. Salah satu kekuatan utama kerangka kerja OpenVoice adalah bahwa suara yang dikloning sangat fasih dan berkualitas tinggi selama model Text-to-Speech tunggal-pembicara berbicara dengan fasih.

OpenVoice : Eksperimen dan Hasil

Mengevaluasi tugas pengkloning suara adalah tugas yang sulit karena beberapa alasan. Pertama, karya yang ada sering menggunakan data pelatihan dan pengujian yang berbeda yang membuat perbandingan antara karya tersebut secara intrinsik tidak adil. Meskipun crowdsourcing dapat digunakan untuk mengevaluasi metrik seperti Skor Opini Rata-Rata, kesulitan dan keragaman data pengujian akan sangat mempengaruhi hasil akhir. Kedua, metode pengkloning suara yang berbeda memiliki data pelatihan yang berbeda, dan keragaman serta skala data ini sangat mempengaruhi hasilnya. Terakhir, tujuan utama karya yang ada sering berbeda satu sama lain, sehingga mereka berbeda dalam fungsionalitas.

Karena tiga alasan di atas, tidak adil untuk membandingkan kerangka kerja pengkloning suara yang ada secara numerik. Sebaliknya, lebih masuk akal untuk membandingkan metode ini secara kualitatif.

Pengkloning Warna Nada yang Akurat

Untuk menganalisis kinerjanya, pengembang membangun set pengujian dengan individu anonim, karakter game, dan selebriti yang membentuk basis pembicara referensi, dan memiliki distribusi suara yang luas termasuk sampel netral dan suara ekspresif unik. Kerangka kerja OpenVoice dapat mengkloning warna nada referensi dan menghasilkan ucapan dalam beberapa bahasa dan aksen untuk pembicara referensi dan empat pembicara dasar.

Kontrol yang Fleksibel atas Gaya Suara

Salah satu tujuan kerangka kerja OpenVoice adalah untuk mengontrol gaya ucapan dengan fleksibel menggunakan pengubah warna nada yang dapat memodifikasi warna nada sambil mempertahankan semua fitur suara lainnya dan properti.

Eksperimen menunjukkan bahwa model mempertahankan gaya suara setelah mengubah menjadi warna nada referensi. Dalam beberapa kasus, model menetralkan emosi sedikit, masalah yang dapat diatasi dengan melewatkan informasi yang lebih sedikit ke lapisan aliran sehingga mereka tidak dapat menghilangkan emosi. Kerangka kerja OpenVoice dapat mempertahankan gaya dari suara dasar berkat penggunaan pengubah warna nada. Ini memungkinkan kerangka kerja OpenVoice untuk memanipulasi model Text-to-Speech pembicara dasar untuk dengan mudah mengontrol gaya suara.

Pengkloning Suara Cross-Lingual

Kerangka kerja OpenVoice tidak termasuk dataset pembicara besar untuk bahasa yang tidak terlihat, tetapi masih dapat mencapai pengkloning suara cross-lingual yang hampir sama dalam pengaturan zero-shot. Kemampuan pengkloning suara cross-lingual kerangka kerja OpenVoice adalah dua lipat:

  1. Model dapat mengkloning warna nada pembicara referensi dengan akurat ketika bahasa pembicara referensi tidak terlihat dalam dataset multi-bahasa besar atau MSML.
  2. Selain itu, dalam kejadian bahasa pembicara referensi tidak terlihat, kerangka kerja OpenVoice dapat mengkloning suara pembicara referensi, dan berbicara dalam bahasa dengan syarat bahwa model Text-to-Speech pembicara dasar mendukung bahasa.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang OpenVoice, kerangka kerja pengkloning suara instan yang serbaguna yang mengkloning suara pengguna dan menghasilkan ucapan dalam beberapa bahasa menggunakan klip audio pendek dari pembicara referensi. Intuisi utama di balik OpenVoice adalah bahwa selama model tidak perlu melakukan pengkloning warna nada pembicara referensi, kerangka kerja dapat menggunakan model Text-to-Speech pembicara dasar untuk mengontrol bahasa dan gaya suara.

OpenVoice menunjukkan bahwa model Pengkloning Suara Instan dapat mengkloning warna nada pembicara referensi, dan mencapai kontrol granular atas gaya suara termasuk aksen, irama, intonasi, jeda, dan bahkan emosi. OpenVoice menghasilkan hasil pengkloning suara instan yang unggul sambil memiliki biaya operasional yang viable dengan biaya hingga 10 kali lebih rendah daripada API yang tersedia saat ini dengan kinerja yang lebih rendah.

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.