Yapay Zekâ

StyleTTS 2: İnsan Düzeyinde Metinden Konuşmaya Büyük Konuşma Dilleri Modelleri ile

Yayınlandı 4 Aralık 2023

Güncellendi 22 Mayıs 2026

Yazan

Kunal Kejriwal

Doğal ve sentetik konuşma sentezleme yaklaşımlarındaki artışa bağlı olarak, AI endüstrisinin son birkaç yılda elde ettiği önemli başarılar arasında, çeşitli endüstrilerde uygulamalar için etkili metin-konuşma çerçevelerini sentezlemek yer almaktadır. Bu endüstriler arasında sesli kitaplar, sanal asistanlar, sesli anlatımlar ve daha fazlası bulunmaktadır. Bazı devlet-sanat modelleri, geniş bir konuşma ile ilgili görevler yelpazesi boyunca insan düzeyinde performans ve verimlilik sunmaktadır. Ancak, güçlü performanslarına rağmen, ifade ve çeşitli konuşma gereksinimi nedeniyle, bu görevler için hala geliştirme alanı bulunmaktadır.

Bu makalede, StyleTTS-2 adlı bir metin-konuşma çerçevesi hakkında konuşacağız. StyleTTS-2, StyleTTS çerçevesinin temelinde oluşturulmuş bir metin-konuşma sentezleme modelidir ve devlet-sanat metin-konuşma sistemlerine doğru bir sonraki adımdır. StyleTTS2 çerçevesi, konuşma stillerini gizli rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için olasılıksal bir difüzyon modeli kullanmaktadır. Bu, StyleTTS2 çerçevesinin referans ses girişleri olmadan gerçekçi konuşma sentezlemesine olanak tanımaktadır. StyleTTS2, büyük konuşma dilleri modelleri ve SLM ayrımcıları kullanarak insan düzeyinde performans elde etmekte ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini aşmaktadır.

StyleTTS2 için Metin-Konuşma Sentezi: Bir Giriş

StyleTTS2, insan düzeyinde TTS çerçevelerini oluşturmaya doğru bir sonraki adımdır ve StyleTTS’ye dayanan bir metin-konuşma sentezleme modelidir. StyleTTS2, konuşma stillerini gizli rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için olasılıksal bir difüzyon modeli kullanmaktadır. Bu, StyleTTS2’nin referans ses girişleri olmadan gerçekçi konuşma sentezlemesine olanak tanımaktadır. StyleTTS2, büyük konuşma dilleri modelleri ve SLM ayrımcıları kullanarak insan düzeyinde performans elde etmekte ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini aşmaktadır.

StyleTTS2, büyük konuşma dilleri modelleri ve difüzyon modelleri gibi mevcut çalışmaların öğrenimini içermektedir. Difüzyon modelleri, genellikle konuşma sentezleme görevleri için kullanılmaktadır ve ince konuşma kontrolü ve çeşitli konuşma örneklemesi yetenekleri sunmaktadır. Ancak, difüzyon modelleri, GAN tabanlı yinelemeli olmayan çerçeveler kadar verimli değildir ve bunun nedeni, hedef konuşma süresine ulaşmak için gizli temsilcileri, dalga formlarını ve mel-spektrogramlarını yinelemeli olarak örneklemektir.

Öte yandan, büyük konuşma dilleri modelleri, metin-giriş konuşma görevlerini geliştirmek ve konuşmacıya uyum sağlamak için yeteneklerini göstermiştir. Büyük konuşma dilleri modelleri, genellikle konuşma yeniden yapılandırma görevleri için önceden eğitilmiş konuşma dilleri çerçevelerinden türetilen nicel veya sürekli temsilcileri metin girişine dönüştürmektedir. Ancak, bu konuşma dilleri modellerinin özellikleri, konuşma sentezleme için doğrudan optimize edilmemektedir. StyleTTS2 çerçevesi, büyük SLM çerçevelerinin kazandığı bilgileri kullanarak, konuşma dilleri modellerinin özelliklerini doğrudan öğrenmektedir.

StyleTTS2: Mimarisi ve Yöntemi

StyleTTS2, temelde StyleTTS çerçevesine dayanan bir metin-konuşma sentezleme modelidir. StyleTTS, bir réféans ses girişinden bir stil vektörü türetmek için bir stil kodlayıcı kullanır ve bu, doğal ve ifade edici konuşma üretimine olanak tanır. StyleTTS2, konuşma stillerini gizli rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için olasılıksal bir difüzyon modeli kullanmaktadır.

Akustik Modeller veya Konuşma Üretim Sistemi, bir stil kodlayıcı, bir metin kodlayıcı ve bir konuşma dekoderi içerir.
Metin-Konuşma Tahmin Sistemi, prosodi ve süre.predictörleri kullanır.
Bir Yardımcı Sistem, bir metin hizalayıcı, bir pitch çıkarma ve bir ayrımcı içerir.

StyleTTS2, büyük konuşma dilleri modelleri ve SLM ayrımcıları kullanarak insan düzeyinde performans elde etmekte ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini aşmaktadır.

StyleTTS2, konuşma stillerini gizli rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için olasılıksal bir difüzyon modeli kullanmaktadır. Bu, StyleTTS2’nin referans ses girişleri olmadan gerçekçi konuşma sentezlemesine olanak tanımaktadır. StyleTTS2, büyük konuşma dilleri modelleri ve SLM ayrımcıları kullanarak insan düzeyinde performans elde etmekte ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini aşmaktadır.

Uçtan Uca Eğitim için Etkileşim

StyleTTS2’de, çeşitli metin-konuşma bileşenlerini etkileşim için optimize etmek amacıyla uçtan uca bir eğitim yaklaşımı kullanılmaktadır. StyleTTS2, dekoderi doğrudan stil vektöründen, pitch ve enerji eğrilerinden ve hizalanmış temsilcilerden dalga formunu üretmek için değiştirmektedir.

Yukarıdaki şekil, ön eğitim ve ortak eğitim için kullanılan akustik modelleri temsil etmektedir. Eğitim süresini azaltmak için, modüller önce ön eğitim aşamasında optimize edilmekte, daha sonra ortak eğitim aşamasında tüm bileşenler pitch çıkarma hariç optimize edilmektedir.

Yukarıdaki şekil, WavLM çerçevesi önceden eğitilmiş ancak önceden ayarlanmamış olan konuşma dilleri modeli ayrımcı eğitimini ve etkileşimini temsil etmektedir. Bu süreç, yukarıda bahsedilen süreçten farklıdır ve çeşitli girdi metinlerini alabilir ve her toplu işlemden sonra parametreleri güncellemek için gradientleri biriktirir.

Stil Difüzyonu

StyleTTS2, konuşmayı bir koşullu dağılım olarak modellemektedir ve bu dağılım, konuşma örneğinin ötesindeki herhangi bir özelliğini temsil eden bir genel konuşma stili olarak adlandırılmaktadır.

Konuşma Dilleri Modeli Ayrımcıları

Konuşma dilleri modelleri, geniş bir yelpazede semantik ve akustik özellikler hakkında değerli bilgiler kodlayabilme yetenekleri ile tanınmaktadır. StyleTTS2, konuşma dilleri modeli ayrımcıları olarak 12 katmanlı bir WavLM çerçevesi kullanmaktadır. Bu yaklaşım, StyleTTS2’nin eğitimini OOD veya Dağılım Dışı metinler üzerinde gerçekleştirmesine olanak tanır.

Ayrışabilir Süre Modelleme

Geleneksel olarak, metin-konuşma çerçevelerinde bir süre predictorü kullanılmaktadır ve bu, fonem sürelerini üretmektedir. Ancak, bu süre predictorleri tarafından kullanılan upsampling yöntemleri, E2E eğitim sürecinde gradient akışını engellemektedir. StyleTTS2, farklı adversarial eğitim ile eğitildiğinden, bu yaklaşımın kararsız olduğunu bulmuştur.

Model Eğitim ve Değerlendirme

StyleTTS2, üç veri seti üzerinde eğitilmiştir: VCTK, LibriTTS ve LJSpeech. StyleTTS2’nin tek konuşmacı bileşeni, LJSpeech veri seti üzerinde eğitilmiştir ve bu veri seti yaklaşık 13.000 ses örneğinden oluşmaktadır.

Sonuçlar

StyleTTS2’nin yaklaşımı ve yöntemi, performansında görülmektedir. Model, çeşitli devlet-sanat metin-konuşma çerçevelerini aşmaktadır ve NaturalSpeech veri seti üzerinde yeni bir standart oluşturmaktadır.

StyleTTS2, LJSpeech veri seti üzerinde önceki modelleri aşmaktadır ve OOD metinlerde herhangi bir kalite bozulmasına sahip değildir.

StyleTTS2, zero-shot ayarlamada Vall-E çerçevesini aşmaktadır ve doğal konuşma üretimine olanak tanır.

StyleTTS2, difüzyon tabanlı bir yaklaşım kullanmasına rağmen, VITS, ProDiff ve FastDiff gibi mevcut devlet-sanat çerçevelerini aşmaktadır.

Son Düşünceler

Bu makalede, StyleTTS2 adlı bir metin-konuşma çerçevesi hakkında konuşacağız. StyleTTS2, büyük konuşma dilleri modelleri ve SLM ayrımcıları kullanarak insan düzeyinde performans elde etmekte ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini aşmaktadır.