Yapay Zekâ
StyleTTS 2: İnsan Düzeyinde Metinden Konuşmaya Büyük Konuşma Dili Modelleri ile

Doğal ve sentetik konuşma sentezleme yaklaşımlarındaki artış nedeniyle, AI endüstrisinin son birkaç yılda gerçekleştirdiği önemli başarılar arasında, farklı endüstrilerdeki potansiyel uygulamalarla birlikte, sesli kitaplar, sanal asistanlar, seslendirme anlatımları ve daha fazlası için etkili metin-konuşma çerçevelerini sentezlemek yer alır. Ancak, güçlü performanslarına rağmen, ifade ve çeşitli konuşma gereksinimi, sıfır-atış metin-konuşma çerçevelerini optimize etmek için büyük miktarda eğitim verisi gereksinimi ve OOD veya Dağılım Dışı metinler için dayanıklılık nedeniyle, geliştiricileri daha güçlü ve erişilebilir bir metin-konuşma çerçevesi üzerinde çalışmaya yöneltmektedir.
Bu makalede, StyleTTS-2 adlı bir robust ve yenilikçi metin-konuşma çerçevesi hakkında konuşacağız. StyleTTS çerçevesinin temellerine dayanarak inşa edilen StyleTTS2 çerçevesi, devlet-sanat metin-konuşma sistemlerine doğru bir sonraki adımı sunmayı amaçlar. StyleTTS2 çerçevesi, konuşma stillerini latent rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için bir olasılıksal difüzyon modeli kullanır, böylece StyleTTS2 çerçevesi, referans ses girişleri olmadan gerçekçi konuşma sentezlemeyi etkili bir şekilde sağlar.
StyleTTS2 için Metin-Konuşma Sentezi: Bir Giriş
StyleTTS2, insan düzeyinde TTS çerçevelerini oluşturmaya doğru bir sonraki adımı atan bir yenilikçi Metin-Konuşma sentezi modelidir ve StyleTTS’ye dayanarak inşa edilmiştir. StyleTTS2 çerçevesi, konuşma stillerini latent rastgele değişkenler olarak modellemektedir ve bu konuşma stillerini veya rastgele değişkenleri örneklemek için bir olasılıksal difüzyon modeli kullanır, böylece StyleTTS2 çerçevesi, referans ses girişleri olmadan gerçekçi konuşma sentezlemeyi etkili bir şekilde sağlar.
StyleTTS2: Mimarisi ve Yöntemi
Temelde, StyleTTS2, StyleTTS çerçevesinin üzerine inşa edilmiştir. StyleTTS çerçevesi, bir stil kodlayıcısı kullanarak referans sesinden bir stil vektörü elde eden, ifade ve doğal konuşma oluşturmayı sağlayan bir non-otoregresif metin-konuşma çerçevesidir.
Sonuç
StyleTTS2 çerçevesi, NaturalSpeech veri setinde birkaç devlet-sanat TTS çerçevesini geride bırakarak performansını sergiler ve bu veri seti için yeni bir standart belirler. Ayrıca, StyleTTS2 çerçevesi, VCTK veri setinde VITS çerçevesini geride bırakır ve sonuçlar aşağıdaki şekilde gösterilir.
Son Düşünceler
Bu makalede, StyleTTS2 adlı bir yenilikçi ve robust metin-konuşma çerçevesi hakkında konuşuyoruz. StyleTTS2 çerçevesi, StyleTTS çerçevesinin temellerine dayanarak inşa edilmiştir ve devlet-sanat metin-konuşma sistemlerine doğru bir sonraki adımı sunmayı amaçlar. StyleTTS2 çerçevesi, stil difüzyonunu ve SLM ayrımcılarını kullanarak metin-konuşma görevlerinde insan düzeyinde performans sergiler ve çeşitli konuşma görevlerinde mevcut devlet-sanat çerçevelerini geride bırakır.
