Connect with us

Yapay Zekâ

HierSpeech++ : Hiyerarşik Variationel çıkarım için Zero-Shot Konuşma Sentezi

mm

Büyük dil modellerinin yeteneklerinde yaşanan recent gelişmeler ve ilerlemeler, özellikle zero-shot ayarında ses sentezi ve konuşma sentezi görevleri için LLM tabanlı çerçevelerin gelişmesinde önemli bir rol oynadı. Geleneksel konuşma sentezi çerçeveleri, nöral ses kodekleri gibi ek özelliklerin entegre edilmesiyle önemli ilerlemeler kaydetti. Bu konuşma ve ses sentezi çerçeveleri tatmin edici sonuçlar sunsa da, hala geliştirme alanı mevcut çünkü mevcut LLM tabanlı ses çerçevelerinin aşağıdaki üç önemli sınırlaması vardır

  1. Otomatik olarak ses çıktısı oluşturur, bu da dayanıklılık eksikliğine ve yavaş inference hızlarına neden olur ve telaffuz hataları, atlamalar veya tekrarlamalar gibi sonuçlar doğurur.
  2. Ayrık konuşma birimleri veya önceden eğitilmiş nöral ses kodeklerine fazla bağımlı olurlar.
  3. Büyük miktarda eğitim verisi gerektirirler.

Yukarıda belirtilen sorunları ele almak ve LLM tabanlı ses ve konuşma sentezi modellerinin yeteneklerini geliştirmek için, geliştiriciler HierSpeech++ adlı bir konuşma sentezleyici geliştirdiler. HierSpeech++ çerçevesi, hiyerarşik konuşma sentezi çerçevelerinin öğrenimine dayanır ve sentetik konuşma çıktısının doğallığını ve konuşmacı benzerliğini artırırken, aynı zamanda dayanıklılığı artırır.

Bu makalede, HierSpeech++ çerçevesini detaylı olarak ele alacağız ve modelin mimarisini, çalışmasını ve devlet-sanat metin ve ses oluşturma modelleriyle karşılaştırıldığında elde edilen sonuçları inceleyeceğiz. Başlayalım.

HierSpeech++ : Hiyerarşik Variationel çıkarım için Zero-Shot Konuşma Sentezi

HierSpeech++, hızlı, dayanıklı ve verimli bir zero-shot konuşma sentezi çerçevesidir ve hiyerarşik konuşma sentezi pipelineını kullanır. Bu uçtan-uca konuşma sentezi çerçevesini benimseyerek, HierSpeech++ modeli, yüksek kaliteli dalga formu oluşturmanın potansiyelini maksimize eder ve anlamsal ve akustik temsil arasındaki boşluğu köprülemek için özyönetimli konuşma temsilini bir anlamsal konuşma temsil olarak benimser.

Uçtan-uca konuşma sentezi çerçevesi ilk olarak VITS modeli tarafından tanıtıldı ve VAE veya Variationel Auto-Encoder ile birlikte adversarial eğitim ve normalleştirme akışını benimser. Ayrıca, VAE tabanlı çerçevelerle uçtan-uca eğitim pipelineı, yüksek kaliteli dalga formu ses oluşturabilir ve algısal konuşma sentezi kalitesi, diğer konuşma sentezi çerçevelerince oluşturulanlardan önemli ölçüde daha iyidir.

Bu çerçevelerin ses yeniden inşası kalitesi, HierSpeech çerçevesinde kullanılan hiyerarşik koşullu Variationel Auto-Encoder kullanarak daha da geliştirilebilir. Ancak, bu modellerin sınırlamaları vardır, özellikle zero-shot ayarında, çünkü yüksek kaliteli ses örnekleri sentezlenebilir, ancak konuşmacı benzerliği hala yüksek hesaplama karmaşıklığı ile karşı karşıyadır. Diğer taraftan, difüzyon tabanlı konuşma sentezi modelleri konuşmacı adaptasyonu açısından iyi performans gösterir, ancak hala mükemmel değildir, çünkü etkileşimli oluşturma süreci inference hızını yavaşlatır, gürültülü verilere karşı savunmasızdır ve iki aşamalı oluşturma süreci arasındaki uyumsuzluk nedeniyle ses kalitesi beklentileri karşılayamaz.

Öncekilerin karşılaştığı sorunları ele almak için, HierSpeech++ modeli, hiyerarşik konuşma sentezleyici, konuşma süper çözünürlük ve metin-vektöre (TTV) bileşenlerini kullanır ve hiyerarşik koşullu VAE veya Variationel Auto-Encoder üzerine inşa edilen geliştirilmiş hiyerarşik konuşma sentezleyiciyi tanıtır. Ses kalitesini algısal kaliteden öteye taşımak için, HierSpeech++ çerçevesi, akustik sonrasını artırmak için çift ses kullanır ve hiyerarşik adaptif jeneratörü, hem koşullu hem de koşulsuz oluşturma yetenekleri ile donatarak, dağılımın dışında genellemeyi artırır. Ayrıca, konuşma bileşenlerini ayırmak ve konuşmacı ile ilgili ve konuşmacıdan bağımsız anlamsal bilgileri artırmak için, HierSpeech++ çerçevesi, kaynak-filtre teorisi tabanlı çok-yol anlamsal kodlayıcıyı benimser.

Variationel Auto-Encoder kullanımının bir sonucu olarak, HierSpeech++ modeli, temsilmaları hiyerarşik olarak bağlayabilir ve öğrenabilir, ve hedef ses stilini çıkarırken dalga formu sesini uyarlayabilir. Ek olarak, HierSpeech++ çerçevesi, normalleştirme akışı Transformersının bidirectional ağını, adaptasyonu artırmak ve eğitim ile çıkarım arasındaki uyumsuzluğu azaltmak için kullanır.

Genel olarak, HierSpeech++ modeli, konuşma örneklerini zero-shot ayarında sentezlemek için tasarlanmış, tamamen paralel, yeni ve dayanıklı bir hiyerarşik konuşma sentezi çerçevesidir ve aşağıdaki katkıları amaçlar

  • Ses stillerini ve prosodileri kontrol etmek ve aktarmak için hiyerarşik konuşma sentezi çerçevesini kullanmak.
  • Veri ölçeklenebilirliğini sağlamak ve dalga formu sesini 16 kHz’den 48 kHz’ye upsampling yaparak yüksek çözünürlüklü konuşma sentezini gerçekleştirmek.
  • Zero-shot ses dönüştürme ve metin-konuşma görevlerinde insan düzeyinde yetenek elde etmek.

HierSpeech++ : Model Bileşenleri ve Mimarisi

Önceki gibi, HierSpeech++ bir zero-shot konuşma sentezi modelidir ve konuşmacı benzerliği ve konuşma doğalılığı açısından insan düzeyinde doğruluk elde etmeyi amaçlar.

HierSpeech++ modeli, farklı bileşenleri içerir: hiyerarşik konuşma sentezleyici, konuşma süper çözünürlük ve metin-vektöre (TTV) bileşenleri, ve bu bileşenler, büyük miktarda düşük çözünürlüklü konuşma verisini kullanarak her bir modelin eğitimini etkili bir şekilde gerçekleştirebilmeleri için birlikte çalışırlar. Çerçeveyi ele alalım ve her bir bileşeni tartışalım.

Konuşma Temsilleri

İnsan frekans bandı 4 kHz’nin altında olduğundan, konuşma sentezi için HierSpeech++ çerçevesi sesi 16 kHz’de örnekler. Ayrıca, ses sinyalini yeniden oluşturmak için, ses örneğinin en yüksek bileşeninin en az iki katına eşit olan bir örneklem oranını kullanmak önemlidir. Algısal kaliteyi artırmak için, HierSpeech++ çerçevesi, ses süper çözünürlük (SpeechSR) bileşenini kullanır ve ses örneğini 16 kHz’den 48 kHz’ye upsampling yaparak, düşük çözünürlüklü temsilmaları anlamsal ve akustik temsilmaları için kullanır.

Geleneksel metin-konuşma (TTS) çerçevesi, Mel-spectrogramı ara akustik özellikler olarak kullanır ve bu özellik, Short-Time Fourier Transform (STFT) yardımıyla dalga formundan dönüştürülür. Ancak, akustik özelliklerin zengin temsilmaları olduğunu ve içerik, telaffuz, ses bilgisi gibi çeşitli özellikler içerdiğini dikkate almak önemlidir, bu da bu temsilmaları çıkarmayı zorlaştırır, bu durum genellikle telaffuz hataları, benzerlik eksikliği veya konuşma pürüzsüzlüğü gibi sorunlara yol açar.

Devam ederek, dalga formundan sürekli anlamsal temsil çıkarmak için, HierSpeech++ çerçevesi, popüler özyönetimli konuşma temsil yaklaşımının yerine Wav2Vec çerçevesini kullanır. Bu yaklaşım, zengin monolingual bir model için iyi bir alternatif olabilir, ancak zero-shot ses klonlama yeteneklerini etkiler, özellikle de çok dilli konuşma sentezi görevlerinde hem dayanıklılık hem de ifade açısından.

Hiyerarşik Konuşma Sentezleyici

Hiyerarşik Konuşma Sentezleyici bileşeni, HierSpeech++ çerçevesinin temel taşıdır, çünkü bu bileşen, etiketlere (metin transkriptleri veya konuşmacı kimliği gibi) gerek kalmadan ve sadece konuşma verisine dayanarak eğitilebilir. Akustik kapasiteyi artırmak için, önceki devlet-sanat konuşma sentezi modelleri, Mel-spectrogramın yerine lineer spektrogramı kullanmıştır, ancak bu yaklaşım, periyodiklik, PESQ, ses ve sessiz puanı ve Mel-spectrogram mesafesi gibi ölçümlerde KL divergence skorunu minimize eder. Hiyerarşik Konuşma Sentezleyici, lineer spektrogramın sunduğu zorlukları çözmek için Dual-audio Akustik Kodlayıcıyı kullanır, bu kodlayıcı daha zengin ve kapsamlı akustik temsilmaları yakalamak üzere tasarlanmıştır. Çerçeve ayrıca, ham dalga formu sesinden bilgi çıkarmak için dalga formu kodlayıcısını kullanır, lineer spektrogram temsilıyla birleştirir ve nihayetinde akustik temsilı birleştirilmiş temsil olarak projeler.

Ayrıca, konuşmacıdan bağımsız ve konuşmacıya özgü anlamsal temsilmaları ele almak için, HierSpeech++ çerçevesi, her bir temsilın hiyerarşik stil adaptasyonu için kullanılan çok-yol özyönetimli konuşma temsilini kullanır. Çerçeve, konuşma ayırmayı ermöglemek ve manuel olarak ton konturunu kontrol etmek için temel frekans kullanır. Çerçeve, ayrıca, dilsel temsil olarak koşullu bilgiyi kullanarak hiyerarşik olarak dalga formu sesini oluşturur ve özyönetimli temsilin geliştirilmiş dilsel temsilini kullanır. Ayrıca, hiyerarşik variationel çıkarımı kullanarak, akustik temsilaları çok-yol dilsel temsilalarıyla bağlar. Çerçeve, ayrıca, hiyerarşik adaptif jeneratör (HAG) kullanır, bu jeneratör anlamsal-dalga formu örnekleri oluşturur ve oluşturulan temsilalar, stil temsilı ve akustik temsilı içerir ve kaynak ve dalga formu jeneratörlerine beslenir.

Metin-Vektöre (TTV)

Metin-konuşma sentezi için, HierSpeech++ çerçevesi, metin-vektöre (TTV) modelini kullanır, bu model metin dizisinden temel frekans ve anlamsal temsil oluşturur ve konuşma ve metni dahili olarak hizalamak için varyasyonel oto-encoder ile birlikte monotonik hizalama aramasını kullanır. HierSpeech++ çerçevesi, lineer spektrogramın yerine özyönetimli lineer temsil kullanır ve aynı temsili TTV çıktısı olarak yeniden oluşturur.

Ek olarak, HierSpeech++ çerçevesi, self-özyönetimli konuşma temsilinin anlamsal bilgilerini kullanarak, prosodi stilini metin-vektöre modeline aktarabilir ve fonem kodlayıcısına.latent temsil besler, böylece temsilin dilsel yeteneklerini artırır.

Konuşma Süper Çözünürlük (SpeechSR)

HierSpeech++ çerçevesi, düşük çözünürlüklü veri setinde eğitim yapar ve düşük çözünürlüklü konuşma dalga formunu 16 kHz’den 48 kHz’ye upsampling yaparak yüksek çözünürlüklü konuşma dalga formuna dönüştürür. Çerçeve, ayrıca, transpoze konvolüsyonun yerine en yakın komşu upsampler kullanır, bu da önceden transpoze konvolüsyonlardan kaynaklanan artifactsı hafifletmektedir.

Mimarisi

Metin-vektöre modelinin içerik kodlayıcısı, 16 non-casual WaveNet katmanından oluşur, her bir katman 5’lik bir çekirdek büyüklüğüne ve 256’lık bir gizli büyüklüğüne sahiptir, içerik dekodlayıcı ise 8 non-casual WaveNet katmanından oluşur, her bir katman 5’lik bir çekirdek büyüklüğüne ve 512’lik bir gizli büyüklüğüne sahiptir. Metin kodlayıcısı, üç prosodi koşullu Transformer ağı ve üç koşulsuz Transformer ağı içerir, her bir ağ 9’luk bir çekirdek büyüklüğüne, 1024’lük bir filtre büyüklüğüne ve 256’lık bir gizli büyüklüğüne sahiptir, metin kodlayıcısı ayrıca 0.2’lik bir dropout oranına sahiptir. Komşu bilgilerini kodlamak ve prosodi stil adaptasyonunu artırmak için, çerçeve Transformer bloklarında 5’lik bir çekirdek büyüklüğüne sahip bir CNN kullanır. SpeechSR, tek bir AMP bloğundan oluşur, bu blok 32 ilk kanala sahiptir ve upsampling katmanı bulunmaz. Çerçeve, gizli temsilaları upsampling yapmak için en yakın komşu upsampler kullanır ve MPD’yi diskriminatör olarak kullanır, bu diskriminatör altı farklı pencere büyüklüğüne ve dört sub-bant diskriminatörüne sahiptir.

Aşağıdaki şekil, HierSpeech++ çerçevesinin çıkarım pipelineını gösterir, bu pipeline 16 kHz’de sesi örnekleyerek başlar ve YAPPT algoritmasını kullanarak temel frekansı çıkarır. Temel frekans, hiyerarşik sentezleyiciye beslenmeden önce, kaynak sesin standart ve ortalama sapması kullanılarak normalize edilir, ve normalize edilen temel frekans, hedef sesin standart ve ortalama sapması kullanılarak normalize edilir. Metin-konuşma çıkarması için, HierSpeech++ çerçevesi, konuşma temsilaları yerine metin temsilalarını çıkarır ve metin-vektöre modelini kullanarak metinden anlamsal temsil oluşturur.

Deneysel Sonuçlar

Çerçeve, hiyerarşik sentezleyici bileşenini eğitmek için kamu malı LibriTTS veri setini kullanır, ilk adım olarak trainclean alt kümesini kullanarak modeli eğitmek ve kalan verileri kullanarak ses stilinin aktarımını iyileştirmektir. Ayrıca, çeşitliliği ve dayanıklılığı artırmak için, çerçeve veri setini 1 kHz’e kadar ölçeklendirir, aşağıdaki şekil bunu gösterir.

Yeniden İnşa, Yeniden Sentezleme Görevleri ve Ses Dönüştürme

HierSpeech++ çerçevesinin yeniden inşa ve yeniden sentezleme görevlerindeki performansını değerlendirmek için, geliştiriciler yedi nesnel ölçüt kullanmıştır ve sonuçlar aşağıdaki şekillerde yeniden inşa ve yeniden sentezleme görevleri için gösterilmiştir.

Ses dönüştürme görevleri için, çerçeve iki subjektif ölçüt kullanır: ses benzerliği MOS (sMOS) ve doğalılık ortalama görüş puanı (nMOS), ayrıca üç doğalılık nesnel ölçütü ve iki benzerlik nesnel ölçütü kullanır.

Devam ederek, HierSpeech++ çerçevesinin birincil amacı zero-shot konuşma sentezini ermögelmektir ve bu amaçla, diğer temel modellerle (AutoVC, VoiceMixer, difüzyon tabanlı modeller gibi) karşılaştırılmıştır ve sonuçlar aşağıdaki şekildedir.

Aşağıdaki şekiller, gürültülü promtlerle ve çok gürültülü promtlerle zero-shot metin-konuşma sonuçlarını gösterir.

Son Düşünceler

Bu makalede, HierSpeech++ modelini ele aldık, bu model zero-shot konuşma sentezini ermögelmek için yeni bir yaklaşımdır ve mevcut konuşma sentezi çerçevelerinin sınırlamalarını aşmayı amaçlar, bu sınırlamalar arasında büyük miktarda eğitim verisine bağımlılık, ayrık konuşma birimleri veya önceden eğitilmiş nöral ses kodeklerine bağımlılık ve otomatik ses çıkışı oluşturma eğilimi bulunur, bu da dayanıklılık eksikliğine ve yavaş inference hızlarına yol açar ve telaffuz hataları, atlamalar veya tekrarlamalar gibi sonuçlar doğurur. HierSpeech++ modeli, tamamen paralel, yeni ve dayanıklı bir hiyerarşik konuşma sentezi çerçevesidir ve aşağıdaki katkıları amaçlar

  • Ses stillerini ve prosodileri kontrol etmek ve aktarmak için hiyerarşik konuşma sentezi çerçevesini kullanmak.
  • Veri ölçeklenebilirliğini sağlamak ve dalga formu sesini 16 kHz’den 48 kHz’ye upsampling yaparak yüksek çözünürlüklü konuşma sentezini gerçekleştirmek.
  • Zero-shot ses dönüştürme ve metin-konuşma görevlerinde insan düzeyinde yetenek elde etmek.

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.