Yapay Zekâ
OpenVoice: Esnek Anlık Ses Klonlama

Metin’den Konuşmaya (TTS) sentezinde, Anlık Ses Klonlama (IVC), TTS modelinin herhangi bir referans konuşmacının sesini kısa bir ses örneği kullanarak klonlamasını sağlar ve bu işlem için referans konuşmacı için ek bir eğitim gerektirmez. Bu teknik ayrıca Zero-Shot Metin’den Konuşmaya Sentez olarak da bilinir. Anlık Ses Klonlama yaklaşımı, oluşturulan sesin esnek bir şekilde özelleştirilmesine olanak tanır ve özelleştirilmiş sohbet botları, içerik oluşturma ve Büyük Dil Modelleri (LLM) ile insan arasındaki etkileşimler gibi birçok gerçek dünya senaryosunda önemli değer gösterir.
Mevcut ses klonlama çerçeveleri işlerini iyi yapmalarına rağmen, esnek ses stili kontrolü gibi beberapa挑nge ile karşı karşıyadır, yani modeller ses stillerini klonladıktan sonra esnek bir şekilde manipüle edemez. Mevcut anlık klonlama çerçevelerinin karşılaştığı bir diğer önemli engel, Sıfır Atış Çapraz Dilli Ses Klonlamadır, yani modeller dil için büyük bir konuşmacı veri setine ihtiyaç duyar.
Bu sorunları çözmek ve anlık ses klonlama modellerinin geliştirilmesine katkıda bulunmak için geliştiriciler, herhangi bir kullanıcının sesini taklit eden ve referans konuşmacının kısa bir ses örneği kullanarak birden fazla dilde konuşma üreten esnek bir anlık ses klonlama çerçevesi olan OpenVoice üzerinde çalışmışlardır. OpenVoice, referans konuşmacının ton rengini klonlayabilen ve vurgulu, ritim, entonasyon, duraklama ve hatta duygular gibi ses stillerini kontrol edebilen anlık ses klonlama modellerini göstermektedir. OpenVoice ayrıca, büyük konuşmacı çok dilli veri setine ihtiyaç duymadan, görmediği dillerde de ses klonlama yetenekleri sergiler.
Bu makalede, OpenVoice çerçevesini derinlemesine inceleyeceğiz ve superior performans gösteren mimarisini keşfedeceğiz. Başlayalım.
OpenVoice: Esnek Anlık Ses Klonlama
Önceden de bahsedildiği gibi, Anlık Ses Klonlama, ayrıca Sıfır Atış Metin’den Konuşmaya Sentez olarak da bilinir, TTS modelinin herhangi bir referans konuşmacının sesini kısa bir ses örneği kullanarak klonlamasını sağlar ve bu işlem için referans konuşmacı için ek bir eğitim gerektirmez. Anlık Ses Klonlama her zaman sıcak bir araştırma konusu olmuştur ve mevcut çalışmalar arasında XTTS ve VALLE çerçeveleri bulunmaktadır.
Ancak, otoregresif anlık ses klonlama modelleri ton rengini mükemmel bir şekilde klonlayabilse de, vurgulu, duygular, duraklama ve ritim gibi diğer stil parametrelerini manipüle etmekte yetersiz kalırlar. Ayrıca, otoregresif modeller düşük çıkarım hızı ve yüksek işletim maliyetleri ile karşılaşabilir. YourTTS çerçevesi gibi mevcut yaklaşım, otoregresif olmayan bir yaklaşım kullanır ve önemli ölçüde daha hızlı çıkarım gösterir, ancak kullanıcılarına stil parametreleri üzerinde esnek kontrol sağlamaz.
Mevcut anlık ses klonlama çerçevelerinin karşılaştığı sorunları çözmek için geliştiriciler, OpenVoice adlı açık kaynaklı bir anlık ses klonlama kütüphanesi üzerinde çalışmışlardır. OpenVoice, aşağıdaki sorunları çözmeyi hedefler:
- İlk challenge, IVC çerçevelerinin ton rengi dışında vurgulu, ritim, entonasyon ve duraklama gibi stil parametreleri üzerinde esnek kontrol sağlamaktır.
- İkinci challenge, IVC çerçevelerinin sıfır atış çapraz dilli ses klonlamasını gerçekleştirmesidir.
- Son challenge, yüksek gerçek zamanlı çıkarım hızlarına ulaşmaktır.
İlk iki engeli aşmak için, OpenVoice çerçevesinin mimarisi, sesin bileşenlerini mümkün olduğunca ayrıştırmak üzere tasarlanmıştır. Ayrıca, OpenVoice, ton rengini, dili ve diğer ses özelliklerini bağımsız olarak üretir, bu da çerçeveye bireysel dil türleri ve ses stillerini esnek bir şekilde manipüle etme olanağı sağlar.
OpenVoice: Yöntem ve Mimarisi
OpenVoice çerçevesinin teknik mimarisi etkili ve şaşırtıcı derecede basittir. Herhangi bir konuşmacının ton rengini klonlayabilen, yeni bir dili ekleyebilen ve ses parametreleri üzerinde esnek kontrol sağlayan bir çerçevenin aynı anda bu üç görevi gerçekleştirmesi zor olabilir.
OpenVoice çerçevesi, iki temel bileşenden oluşur: bir ton rengi dönüştürücü ve bir temel konuşmacı TTS modeli. Temel konuşmacı TTS modeli, dil ve stil parametreleri üzerinde precisa kontrol sağlayan tek konuşmacı veya çok konuşmacı bir model olabilir.
OpenVoice çerçevesi, VITS modelini leicht bir şekilde değiştirerek, dil ve stil gömme dosyalarını kabul edebilen bir süre tahmini ve metin kodlayıcı kullanır. Ayrıca, Microsoft TTS gibi ticari olarak ucuz modelleri veya InstructTTS gibi stil promtlerini kabul edebilen modelleri de kullanabilir.
Ton rengi dönüştürücü, bir kodlayıcı ve bir dekodifikatörden oluşur ve merkezinde normalize akış katmanları bulunur. Kodlayıcı, temel konuşmacı TTS modelinin kısa zamanlı Fourier dönüşüm spektrumunu kabul eder ve özellik haritaları üretir.
OpenVoice çerçevesinin tüm mimarisi, otoregresif bileşenler içermeyen bir ileri besleme yapısıdır. Ton rengi dönüştürücü, kavramsal olarak ses dönüştürme ile benzerdir, ancak işlevsellik, eğitim hedefleri ve model yapısında farklılıklar gösterir.
OpenVoice çerçevesi, ses klonlama görevlerini alt görevlere ayırarak, dil ve ses stillerinin üretimini ton rengi klonlamasından ayırır. Bu yaklaşım, yeni dillerde genellemeyi kolaylaştırır ve büyük konuşmacı veri setlerine ihtiyaç duymaz.
OpenVoice: Deney ve Sonuçlar
Ses klonlama görevlerini değerlendirmek zor bir görevdir, çünkü mevcut çalışmalar farklı eğitim ve test veri setleri kullanır ve bu da karşılaştırmaları zorlaştırır.
Bu nedenle, mevcut ses klonlama çerçevelerini nicel olarak karşılaştırmak daha doğru olacaktır.
Doğru Ton Rengi Klonlama
Geliştiriciler, referans konuşmacıların geniş bir dağılımını içeren bir test kümesi oluşturmuşlardır ve OpenVoice çerçevesi, referans konuşmacıların ton rengini klonlayabilmiş ve birden fazla dilde konuşma üretebilmiştir.

Esnek Ses Stili Kontrolü
OpenVoice çerçevesinin bir diğer hedefi, ton rengi dönüştürücü kullanarak ses stillerini esnek bir şekilde kontrol etmektir.
Deneyler, modelin ton rengini dönüştürürken diğer ses özelliklerini koruduğunu göstermiştir. Ancak, bazı durumlarda model, duyguları hafifçe nötralize edebilmektedir, bu da akış katmanlarına daha az bilgi geçirerek çözülebilir.

Çapraz Dilli Ses Klonlama
OpenVoice çerçevesi, büyük konuşmacı çok dilli veri setine ihtiyaç duymadan, görmediği dillerde de ses klonlama yetenekleri sergiler.
- Model, referans konuşmacının ton rengini doğru bir şekilde klonlayabilir.
- Ayrıca, referans konuşmacının sesini klonlayabilir ve temel konuşmacı TTS modelinin desteklediği dilde konuşabilir.
Son Düşünceler
Bu makalede, herhangi bir kullanıcının sesini taklit eden ve referans konuşmacının kısa bir ses örneği kullanarak birden fazla dilde konuşma üreten esnek bir anlık ses klonlama çerçevesi olan OpenVoice hakkında konuşmuştuk.
OpenVoice, referans konuşmacının ton rengini klonlayabilen ve vurgulu, ritim, entonasyon, duraklama ve hatta duygular gibi ses stillerini kontrol edebilen anlık ses klonlama modellerini göstermektedir. OpenVoice, mevcut API’lerle karşılaştırıldığında, superior anlık ses klonlama sonuçları sağlar ve işletim maliyetleri açısından 10 kata kadar daha az maliyetle çalışabilir.












