Connect with us

Yapay Zekâ

OpenVoice: Esnek Anlık Ses Klonlama

mm

Metin’den Konuşmaya (TTS) sentezinde, Anlık Ses Klonlama (IVC), TTS modelinin herhangi bir referans konuşmacının sesini kısa bir ses örneği kullanarak klonlamasını sağlar ve bu işlem için referans konuşmacı için ek eğitim gerektirmez. Bu teknik ayrıca Zero-Shot Metin’den Konuşmaya Sentezi olarak da bilinir. Anlık Ses Klonlama yaklaşımı, oluşturulan sesin esnek şekilde özelleştirilmesine olanak tanır ve gerçek dünya durumlarındaki değerini, özelleştirilmiş sohbet botları, içerik oluşturma ve Büyük Dil Modelleri (LLM) ile insanların etkileşimleri gibi çeşitli alanlarda gösterir.

Mevcut ses klonlama çerçeveleri işlerini iyi yapıyor olsalar da, esnek ses stili kontrolü gibi beberapa zorluklarla dolu. Örneğin, modeller klonlanmış sesin ses stilini esnek bir şekilde manipüle etme yeteneğinden yoksundur. Ayrıca, mevcut anlık klonlama çerçevelerinin karşılaştığı bir diğer önemli engel, Zero-Shot Çapraz Dilde Ses Klonlama’dır, yani eğitim amaçları için, mevcut modellerin büyük bir çok konuşmacı çok dilli veya MSML veri kümesine erişimi gerekir, dil ne olursa olsun.

Bu sorunları çözmek ve anlık ses klonlama modellerinin geliştirilmesine katkıda bulunmak için geliştiriciler, herhangi bir kullanıcının sesini taklit eden ve referans konuşmacının kısa bir ses klipini kullanarak birden fazla dilde konuşma üreten OpenVoice adlı bir çerçeve üzerinde çalıştılar. OpenVoice, Anlık Ses Klonlama modellerinin referans konuşmacının ton rengini taklit edebileceğini ve vurgulu, ritim, entonasyon, duraklamalar ve hatta duygular dahil olmak üzere ses stillerinin üzerinde granül kontrol sağlayabileceğini gösteriyor. Daha da etkileyici olanı, OpenVoice çerçevesinin ayrıca MSML veri kümesinin dışında olan diller için zero-shot çapraz dilli ses klonlama yeteneği göstermesidir, bu da OpenVoice’in yeni dillere ek eğitim olmadan ses klonlamasını gerçekleştirebilmesini sağlar. OpenVoice, mevcut API’lerle karşılaştırıldığında 10 kat daha düşük işletim maliyetleriyle üstün anlık ses klonlama sonuçları sağlar.

Bu makalede, OpenVoice çerçevesini derinlemesine ele alacağız ve üstün performansını sağlamak için tasarlanan mimarisini keşfedeceğiz. Başlayalım.

OpenVoice : Esnek Anlık Ses Klonlamayı Etkinleştirme

Önceden de bahsedildiği gibi, Anlık Ses Klonlama, ayrıca Zero-Shot Metin’den Konuşmaya Sentezi olarak da adlandırılır, TTS modelinin herhangi bir referans konuşmacının sesini kısa bir ses örneği kullanarak klonlamasını sağlar ve bu işlem için referans konuşmacı için ek eğitim gerektirmez. Anlık Ses Klonlama her zaman bir araştırma konusu olmuştur ve mevcut çalışmalar arasında XTTS ve VALLE çerçeveleri bulunmaktadır. Bu çerçeveler, referans sesinden konuşmacı gömme ve/veya akustik tokenleri çıkarır ve bu, oto-regressif model için bir koşul olarak kullanılır. Oto-regressif model daha sonra akustik tokenleri sıralı olarak üretir ve sonra bu tokenleri ham ses dalgasına dönüştürür.

Oto-regressif anlık ses klonlama modelleri ton rengini taklit etmekte etkileyici olsalar da, vurgulu, duygu, duraklamalar ve ritim gibi diğer stil parametrelerini manipüle etmekte yetersiz kalırlar. Ayrıca, oto-regressif modeller düşük çıkarım hızı ve yüksek işletim maliyetleri yaşarlar. Mevcut yaklaşimler gibi YourTTS çerçevesi, oto-regressif yaklaşımın aksine daha hızlı çıkarım gösteren bir yaklaşım kullanır, ancak kullanıcılarına stil parametreleri üzerinde esnek kontrol sağlamaz. Ayrıca, hem oto-regressif hem de oto-regressif olmayan anlık ses klonlama çerçeveleri, çapraz dilli ses klonlama için büyük bir çok konuşmacı çok dilli veya MSML veri kümesine erişimi gerektirir.

Mevcut anlık ses klonlama çerçevelerinin karşılaştığı zorlukları çözmek için geliştiriciler, OpenVoice adlı bir açık kaynak anlık ses klonlama kütüphanesi üzerinde çalıştılar. OpenVoice, aşağıdaki zorlukları çözmeyi amaçlar:

  1. İlk zorluk, IVC çerçevelerinin ton renginin yanı sıra vurgulu, ritim, entonasyon ve duraklamalar gibi stil parametreleri üzerinde esnek kontrol sağlamasını sağlamaktır. Stil parametreleri, girdisi metni monoton bir şekilde anlatmak yerine doğal ve bağlamlı konuşmalar ve sesler üretmek için çok önemlidir.
  2. İkinci zorluk, IVC çerçevelerinin zero-shot ayarında çapraz dilli ses klonlamasını gerçekleştirmesini sağlamaktır.
  3. Son zorluk, kaliteli çıktıları bozmadan yüksek gerçek zamanlı çıkarım hızlarına ulaşmaktır.

İlk iki zorluğu çözmek için OpenVoice çerçevesinin mimarisi, sesin bileşenlerini mümkün olduğunca ayrılmış bir şekilde tasarlanmıştır. Ayrıca, OpenVoice ton rengini, dili ve diğer ses özelliklerini bağımsız olarak üretir, bu da çerçeveye bireysel dil türleri ve ses stillerini esnek bir şekilde manipüle etme yeteneği sağlar. OpenVoice çerçevesi, üçüncü zorluğu da çözmeyi amaçlar, çünkü ayrılmış yapı, hesaplama karmaşıklığını ve model boyutu gereksinimlerini azaltır.

OpenVoice : Yöntem ve Mimarisi

OpenVoice çerçevesinin teknik yapısı etkili ve şaşırtıcı derecede basit bir şekilde uygulanabilir. Bir konuşmacının ton rengini klonlamak, yeni bir dil eklemek ve aynı zamanda ses parametreleri üzerinde esnek kontrol sağlamak aynı anda zor olabilir. Bu, bu üç görevi aynı anda gerçekleştirmek için büyük bir kombinasyonel veri kümesi gerektirir. Ayrıca, normal tek konuşmacı metin’den konuşmaya sentez görevlerinde, ses klonlaması gerektirmeyen görevlerde, diğer stil parametreleri üzerinde kontrol sağlamak daha kolaydır. OpenVoice çerçevesi, anlık ses klonlama görevlerini alt görevlere ayırarak çalışır. Model, dil ve stil parametrelerini kontrol etmek için bir temel konuşmacı metin’den konuşmaya modeli kullanmayı ve referans ton rengini sese dahil etmek için bir ton rengi dönüştürücü kullanmayı önerir.

OpenVoice çerçevesi iki bileşenden oluşur: bir ton rengi dönüştürücü ve bir temel konuşmacı metin’den konuşmaya modeli. Temel konuşmacı metin’den konuşmaya modeli, stil parametreleri, dil ve vurgulu üzerinde kesin kontrol sağlayan tek konuşmacı veya çok konuşmacı bir model olabilir. Model, temel konuşmacı sesini üretir ve bu ses, referans ton rengini değiştirmek için ton rengi dönüştürücüye geçirilir.

OpenVoice çerçevesi, temel konuşmacı metin’den konuşmaya modeli için esneklik sağlar, çünkü VITS modelini slight değişikliklerle kabul edebilir ve bu da dil ve stil gömme bilgilerini süre predictor ve metin encoderına kabul etmesini sağlar. Çerçeve, Microsoft TTS gibi ticari olarak ucuz modelleri de kullanabilir veya InstructTTS gibi stil promtlerini kabul edebilen modelleri de kullanabilir. Şu anda, OpenVoice çerçevesi VITS modelini kullanıyor, ancak diğer modeller de uygulanabilir.

Ton rengi dönüştürücü, bir kodlayıcı-çıkış kodlayıcısı bileşenidir ve merkezinde invertible normalizing flow bulunur. Kodlayıcı bileşen, temel konuşmacı metin’den konuşmaya modelinin kısa-zamanlı Fourier dönüşümü spektrumunu girdi olarak kabul eder ve çıktı olarak özellik haritaları üretir. Ton rengi çıkarıcı, bir boyutlu bir CNN’dir ve girdi sesinin mel-spektrogramını işletir ve tek bir özellik vektörü üretir, bu da ton rengi bilgilerini kodlar. Normalizing flow katmanları, kodlayıcı tarafından üretilen özellik haritalarını girdi olarak kabul eder ve ton rengi bilgilerini ortadan kaldırarak özellik temsilini üretir. OpenVoice çerçevesi, normalizing flow katmanlarını ters yönünde uygular ve özellik temsilini girdi olarak kabul eder ve ham ses dalgalarına dönüştürür.

OpenVoice çerçevesinin tüm mimarisi ileri beslemeli bir yapıya sahiptir ve herhangi bir oto-regressif bileşen içermemektedir. Ton rengi dönüştürücü bileşeni, kavramsal olarak ses dönüştürme ile benzerdir, ancak işlevsellik, eğitim hedefleri ve model yapısında inductive bias açısından farklılıklar gösterir. Normalizing flow katmanları, akış tabanlı metin’den konuşmaya sentez modelleri ile aynı yapıya sahiptir, ancak işlevsellik ve eğitim hedefleri açısından farklılıklar gösterir.

Ayrıca, özellik temsilini çıkarmak için farklı bir yaklaşım bulunmaktadır, ancak OpenVoice çerçevesi tarafından uygulanan yöntem daha iyi ses kalitesi sağlar. Ayrıca, OpenVoice çerçevesinin model mimarisindeki bileşenleri icat etme amacı yoktur, temel bileşenler olan ton rengi dönüştürücü ve temel konuşmacı metin’den konuşmaya modeli, mevcut çalışmaların bir parçasıdır. OpenVoice çerçevesinin birincil amacı, dil kontrolünü ve ses stilini ton rengi klonlamasından ayırmaktır. Bu yaklaşım basit görünse de, özellikle stil ve vurgulu kontrolü veya yeni dil genellemesi görevlerinde oldukça etkili olur. Aynı kontrolü birleşik bir çerçeve kullanarak elde etmek, büyük miktarda hesaplama ve veri gerektirir ve yeni dillere iyi genellemeye sahip değildir.

OpenVoice çerçevesinin temel felsefesi, dil ve ses stillerinin üretimini ton rengi üretiminden ayırmaktır. OpenVoice çerçevesinin birincil güçlerinden biri, klonlanmış sesin akıcı ve yüksek kalitede olmasıdır, eğer tek konuşmacı TTS akıcı bir şekilde konuşuyorsa.

OpenVoice : Deney ve Sonuçlar

Ses klonlama görevlerini değerlendirmek zor bir görevdir, çünkü birçok neden vardır. İlk olarak, mevcut çalışmalar farklı eğitim ve test veri kümelerini kullanır, bu da bu çalışmaları birbirleriyle karşılaştırmayı zorlaştırır. Ayrıca, kalite puanı gibi metrikleri değerlendirmek için kalabalık kaynak kullanmak mümkün olabilir, ancak test veri kümesinin zorluğu ve çeşitliliği, sonucu önemli ölçüde etkiler. İkinci olarak, farklı ses klonlama yöntemleri farklı eğitim veri kümelerine sahiptir ve bu veri kümesinin çeşitliliği ve ölçeği, sonuçları önemli ölçüde etkiler. Son olarak, mevcut çalışmaların birincil amacı birbirinden farklıdır, bu da işlevselliklerinin farklı olmasına neden olur.

Yukarıda belirtilen nedenlerle, mevcut ses klonlama çerçevelerini nicel olarak karşılaştırmak adil değildir. Bunun yerine, bu yöntemleri nitel olarak karşılaştırmak daha mantıklıdır.

Doğru Ton Rengi Klonlama

Performansını analiz etmek için, geliştiriciler bir test kümesi oluşturdular, bu küme anonim bireyler, oyun karakterleri ve ünlülerden oluşur ve geniş bir ses dağılımına sahiptir, bu da hem nötr örnekleri hem de benzersiz ifade edilen sesleri içerir. OpenVoice çerçevesi, referans ton rengini klonlayabilir ve herhangi bir referans konuşmacı ve 4 temel konuşmacı için birden fazla dilde ve vurgulu ile konuşma üretebilir.

Ses Stilleri Üzerinde Esnek Kontrol

OpenVoice çerçevesinin birincil amaçlarından biri, ton rengi dönüştürücü kullanarak ses stillerini esnek bir şekilde kontrol etmektir, bu da ton rengini değiştirirken diğer ses özelliklerini korur.

Deneyler, modelin ton rengini dönüştürürken ses stillerini koruduğunu gösterir. Bazı durumlarda, model duyguları hafifçe nötralize edebilir, ancak bu sorun, akış katmanlarına daha az bilgi geçirerek çözülebilir, böylece akış katmanları duyguları ortadan kaldıramaz. OpenVoice çerçevesi, temel konuşmacı metin’den konuşmaya modelini kolayca kontrol ederek ses stillerini manipüle edebilmesini sağlar, bu da ton rengi dönüştürücü kullanmasıyla mümkündür.

Çapraz Dilli Ses Klonlama

OpenVoice çerçevesi, görünmeyen bir dil için büyük bir çok konuşmacı çok dilli veri kümesine erişimi olmasa da, zero-shot ayarında çapraz dilli ses klonlama yeteneği gösterir. OpenVoice çerçevesinin çapraz dilli ses klonlama yetenekleri iki katlıdır:

  1. Model, referans konuşmacının dilinin çok konuşmacı çok dilli veya MSML veri kümesinde görünmeyen durumlarda, referans konuşmacının ton rengini doğru bir şekilde klonlayabilir.
  2. Ayrıca, referans konuşmacının dilinin görünmeyen durumlarda, OpenVoice çerçevesi, referans konuşmacının sesini klonlayabilir ve temel konuşmacı metin’den konuşmaya modeli tarafından desteklenen dilde konuşabilir.

Son Düşünceler

Bu makalede, herhangi bir kullanıcının sesini taklit eden ve referans konuşmacının kısa bir ses klipini kullanarak birden fazla dilde konuşma üreten OpenVoice adlı bir çerçeve hakkında konuştuk. OpenVoice’in birincil intuitionu, bir modelin referans konuşmacının ton rengini klonlaması gerekmediği sürece, bir temel konuşmacı metin’den konuşmaya modelini dil ve ses stilleri kontrol etmek için kullanabilmesidir.

OpenVoice, Anlık Ses Klonlama modellerinin referans konuşmacının ton rengini taklit edebileceğini ve vurgulu, ritim, entonasyon, duraklamalar ve hatta duygular dahil olmak üzere ses stillerinin üzerinde granül kontrol sağlayabileceğini gösterir. OpenVoice, mevcut API’lerle karşılaştırıldığında 10 kat daha düşük işletim maliyetleriyle üstün anlık ses klonlama sonuçları sağlar.

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.