Yapay Zeka

Araştırmacılar, Hem Çince hem de İngilizce Şarkı Söyleyebilen Yapay Zeka Modeli Oluşturuyor

Yayınlanan Temmuz 17, 2020

Güncellenmiş 9 Aralık 2022

daniel nelson

Microsoft ve Zhajiang Üniversitesi'nden bir araştırma ekibi, yakın zamanda çok sayıda dilde şarkı söyleyebilen bir yapay zeka modeli oluşturdu. VentureBeat'in bildirdiği gibi, ekip tarafından geliştirilen DeepSinger AI eğitildi şarkıcının sesinin tınısını yakalayan algoritmalar kullanılarak çeşitli müzik web sitelerinden alınan veriler.

Bir AI şarkıcısının "sesini" oluşturmak, sesin hem perdesini hem de süresini tahmin edebilen ve kontrol edebilen algoritmalar gerektirir. İnsanlar şarkı söylediğinde, ürettikleri sesler basit konuşmaya kıyasla çok daha karmaşık ritimlere ve kalıplara sahiptir. Ekibin üstesinden gelmesi gereken bir başka sorun da, yeterli miktarda konuşma/konuşma eğitimi verisi mevcutken, şarkı söyleme eğitimi veri setlerinin oldukça nadir olmasıydı. Bu zorlukları, şarkıların hem ses hem de sözlerin analiz edilmesi gerektiği ve şarkı üretme probleminin inanılmaz derecede karmaşık olduğu gerçeğiyle birleştirin.

Araştırmacılar tarafından oluşturulan DeepSinger sistemi, ses verilerini çıkaran ve dönüştüren bir veri hattı geliştirerek bu zorlukların üstesinden geldi. Şarkı klipleri çeşitli müzik sitelerinden çıkarıldı ve ardından şarkı sesin geri kalanından izole edildi ve cümlelere bölündü. Bir sonraki adım, şarkı sözlerindeki her ses biriminin süresini belirlemek ve her biri şarkı sözlerinde benzersiz bir ses birimini temsil eden bir dizi örnekle sonuçlanmaktı. Sözler ve eşlik eden ses örnekleri güven puanına göre sıralandıktan sonra, bozuk eğitim örneklerinin üstesinden gelmek için verilerin temizlenmesi yapılır.

Tam olarak aynı yöntemler çeşitli diller için çalışıyor gibi görünüyor. DeepSinger, 89 saatten fazla şarkı söyleyen 92 farklı şarkıcıdan oluşan Çince, Kantonca ve İngilizce vokal örnekleri üzerinde eğitildi. Çalışmanın sonuçları, DeepSinger sisteminin ses perdesinin doğruluğu ve şarkının kulağa ne kadar doğal geldiği gibi ölçütlere göre güvenilir bir şekilde yüksek kaliteli "şarkı" örnekleri üretebildiğini buldu. Araştırmacılar, 20 kişiye hem DeepSinger tarafından oluşturulan şarkıları hem de eğitim şarkılarını bu ölçümlere göre derecelendirdi ve oluşturulan örnekler ile gerçek ses arasındaki puanlar arasındaki fark oldukça küçüktü. Katılımcılar, DeepSinger'a 0.34 ile 0.76 arasında değişen ortalama bir görüş puanı verdi.

İleriye dönük olarak, araştırmacılar, DeepSinger'ı içeren çeşitli alt modelleri ortaklaşa eğiterek, ses dalga formları aracılığıyla doğal sesli konuşma üretme görevi için özel olarak tasarlanmış WaveNet gibi özel teknolojilerin yardımıyla, üretilen seslerin kalitesini denemek ve iyileştirmek istiyorlar. .

DeepSinger sistemi, şarkıcıların ve diğer müzik sanatçılarının, başka bir kayıt oturumu için stüdyoya dönmelerine gerek kalmadan düzeltmeler yapmalarına yardımcı olmak için kullanılabilir. BT aynı zamanda potansiyel olarak derin ses sahtekarlıkları oluşturmak için de kullanılabilir; bu da bir sanatçının gerçekte hiç söylemediği bir şarkıyı söylediği izlenimini verir. Parodi veya hiciv için kullanılabilse de yasallığı da şüphelidir.

DeepSinger, müzik ve yazılımın etkileşim şeklini değiştirebilecek yapay zeka tabanlı yeni müzik ve ses sistemlerinden yalnızca biridir. OpenAI kısa süre önce kendi AI sistemini yayınladı, JukeBox olarak adlandırılan, belirli bir türün veya hatta belirli bir sanatçının tarzında orijinal müzik parçaları üretebilen. Diğer müzikal AI araçları şunları içerir: Google'ın Macenta'sı ve Amazon'un DeepComposer'ı. Magnets, otomatik davul desteğinden basit müzik tabanlı video oyunlarına kadar her şeyi üretmek için kullanılabilen açık kaynaklı bir ses (ve görüntü) manipülasyon kitaplığıdır. Bu arada, Amazon'un DeepComposer'ı, kendi müzik tabanlı derin öğrenme modellerini eğitmek ve özelleştirmek isteyenlere yöneliktir ve kullanıcının önceden eğitilmiş örnek modeller almasına ve modelleri ihtiyaçlarına göre ayarlamasına olanak tanır.

DeepSinger tarafından oluşturulan bazı ses örneklerini dinleyebilirsiniz. bu linkten.

İlgili konular:müzik şan Konuşma tanıma

daniel nelson

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenmesi ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.

Unite.AI

Araştırmacılar, Hem Çince hem de İngilizce Şarkı Söyleyebilen Yapay Zeka Modeli Oluşturuyor

Beğenebilirsin