Bizimle iletişime geçin

Yapay Zeka

Metinden Müziğe Üretken Yapay Zeka: Stabil Ses, Google'ın MusicLM'si ve Daha Fazlası

mm

İnsan ruhunda yankı uyandıran bir sanat türü olan müzik, hepimizin sürekli yoldaşı olmuştur. Yapay zekayı kullanarak müzik yaratmak onlarca yıl önce başladı. Başlangıçta girişimler basit ve sezgiseldi; temel algoritmalar monoton melodiler oluşturuyordu. Ancak teknoloji ilerledikçe yapay zeka müzik oluşturucularının karmaşıklığı ve yetenekleri de arttı ve derin öğrenmenin ve Doğal Dil İşlemenin (NLP) bu teknolojide önemli roller oynamasının önünü açtı.

Spotify gibi platformlar, kullanıcılarının dinleme deneyimlerini hassaslaştırmak için yapay zekadan yararlanıyor. Bu derin öğrenme algoritmaları, tempo ve ruh hali gibi çeşitli müzik öğelerine göre kişisel tercihleri ​​analiz ederek kişiselleştirilmiş şarkı önerileri oluşturuyor. Hatta daha geniş dinleme kalıplarını analiz ediyor ve internette şarkılarla ilgili tartışmaları tarayarak ayrıntılı şarkı profilleri oluşturuyorlar.

Müzikte Yapay Zekanın Kökeni: Algoritmik Kompozisyondan Üretken Modellemeye Yolculuk

1950'lerden 1970'lere kadar müzik dünyasında yapay zeka miksajının ilk aşamalarında odak noktası öncelikle algoritmik kompozisyondu. Bu, bilgisayarların müzik oluşturmak için tanımlanmış bir dizi kural kullandığı bir yöntemdi. Bu dönemdeki ilk dikkate değer yaratım, Yaylı Çalgılar Dörtlüsü için Iliac Süiti 1957'de. Geleneksel müzik teorisi ve istatistiksel olasılıkların sınırları dahilinde perdeyi ve ritmi belirlemek için rastgele sayıları içeren bir süreç olan Monte Carlo algoritmasını kullandı.

Yazar tarafından Midjourney kullanılarak oluşturulan resim

Yazar tarafından Midjourney kullanılarak oluşturulan resim

Bu süre zarfında başka bir öncü, Iannis Xenakis, müzik oluşturmak için rastgele olasılık dağılımlarını içeren bir kavram olan stokastik süreçlerden yararlandı. Bilgisayarları kullanıyordu ve FORTRAN Çoklu olasılık fonksiyonlarını birbirine bağlamak için dil, farklı grafiksel temsillerin farklı ses alanlarına karşılık geldiği bir model oluşturur.

Metni Müziğe Çevirmenin Karmaşıklığı

Müzik, melodi, armoni, ritim ve tempo gibi unsurları kapsayan zengin ve çok boyutlu bir veri formatında depolanır ve bu da metni müziğe çevirme işini oldukça karmaşık hale getirir. Standart bir şarkı, bilgisayarda yaklaşık bir milyon sayıyla temsil edilir; bu rakam, resim, metin vb. gibi diğer veri formatlarından çok daha yüksektir.

Ses üretimi alanı, gerçekçi ses yaratmanın zorluklarının üstesinden gelmek için yenilikçi yaklaşımlara tanık oluyor. Yöntemlerden biri, bir spektrogram oluşturmayı ve ardından onu tekrar sese dönüştürmeyi içerir.

Bir diğer strateji ise müzisyenler tarafından yorumlanıp çalınabilen nota gibi müziğin sembolik temsilinden yararlanmaktır. Bu yöntem, Magenta'nınki gibi araçlarla başarıyla dijitalleştirilmiştir. Oda Topluluğu Jeneratörü Bilgisayarlar ve müzik enstrümanları arasındaki iletişimi kolaylaştıran bir protokol olan MIDI formatında müzik oluşturmak.

Bu yaklaşımlar alanı ilerletirken, ses üretiminin karmaşık doğasını vurgulayan kendi sınırlamalarıyla birlikte geliyorlar.

Trafotabanlı otoregresif modeller ve U-Net tabanlı difüzyon modelleri, ses, metin, müzik ve çok daha fazlasını üretmede en son teknoloji (SOTA) sonuçları üreten teknolojinin ön saflarında yer almaktadır. OpenAI'nin GPT serisi ve şu anda neredeyse tüm diğer LLM programları, kodlayıcı, kod çözücü veya her iki mimariyi birden kullanan transformatörlerle çalışmaktadır. Sanat/görüntü tarafında, MidJourney, Stability AI ve DALL-E 2, difüzyon çerçevelerinden yararlanmaktadır. Bu iki temel teknoloji, ses sektöründe de SOTA sonuçlarına ulaşmada kilit rol oynamıştır. Bu makalede, bu teknolojilerin olağanüstü yeteneklerinin bir kanıtı olan Google'ın MusicLM ve Stable Audio teknolojilerini inceleyeceğiz.

Google'ın MusicLM'si

Google'ın MusicLM uygulaması bu yılın Mayıs ayında piyasaya sürüldü. MusicLM, metinde anlatılan duyguyu birebir yansıtan, yüksek kaliteli müzik parçaları üretebiliyor. Hiyerarşik sıra-sıra modellemesini kullanan MusicLM, metin açıklamalarını uzun süreler boyunca 24 kHz'de yankılanan müziğe dönüştürme yeteneğine sahip.

Model, yalnızca metinsel girdilere bağlı kalarak değil, aynı zamanda melodilere göre koşullanma yeteneğini de göstererek çok boyutlu bir düzeyde çalışmaktadır. Bu, mırıldanılan veya ıslık çalan bir melodiyi alıp onu metin başlığında belirtilen stile göre dönüştürebileceği anlamına gelir.

Teknik Bilgiler

MusicLM şu ilkelerden yararlanır: Ses LM2022'de ses üretimi için tanıtılan bir çerçeve. AudioLM, jeton olarak da bilinen kaba-ince ses ayrık birimlerinden oluşan bir hiyerarşi kullanarak, ayrı bir temsil alanı içinde sesi bir dil modelleme görevi olarak sentezler. Bu yaklaşım, önemli süreler boyunca yüksek doğruluk ve uzun vadeli tutarlılık sağlar.

Oluşturma sürecini kolaylaştırmak için MusicLM, AudioLM'nin yeteneklerini, oluşturulan sesi giriş metninin nüanslarıyla hizalayan bir teknik olan metin koşullandırmayı içerecek şekilde genişletir. Bu, müziği ve buna karşılık gelen metin açıklamalarını bir yerleştirme alanında birbirine yakın şekilde yansıtmak üzere eğitilmiş ortak bir müzik metni modeli olan MuLan kullanılarak oluşturulan paylaşılan bir yerleştirme alanı aracılığıyla elde edilir. Bu strateji, eğitim sırasında altyazı ihtiyacını etkili bir şekilde ortadan kaldırarak modelin yalnızca sesten oluşan büyük bir korpora üzerinde eğitilmesine olanak tanır.

MusicLM modeli ayrıca şunları kullanır: SOUNDSTREAM 24 kHz müziği 6 kbps'de etkileyici bir doğrulukla yeniden oluşturabilen ses tokenizer'ı olarak artık vektör kuantizasyonu (RVQ) verimli ve yüksek kaliteli ses sıkıştırması için.

MusicLM'in temel modelleri için bağımsız ön eğitim sürecinin bir örneği: SoundStream, w2v-BERT ve MuLan,

MusicLM'in ön eğitim sürecinin bir örneği: SoundStream, w2v-BERT ve Mulan | Resim kaynağı: okuyun

Üstelik MusicLM melodi koşullandırmaya izin vererek yeteneklerini genişletiyor. Bu yaklaşım, basit bir uğultulu melodinin bile, tam metin stili açıklamalarına göre ince ayarlı muhteşem bir işitsel deneyim için temel oluşturmasını sağlar.

MusicLM'in geliştiricileri ayrıca, her biri uzmanlar tarafından hazırlanmış zengin metin açıklamalarının eşlik ettiği 5.5 bin müzik metni çiftinden oluşan bir veri kümesi olan açık kaynaklı MusicCaps'e de sahiptir. Buradan kontrol edebilirsiniz: Sarılma Yüzünde MusicCaps.

Google'ın MusicLM uygulamasıyla yapay zeka destekli müzik parçaları oluşturmaya hazır mısınız? İşte nasıl başlayacağınız:

  1. Resmi MusicLM web sitesini ziyaret edin ve “Başlayın”a tıklayın.
  2. “İlginizi kaydedin”i seçerek bekleme listesine katılın.
  3. Google hesabınızı kullanarak giriş yapın.
  4. Erişim izni verildikten sonra başlamak için “Şimdi Dene”ye tıklayın.

Aşağıda denediğim birkaç örnek bilgi istemi verilmiştir:

“Flütler ve gitarlar eşliğinde, sakinleştirici ve dinlendirici, meditasyon niteliğinde bir şarkı. Müzik yavaş, huzur ve sükunet duygusu yaratmaya odaklanıyor.”

“saksafonla caz”

Niteliksel bir değerlendirmede Riffusion ve Mubert gibi önceki SOTA modelleriyle karşılaştırıldığında MusicLM diğer modellere göre daha fazla tercih edildi ve katılımcılar, metin altyazılarının 10 saniyelik ses klipleriyle uyumluluğunu olumlu bir şekilde değerlendirdi.

MusicLM Performans karşılaştırması

MusicLM Performansı, Resim kaynağı: okuyun

Kararlılık Sesi

Stabilite Yapay Zekası geçen hafta tanıtıldı "Kararlı Ses"Metin meta verilerinin yanı sıra ses dosyası süresi ve başlangıç ​​saatine bağlı gizli bir yayılma modeli mimarisi. Google'ın MusicLM'si gibi bu yaklaşım, oluşturulan sesin içeriği ve uzunluğu üzerinde kontrol sağlayarak, eğitim penceresi boyutuna kadar belirtilen uzunluklarda ses klipleri oluşturulmasına olanak tanır.

Teknik Bilgiler

Stabil Ses, bir Değişken Otomatik Kodlayıcı (VAE) ve bir metin kodlayıcıyla birlikte çalışan bir U-Net tabanlı şartlandırılmış dağıtım modeli dahil olmak üzere çeşitli bileşenlerden oluşur.

Değişken otomatik kodlayıcı (VAE), metin kodlayıcı ve U-Net tabanlı koşullu difüzyon modelinin entegrasyonunu gösteren bir çizim

Kararlı Ses Mimarisi, Görüntü kaynağı: okuyun

MKS VAE ham ses örnekleriyle çalışma ihtiyacını ortadan kaldırarak stereo sesi veri sıkıştırılmış, gürültüye dayanıklı ve tersinir kayıplı gizli kodlamaya sıkıştırarak daha hızlı üretim ve eğitimi kolaylaştırır.

Bir metin kodlayıcıdan türetilen metin kodlayıcı CLAP Model, kelimeler ve sesler arasındaki karmaşık ilişkilerin anlaşılmasında önemli bir rol oynar ve simgeleştirilmiş giriş metninin bilgilendirici bir temsilini sunar. Bu, CLAP metin kodlayıcının sondan bir önceki katmanından gelen metin özelliklerinin kullanılmasıyla elde edilir ve bunlar daha sonra çapraz dikkat katmanları aracılığıyla difüzyon U-Net'e entegre edilir.

Önemli bir husus, iki özelliğe göre hesaplanan zamanlama yerleştirmelerinin dahil edilmesidir: ses parçasının başlangıç ​​saniyesi ve orijinal ses dosyasının toplam süresi. Saniye başına ayrı öğrenilen yerleştirmelere dönüştürülen bu değerler, bilgi istemi belirteçleriyle birleştirilir ve U-Net'in çapraz dikkat katmanlarına beslenir, böylece kullanıcılara çıkış sesinin genel uzunluğunu belirleme yetkisi verilir.

Stable Audio modeli, hazır müzik sağlayıcısı AudioSparx ile işbirliği yapılarak 800,000'den fazla ses dosyasından oluşan kapsamlı bir veri kümesi kullanılarak eğitildi.

Sabit sesli reklamlar

Sabit sesli reklamlar

Stable Audio, ayda 20 saniyeye kadar parçanın 20 nesile izin veren ücretsiz bir sürümü ve 12 saniyeye kadar parçanın 500 nesle izin veren ayda 90 ABD doları değerinde bir Pro planı sunar.

Aşağıda sabit ses kullanarak oluşturduğum bir ses klibi bulunmaktadır.

Yazar tarafından Midjourney kullanılarak oluşturulan resim

Yazar tarafından Midjourney kullanılarak oluşturulan resim

“Sinematik, Film Müziği Hafif Yağmur, Ortam, Yatıştırıcı, Uzaktaki Köpeklerin Havlaması, Sakinleştirici Yaprak Hışırtısı, Hafif Rüzgar, 40 BPM”

Bu kadar ince hazırlanmış ses parçalarının uygulamaları sonsuzdur. Film yapımcıları zengin ve sürükleyici ses manzaraları oluşturmak için bu teknolojiden yararlanabilirler. Ticari sektörde reklamverenler bu özel ses kayıtlarından yararlanabilir. Üstelik bu araç, bireysel yaratıcılara ve sanatçılara deney yapmaları ve yenilik yapmaları için yollar açarak hikayeler anlatan, duyguları uyandıran ve daha önce önemli bir bütçe olmadan elde edilmesi zor olan derinlikte atmosferler yaratan ses parçaları oluşturmak için sınırsız potansiyele sahip bir tuval sunuyor. veya teknik uzmanlık.

Uyarı İpuçları

Metin komutlarını kullanarak mükemmel sesi oluşturun. İşte başlamanıza yardımcı olacak hızlı bir kılavuz:

  1. Ayrıntılı Olun: Türleri, ruh hallerini ve enstrümanları belirtin. Örneğin: Sinematik, Vahşi Batı, Perküsyon, Gerginlik, Atmosfer
  2. Ruh Hali Ayarı: İstenilen ruh halini iletmek için müzikal ve duygusal terimleri birleştirin.
  3. Enstrüman Seçimi: Enstrüman adlarını “Yankılanan Gitar” veya “Güçlü Koro” gibi sıfatlarla geliştirin.
  4. BPM: Bir Drum and Bass parçası için “170 BPM” gibi uyumlu bir çıktı elde etmek için tempoyu türe göre hizalayın.

Kapanış Notları

Yazar tarafından Midjourney kullanılarak oluşturulan resim

Yazar tarafından Midjourney kullanılarak oluşturulan resim

Bu makalede, algoritmik bestelerden Google'ın MusicLM ve Stability Audio gibi günümüzün gelişmiş üretken yapay zeka çerçevelerine kadar, yapay zeka tarafından üretilen müzik/sesleri derinlemesine inceledik. Derin öğrenme ve SOTA sıkıştırma modellerinden yararlanan bu teknolojiler, yalnızca müzik üretimini geliştirmekle kalmıyor, aynı zamanda dinleyicilerin deneyimlerini de hassaslaştırıyor.

Ancak bu, uzun vadeli tutarlılığın sürdürülmesi gibi engellerle ve bu alandaki öncüleri zorlayan yapay zeka tarafından hazırlanmış müziğin özgünlüğüne ilişkin süregelen tartışmalarla sürekli gelişen bir alandır. Sadece bir hafta önce, bu yılın başlarında internette alev alan, Drake ve The Weeknd'in tarzlarını aktaran yapay zeka yapımı bir şarkı hakkında konuşuluyordu. Bununla birlikte, endüstride yapay zeka tarafından üretilen müziğin meşruiyeti etrafında devam eden tartışmayı ortaya koyan Grammy aday listesinden çıkarılma tehlikesiyle karşı karşıya kaldı (kaynak). Yapay zeka, müzik ve dinleyiciler arasındaki boşlukları kapatmaya devam ettikçe, kesinlikle teknolojinin sanatla bir arada var olduğu, geleneğe saygı gösterirken yeniliği teşvik ettiği bir ekosistemi teşvik ediyor.

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.