Yapay Zekâ

AI Araştırması, Diyalog, Müzik ve Ses Efektleri için Ayırıcı Hacim Kontrolleri Öngörmektedir

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

Mitsubishi’nin liderliğindeki yeni bir araştırma işbirliği, bir orijinal ses kaynağından üç ayrı ses yolunu çıkarma olasılığını araştırıyor, ses parçasını konuşma, müzik ve ses efektlerine (yani ambient gürültü) ayırıyor.

Bu, post-facto işleme çerçevesi olarak, tüketici ekipmanları da dahil olmak üzere çoklu ortamlı görüntüleme platformlarının daha sonraki nesillerine, diyalogun sesini yükseltmeye veya bir soundtrack’in sesini düşürmeye olanak tanıyan üç noktalı hacim kontrolleri sunma potansiyeli sunuyor.

Aşağıdaki kısa klip, araştırma için eklenen videodan (makalenin sonunda tam video için bkz.) farklı ses yolunun çeşitli yönlerini vurgulamaktadır:

Araştırmaya eşlik eden videodan bir kısa klip (makalenin sonunda gömülü olarak). Kullanıcı, üç ayrı ses bileşeninin bir köşesinde bulunan üçgen UI’de (sağda) imleci birine doğru sürüklediğinde, ses o parçasını vurgulamaktadır. Daha uzun video, YouTube’da birçok ek örneğe atıfta bulunsa da, bunlar şu anda kullanılamıyor gibi görünüyor. Kaynak: https://vimeo.com/634073402

Makale, The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks olarak adlandırılmış ve Mitsubishi Electric Research Laboratories (MERL) ve Indiana Üniversitesi’ndeki Akıllı Sistemler Mühendisliği Bölümü’nden araştırmacılardan gelmektedir.

Ses Yolunun Farklı Yönlerini Ayırma

Araştırmacılar, bu zorluğu ‘The Cocktail Party Problem’ olarak adlandırdılar, çünkü bir ses yolundaki şiddetle iç içe geçmiş unsurları izole etmeyi içerir, bu da bir çatala benzeyen bir yol haritası oluşturur (aşağıdaki resme bakınız). Uygulamada, çok kanallı (yani stereo ve daha fazla) ses yolları, özellikle diyalogun Dolby 5.1 karışımlarında merkezi kanalı domine etme eğiliminde olduğu için, farklı türlerde içeriklere sahip olabilir. Şu anda, ses ayırma alanında aktif bir araştırma alanı, tek bir ses yolundan bu unsurları yakalamaya odaklanmaktadır.

The Cocktail Fork – birleştirilmiş ve tek bir ses yolundan üç ayrı ses yolunu türetme. Kaynak: https://arxiv.org/pdf/2110.09958.pdf

Son araştırmalar, çeşitli ortamlarda konuşma çıkarma üzerine yoğunlaştı, genellikle sesli konuşma sesini gürültüden arındırmak için Doğal Dil İşleme (NLP) sistemleriyle sonraki etkileşim amacıyla, ancak ayrıca arşivlenmiş şarkı seslerinin izole edilmesi üzerine, ya sentetik versiyonlar oluşturmak için (hatta ölü şarkıcılar için) ya da Karaoke tarzı müzik izolasyonu için.

Her Yön için Bir Veri Kümesi

Şu ana kadar, bu tür AI teknolojisini kullanarak kullanıcıların bir ses yolunun karışımına daha fazla kontrol sağlamasına çok az dikkat edilmiştir. Bu nedenle araştırmacılar, sorunu formalize etmişler ve devam eden çoklu tür ses yolu ayırma araştırmalarına yardımcı olmak için yeni bir veri kümesi geliştirmişlerdir ve ayrıca çeşitli mevcut ses ayırma çerçevelerinde test etmişlerdir.

Araştırmacılar tarafından geliştirilen yeni veri kümesi Divide and Remaster (DnR) olarak adlandırılmış ve önceki veri kümelerinden LibriSpeech, Free Music Archive ve Freesound Dataset 50k (FSD50K) türetilmiştir. DnR ile çalışmak isteyenler için, veri kümesi üç kaynaktan yeniden oluşturulmalıdır; aksi takdirde, yazarlar iddia ettiğine göre, kısa süre sonra Zenodo’da kullanılabilir olacak. Ancak, yazıldığı sırada, kaynak çıkarma yardımcı programları için sağlanan GitHub bağlantısı şu anda aktif değil, bu nedenle ilgilenenler bir süre beklemek zorunda kalabilir.

Araştırmacılar, Sony’nin Mayıs ayında önerdiği CrossNet un-mix (XUMX) mimarisinin DnR ile özellikle iyi çalıştığını bulmuşlardır.

Sony’nin CrossNet mimarisi.

Yazarlar, makine öğrenimi çıkarma modellerinin YouTube’dan ses yolları üzerinde iyi çalıştığını iddia ediyorlar, ancak kağıdda sunulan değerlendirmeler sentetik veriler temelinde yapılmıştır ve sağlanan ana destek video (aşağıda gömülü olarak) görünüşe göre şu anda kullanılabilir olan tek video.

Kullanılan üç veri kümesi, bir ses yolundan ayrılması gereken türden çıktıların her birini oluşturmaktadır: FSD50K, ses efektleriyle ilgilidir ve 50.000 44,1 kHz mono ses kliplerini içerir ve Google’ın AudioSet ontolojisinden 200 sınıf etiketi ile etiketlenmiştir; Free Music Archive, 161 müzik türünü kapsayan 100.000 stereo şarkıya sahiptir, ancak yazarlar FSD50K ile parite için 25.000 şarkılık bir alt küme kullanmışlardır; ve LibriSpeech, DnR’ye 44,1 kHz mp3 ses dosyaları olarak 100 saatlik ses kitabı örnekleri sağlar.

Gelecek Çalışmaları

Yazarlar, veri kümesi ve geliştirilen ayrı modeller üzerinde daha fazla çalışma bekliyorlar ve ayrıca konuşma tanıma ve ses sınıflandırma çerçevelerine yönelik ek araştırmeler için otomatik altyazı oluşturma ve konuşma ve konuşma dışı sesler için ses sınıflandırması özelliklerine sahip olmayı amaçlıyorlar. Ayrıca, algısal artifactsı azaltabilen remixleme yaklaşımlarını değerlendirmeyi amaçlıyorlar, bu da birleştirilmiş bir ses yolunu bileşenlerine ayırırken merkezi sorun olmaya devam etmektedir.

Bu tür bir ayırma, gelecekte, yüksek derecede optimize edilmiş çıkarım ağlarını içeren akıllı TV’ler gibi tüketici ürünlerinde bir tüketici malzemesi olarak mevcut olabilir, ancak erken uygulamaların bazı ön işleme zamanı ve depolama alanı gerektirmesi muhtemeldir. Samsung zaten yerel nöral ağları için upscaling kullanıyor, mentre Sony’nin Cognitive Processor XR‘i, şirketin Bravia serisinde kullanılan, ses yollarını canlı olarak analiz ediyor ve yeniden yorumluyor hafif entegre AI aracılığıyla.

Ses yolunun karışımına daha fazla kontrol sağlama çağrıları periyodik olarak ortaya çıkıyor ve sunulan çoğu çözüm, ses yolunun zaten mevcut standartlara (ve izleyicilerin ne istediğine ilişkin varsayımlara) uygun olarak film ve TV endüstrilerinde karıştırıldığını ele almak zorunda.

Bir izleyici, film ses yollarındaki çeşitli unsurların ses seviyelerindeki şok edici farklılıktan rahatsız olarak, donanım tabanlı otomatik ses ayarlayıcısı geliştirmek için yeterli derecede umutsuz hale geldi, bu, filmler ve TV için ses seviyelerini eşitleyebilir.

Akıllı TV’ler, diyalog sesini yükseltmeye çalışmak için çeşitli yöntemler sunar, ancak hepsi karıştırma zamanında alınan kararlara ve izleyiciye ses yollarını tam olarak kurdukları şekilde deneyimleme isteği olan içerik üreticilerinin vizyonlarına karşı mücadele vermektedir.

İçerik üreticileri, bu potansiyel ekleme karşı “remix kültürü”ne karşı muhtemelen itiraz edeceklerdir, çünkü endüstri içindeki beberapa önemli isim zaten TV tabanlı algoritmaların varsayılan post-işleme örneklerine karşı rahatsızlıklarını dile getirmişlerdir.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]

Unite.AI

AI Araştırması, Diyalog, Müzik ve Ses Efektleri için Ayırıcı Hacim Kontrolleri Öngörmektedir

Ses Yolunun Farklı Yönlerini Ayırma

Her Yön için Bir Veri Kümesi

Gelecek Çalışmaları

You may like