saplama AudioSep: Tanımladığınız Her Şeyi Ayırın - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

AudioSep: Tanımladığınız Her Şeyi Ayırın

mm

Yayınlanan

 on

LASS veya Dille Sorgulanan Ses Kaynağı Ayırma, dijital ses görevleri ve uygulamaları için doğal ancak ölçeklenebilir bir arayüz sağlayan doğal bir dil sorgusu kullanarak hedef sesi belirli bir ses karışımından ayırmayı amaçlayan CASA veya Hesaplamalı İşitsel Sahne Analizi için yeni bir paradigmadır. . LASS çerçeveleri, müzik enstrümanları gibi belirli ses kaynaklarında istenen performansı elde etme açısından son birkaç yılda önemli ölçüde ilerleme kaydetmiş olsa da, açık alandaki hedef sesi ayıramamaktadır. 

Ses Eylül'ü, doğal dil sorgularını kullanarak hedef ses ayrımını etkinleştirerek LASS çerçevelerinin mevcut sınırlamalarını çözmeyi amaçlayan temel bir modeldir. AudioSep çerçevesinin geliştiricileri, modeli çok çeşitli büyük ölçekli çok modlu veri kümeleri üzerinde kapsamlı bir şekilde eğitmiş ve çerçevenin performansını, müzik enstrümanı ayırma, ses olayı ayırma ve konuşmayı geliştirme dahil olmak üzere çok çeşitli ses görevlerinde değerlendirmiştir. diğerlerinin arasında. AudioSep'in ilk performansı, etkileyici sıfır atışlı öğrenme yetenekleri sergilediği ve güçlü ses ayırma performansı sunduğu için kriterleri karşılıyor. 

Bu makalede, modelin mimarisini, eğitim ve değerlendirme için kullanılan veri kümelerini ve AudioSep modelinin çalışmasında yer alan temel kavramları değerlendirerek AudioSep çerçevesinin çalışmasına daha derinlemesine bakacağız. O halde CASA çerçevesine temel bir girişle başlayalım. 

CASA, USS, QSS, LASS Çerçeveleri: AudioSep'in Temeli

CASA veya Hesaplamalı İşitsel Sahne Analizi çerçevesi, geliştiriciler tarafından karmaşık ses ortamlarını, insanların işitsel sistemlerini kullanarak sesi algılama biçimine benzer şekilde algılama yeteneğine sahip makine dinleme sistemleri tasarlamak için kullanılan bir çerçevedir. Hedef ses ayrımına özel olarak odaklanan ses ayrımı, CASA çerçevesinde temel bir araştırma alanıdır ve "kokteyl partisi sorunu” veya gerçek dünyadaki ses kayıtlarını bireysel ses kaynağı kayıtlarından veya dosyalarından ayırmak. Ses ayırmanın önemi esas olarak müzik kaynağı ayırma, ses kaynağı ayırma, konuşma iyileştirme, hedef ses tanımlama ve çok daha fazlasını içeren yaygın uygulamalarına atfedilebilir. 

Geçmişte ses ayrımı üzerine yapılan çalışmaların çoğu, esas olarak müzik ayrımı veya konuşma ayrımı gibi bir veya daha fazla ses kaynağının ayrılması etrafında dönüyordu. USS veya Evrensel Ses Ayrımı adı verilen yeni bir model, gerçek dünyadaki ses kayıtlarındaki rastgele sesleri ayırmayı amaçlıyor. Bununla birlikte, her ses kaynağını bir ses karışımından ayırmak, öncelikle dünyada mevcut olan çok çeşitli farklı ses kaynakları nedeniyle zorlayıcı ve kısıtlayıcı bir iştir; bu, USS yönteminin çalışan gerçek dünya uygulamaları için uygun olmamasının ana nedenidir. gerçek zamanda. 

USS yöntemine uygun bir alternatif, belirli bir sorgu kümesine dayalı olarak bireysel veya hedef ses kaynağını ses karışımından ayırmayı amaçlayan QSS veya Sorgu Tabanlı Ses Ayırma yöntemidir. Bu sayede QSS çerçevesi, geliştiricilerin ve kullanıcıların gereksinimlerine göre karışımdan istenen ses kaynaklarını çıkarmalarına olanak tanır ve bu da QSS yöntemini multimedya içerik düzenleme veya ses düzenleme gibi dijital gerçek dünya uygulamaları için daha pratik bir çözüm haline getirir. 

Ayrıca, geliştiriciler yakın zamanda QSS çerçevesinin, LASS çerçevesinin veya hedef ses kaynağının doğal dil açıklamalarını kullanarak rastgele ses kaynaklarını bir ses karışımından ayırmayı amaçlayan Dil Sorgulamalı Ses Kaynağı Ayırma çerçevesinin bir uzantısını önerdiler. . LASS çerçevesi, kullanıcıların bir dizi doğal dil talimatı kullanarak hedef ses kaynaklarını çıkarmasına olanak tanıdığından, dijital ses uygulamalarında yaygın uygulamalara sahip güçlü bir araç haline gelebilir. Geleneksel sesli sorgulamalı veya görüntülü sorgulamalı yöntemlerle karşılaştırıldığında, ses ayrımı için doğal dil talimatlarının kullanılması, esneklik kazandırdığı ve sorgu bilgilerinin edinilmesini çok daha kolay ve rahat hale getirdiği için daha büyük bir avantaj sunar. Ayrıca, önceden tanımlanmış bir dizi talimat veya sorgudan yararlanan etiket sorgusu tabanlı ses ayırma çerçeveleriyle karşılaştırıldığında, LASS çerçevesi giriş sorgularının sayısını sınırlamaz ve açık alana sorunsuz bir şekilde genelleştirilme esnekliğine sahiptir. 

Başlangıçta LASS çerçevesi, modelin bir dizi etiketli ses-metin eşleştirilmiş veri üzerinde eğitildiği denetimli öğrenmeye dayanır. Ancak bu yaklaşımın ana sorunu, açıklamalı ve etiketli sesli metin verilerinin sınırlı kullanılabilirliğidir. Açıklamalı LASS çerçevesinin güvenilirliğini azaltmak için ses metni etiketli veriler, modeller çok modlu denetim öğrenme yaklaşımı kullanılarak eğitilir. Çok modlu bir denetim yaklaşımı kullanmanın ardındaki temel amaç, çerçevenin sorgu kodlayıcısı olarak CLIP veya Karşılaştırmalı Dil Görüntüsü Ön Eğitim modeli gibi çok modlu karşılaştırmalı ön eğitim modellerini kullanmaktır. CLIP çerçevesi, metin yerleştirmelerini ses veya görüntü gibi diğer yöntemlerle hizalama yeteneğine sahip olduğundan, geliştiricilerin veri açısından zengin yöntemler kullanarak LASS modellerini eğitmesine olanak tanır ve sıfır atış ayarında metinsel verilere müdahaleye izin verir. Ancak mevcut LASS çerçeveleri eğitim için küçük ölçekli veri kümelerinden yararlanmaktadır ve LASS çerçevesinin yüzlerce potansiyel alanda uygulamaları henüz araştırılmamıştır. 

LASS çerçevelerinin karşılaştığı mevcut sınırlamaları çözmek için geliştiriciler, doğal dil açıklamalarını kullanarak sesi bir ses karışımından ayırmayı amaçlayan temel bir model olan AudioSep'i tanıttı. AudioSep'in mevcut odak noktası, LASS modellerinin açık alan uygulamalarında genelleştirilmesine olanak sağlamak için mevcut büyük ölçekli çok modlu veri kümelerinden yararlanan, önceden eğitilmiş bir ses ayırma modeli geliştirmektir. Özetlemek gerekirse AudioSep modeli şöyledir: “Büyük ölçekli ses ve çok modlu veri kümeleri üzerinde eğitilmiş doğal dil sorguları veya açıklamaları kullanan, açık alanda evrensel ses ayrımı için temel bir model anlayışının sonucu olarak, buzdolabında iki üç günden fazla durmayan küçük şişeler elinizin altında bulunur. 

AudioSep : Temel Bileşenler ve Mimari

AudioSep çerçevesinin mimarisi iki temel bileşenden oluşur: bir metin kodlayıcı ve bir ayırma modeli. 

Metin Kodlayıcı

AudioSep çerçevesi, doğal bir dil sorgusu içindeki metin yerleştirmelerini çıkarmak için CLIP veya Karşılaştırmalı Dil Görüntüsü Ön Eğitim modelinin veya CLAP veya Karşılaştırmalı Dil Ses Ön Eğitimi modelinin bir metin kodlayıcısını kullanır. Giriş metni sorgusu şu diziden oluşur:N” belirteçleri, daha sonra verilen giriş dili sorgusu için metin yerleştirmelerini çıkarmak üzere metin kodlayıcı tarafından işlenir. Metin kodlayıcı, giriş metin belirteçlerini kodlamak için bir dizi dönüştürücü bloktan yararlanır ve çıktı temsilleri, dönüştürücü katmanlardan geçtikten sonra toplanır ve bu, D'nin karşılık geldiği sabit uzunlukta bir D boyutlu vektör temsilinin geliştirilmesiyle sonuçlanır. Eğitim süresi boyunca metin kodlayıcı dondurulurken CLAP veya CLIP modellerinin boyutlarına. 

CLIP modeli, metin kodlayıcısının metinsel açıklamaları görsel temsiller tarafından da paylaşılan anlamsal alanda eşlemeyi öğrenmesinin temel nedeni olan karşılaştırmalı öğrenmeyi kullanan geniş ölçekli bir görüntü-metin eşleştirilmiş veri kümesi üzerinde önceden eğitilmiştir. AudioSep'in CLIP'in metin kodlayıcısını kullanarak kazandığı avantaj, alternatif olarak görsel yerleştirmeleri kullanarak LASS modelini etiketlenmemiş görsel-işitsel verilerden ölçeklendirebilmesi veya eğitebilmesi, böylece LASS modellerinin açıklamalı veya etiketli kodlayıcıya gerek kalmadan eğitilmesine olanak sağlamasıdır. ses-metin verileri. 

CLAP modeli, CLIP modeline benzer şekilde çalışır ve ses ile dili birbirine bağlamak için bir metin ve ses kodlayıcı kullandığından karşılaştırmalı öğrenme hedefinden yararlanır, böylece metin ve ses açıklamalarını bir araya getirilmiş bir ses-metin gizli alanına getirir. 

Ayırma Modeli

AudioSep çerçevesi, çerçevenin ayırma omurgası olarak ses kliplerinin bir karışımıyla beslenen frekans alanı ReSUNet modelini kullanır. Çerçeve, karmaşık bir spektrogramı, büyüklük spektrogramını ve X Fazını çıkarmak için ilk önce dalga formuna bir STFT veya Kısa Zamanlı Fourier Dönüşümü uygulayarak çalışır. Model daha sonra aynı ayarı takip eder ve işlemek için bir kodlayıcı-kod çözücü ağı oluşturur. büyüklük spektrogramı. 

ReSUNet kodlayıcı-kod çözücü ağı 6 artık blok, 6 kod çözücü blok ve 4 darboğaz bloğundan oluşur. Her bir kodlayıcı bloğundaki spektrogram, kendisini bir darboğaz özelliğine alt örneklemek için 4 artık geleneksel blok kullanır; kod çözücü blokları ise özelliklerin üst örneklemesini yaparak ayırma bileşenlerini elde etmek için 4 artık ters evrişim bloğundan yararlanır. Bunu takiben, kodlayıcı bloklarının her biri ve karşılık gelen kod çözücü blokları, aynı üst örnekleme veya alt örnekleme hızında çalışan bir atlama bağlantısı kurar. Çerçevenin kalan bloğu 2 Leaky-ReLU aktivasyon katmanından, 2 toplu normalizasyon katmanından ve 2 CNN katmanından oluşur ve ayrıca çerçeve ayrıca her bir artık bloğun giriş ve çıkışını bağlayan ek bir artık kısayol da sunar. ReSUNet modeli, karmaşık spektrogram X'i giriş olarak alır ve ölçeklendirmenin büyüklüğünü ve spektrogramın açısının dönüşünü kontrol eden metin yerleştirmeleri üzerinde koşullandırılan faz kalıntısı ile çıktı olarak M büyüklük maskesini üretir. Ayrılmış kompleks spektrogram daha sonra tahmin edilen büyüklük maskesi ve faz kalıntısının karışımın STFT'si (Kısa Zamanlı Fourier Dönüşümü) ile çarpılmasıyla çıkarılabilir. 

Kendi çerçevesinde AudioSep, ReSUNet'te evrişimli blokların konuşlandırılmasından sonra ayırma modeli ve metin kodlayıcı arasında köprü kurmak için Film veya Özellik bazında Doğrusal olarak modüle edilmiş bir katman kullanır. 

Eğitim ve Kayıp

AudioSep modelinin eğitimi sırasında geliştiriciler, ses yüksekliği artırma yöntemini kullanır ve temel gerçek ile tahmin edilen dalga formları arasında bir L1 kayıp fonksiyonundan yararlanarak AudioSep çerçevesini uçtan uca eğitir. 

Veri Kümeleri ve Karşılaştırmalar

Önceki bölümlerde bahsedildiği gibi AudioSep, LASS modellerinin açıklamalı ses-metin eşleştirilmiş veri kümelerine olan mevcut bağımlılığını çözmeyi amaçlayan temel bir modeldir. AudioSep modeli, onu çok modlu öğrenme yetenekleriyle donatmak için geniş bir veri kümesi dizisi üzerinde eğitilmiştir ve burada geliştiriciler tarafından AudioSep çerçevesini eğitmek için kullanılan veri kümesinin ve karşılaştırmalı değerlendirmelerin ayrıntılı bir açıklaması bulunmaktadır. 

Ses Seti

AudioSet, doğrudan YouTube'dan çıkarılan 2 milyondan fazla 10 saniyelik ses parçacığı içeren, zayıf etiketlenmiş, büyük ölçekli bir ses veri kümesidir. AudioSet veri kümesindeki her ses parçacığı, ses olaylarının belirli zamanlama ayrıntıları olmadan, ses sınıflarının yokluğuna veya varlığına göre kategorize edilir. AudioSet veri kümesinde doğal sesler, insan sesleri, araç sesleri ve çok daha fazlasını içeren 500'den fazla farklı ses sınıfı bulunur. 

VGGSound

VGGSound veri kümesi, tıpkı AudioSet gibi doğrudan YouTube'dan alınan büyük ölçekli bir görsel-işitsel veri kümesidir ve her biri 2,00,000 saniye uzunluğunda olan 10'den fazla video klip içerir. VGGSound veri seti insan sesleri, doğal sesler, kuş sesleri ve daha fazlasını içeren 300'den fazla ses sınıfına ayrılmıştır. VGGSound veri setinin kullanılması, hedef sesin üretilmesinden sorumlu nesnenin ilgili görsel klipte de tanımlanabilmesini sağlar. 

Ses Kapakları

AudioCaps, halka açık en büyük ses altyazı veri kümesidir ve AudioSet veri kümesinden çıkarılan 50,000'in üzerinde 10 saniyelik ses klibini içerir. AudioCaps'teki veriler üç kategoriye ayrılır: eğitim verileri, test verileri ve doğrulama verileri. Ses kliplerine Amazon Mechanical Turk platformu kullanılarak doğal dil açıklamalarıyla insan eliyle açıklamalar eklenir. Eğitim veri kümesindeki her ses klibinin tek bir altyazıya sahip olduğunu, oysa test ve doğrulama kümelerindeki verilerin her birinin 5 gerçek altyazıya sahip olduğunu belirtmekte fayda var. 

ClothoV2

ClothoV2, FreeSound platformundan alınan kliplerden oluşan bir ses altyazı veri kümesidir ve tıpkı AudioCaps gibi, her ses klibine Amazon Mechanical Turk platformu kullanılarak doğal dildeki açıklamalarla insan eliyle açıklamalar eklenir. 

Wav Cap'leri

Tıpkı AudioSet gibi WavCaps de, altyazılı 400,000'den fazla ses klibi ve yaklaşık 7568 saatlik eğitim verisine yaklaşan toplam çalışma süresi içeren, zayıf etiketlenmiş, büyük ölçekli bir ses veri kümesidir. WavCaps veri kümesindeki ses klipleri, BBC Sound Effects, AudioSet, FreeSound, SoundBible ve daha fazlasını içeren çok çeşitli ses kaynaklarından elde edilir.

Eğitim Detayları

Eğitim aşaması sırasında, AudioSep modeli, eğitim veri kümesindeki iki farklı ses klibinden elde edilen iki ses bölümünü rastgele örnekler ve ardından her ses bölümünün uzunluğunun yaklaşık 5 saniye olduğu bir eğitim karışımı oluşturmak için bunları bir araya getirir. Model daha sonra 1024 atlama boyutuna sahip 320 boyutunda bir Hann penceresi kullanarak karmaşık spektrogramı dalga biçimi sinyalinden çıkarır. 

Model daha sonra metin eklemelerini çıkarmak için CLIP/CLAP modellerinin metin kodlayıcısını kullanır ve metin denetimi AudioSep için varsayılan yapılandırmadır. Ayırma modeli için AudioSep çerçevesi, evrensel ses ayırma çerçevesinde takip edilen mimariye benzeyen 30 katman, 6 kodlayıcı blok ve 6 kod çözücü bloktan oluşan bir ReSUNet katmanını kullanır. Ayrıca, her bir kodlayıcı bloğu, 3x3 çekirdek boyutuna sahip iki evrişimli katmana sahiptir ve kodlayıcı bloklarının çıktı özelliği haritalarının sayısı sırasıyla 32, 64, 128, 256, 512 ve 1024'tür. Kod çözücü blokları, kodlayıcı bloklarla simetriyi paylaşır ve geliştiriciler, toplu iş boyutu 96 olan AudioSep modelini eğitmek için Adam optimize ediciyi uygular. 

Değerlendirme sonuçları

Görülen Veri Kümelerinde

Aşağıdaki şekil, eğitim veri kümeleri de dahil olmak üzere eğitim aşamasında görülen veri kümeleri üzerinde AudioSep çerçevesinin performansını karşılaştırmaktadır. Aşağıdaki şekil, Konuşma dahil olmak üzere temel sistemlerle karşılaştırıldığında AudioSep çerçevesinin kıyaslama değerlendirme sonuçlarını temsil etmektedir. Geliştirme modelleri, LASS ve CLIP. CLIP metin kodlayıcılı AudioSep modeli AudioSep-CLIP olarak temsil edilirken, CLAP metin kodlayıcılı AudioSep modeli AudioSep-CLAP olarak temsil edilir.

Şekilde görülebileceği gibi, AudioSep çerçevesi, giriş sorguları olarak ses altyazıları veya metin etiketleri kullanıldığında iyi performans göstermektedir ve sonuçlar, önceki kıyaslama LASS ve ses sorgulu ses ayırma modelleriyle karşılaştırıldığında AudioSep çerçevesinin üstün performansını göstermektedir. 

Görünmeyen Veri Kümelerinde

Geliştiriciler, AudioSep'in sıfır atış ayarındaki performansını değerlendirmek için, görünmeyen veri kümelerindeki performansı değerlendirmeye devam etti ve AudioSep çerçevesi, sıfır atış ayarında etkileyici ayırma performansı sağlıyor ve sonuçlar aşağıdaki şekilde gösteriliyor. 

Ayrıca aşağıdaki resim, AudioSep modelinin Voicebank-Demand konuşma iyileştirmesine karşı değerlendirilmesinin sonuçlarını göstermektedir. 

AudioSep çerçevesinin değerlendirilmesi, sıfır atış ayarında görünmeyen veri kümeleri üzerinde güçlü ve istenen performansı gösterir ve böylece yeni veri dağıtımlarında sağlam operasyon görevlerinin gerçekleştirilmesine yol açar. 

Ayırma Sonuçlarının Görselleştirilmesi

Aşağıdaki şekil, geliştiricilerin, gerçek hedef ses kaynakları ve ses karışımları ve farklı ses veya seslerin metin sorgularını kullanarak ayrılmış ses kaynakları için spektrogramların görselleştirmelerini gerçekleştirmek üzere AudioSep-CLAP çerçevesini kullandıklarında elde edilen sonuçları göstermektedir. Sonuçlar, geliştiricilerin, spektrogramın ayrılmış kaynak modelinin, deneyler sırasında elde edilen objektif sonuçları daha da destekleyen temel gerçeğin kaynağına yakın olduğunu gözlemlemesine olanak tanıdı. 

Metin Sorgularının Karşılaştırılması

Geliştiriciler, AudioCaps Mini'de AudioSep-CLAP ve AudioSep-CLIP'in performansını değerlendirir ve geliştiriciler, farklı sorguların ve aşağıdakilerin etkilerini incelemek için AudioSet olay etiketlerini, AudioCaps altyazılarını ve yeniden açıklamalı doğal dil açıklamalarını kullanır. şekil AudioCaps Mini'nin çalışmasının bir örneğini göstermektedir. 

Sonuç

Ses Eylül'ü ses ayrımı için doğal dil açıklamalarını kullanan, açık alanlı evrensel bir ses ayırma çerçevesi olma hedefiyle geliştirilen temel bir modeldir. Değerlendirme sırasında gözlemlendiği gibi AudioSep çerçevesi, sorgu olarak ses altyazılarını veya metin etiketlerini kullanarak sıfır atışlı ve denetimsiz öğrenmeyi sorunsuz bir şekilde gerçekleştirebilmektedir. AudioSep'in sonuçları ve değerlendirme performansı, LASS gibi mevcut en gelişmiş ses ayırma çerçevelerinden daha iyi performans gösteren güçlü bir performansa işaret etmektedir ve popüler ses ayırma çerçevelerinin mevcut sınırlamalarını çözebilecek kapasitede olabilir. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.