stub AudioSep : Atskirkite viską, ką aprašote – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

AudioSep: atskirkite viską, ką aprašote

mm

paskelbta

 on

LASS arba kalbos užklausos garso šaltinio atskyrimas yra nauja CASA arba kompiuterinės klausos scenos analizės paradigma, kuria siekiama atskirti tikslinį garsą nuo tam tikro garso mišinio naudojant natūralios kalbos užklausą, kuri suteikia natūralią, tačiau keičiamo dydžio sąsają skaitmeninio garso užduotims ir programoms. . Nors per pastaruosius kelerius metus LASS sistemos gerokai pažengė į priekį, siekdamos pasiekti pageidaujamą našumą naudojant konkrečius garso šaltinius, pvz., muzikos instrumentus, jos negali atskirti tikslinio garso atviroje srityje. 

Garso rugsėjis, yra pagrindinis modelis, kuriuo siekiama pašalinti dabartinius LASS sistemų apribojimus, įgalinant tikslinį garso atskyrimą naudojant natūralios kalbos užklausas. „AudioSep“ sistemos kūrėjai išsamiai apmokė modelį dėl daugybės didelio masto multimodalinių duomenų rinkinių ir įvertino sistemos našumą atliekant daugybę garso užduočių, įskaitant muzikos instrumentų atskyrimą, garso įvykių atskyrimą ir kalbos patobulinimą. tarp daugelio kitų. Pradinis „AudioSep“ našumas atitinka etalonus, nes demonstruoja įspūdingas nulinio vaizdo mokymosi galimybes ir užtikrina stiprų garso atskyrimo našumą. 

Šiame straipsnyje mes gilinsimės į „AudioSep“ sistemos veikimą, nes įvertinsime modelio architektūrą, duomenų rinkinius, naudojamus mokymui ir vertinimui, ir pagrindines „AudioSep“ modelio veikimo koncepcijas. Taigi pradėkime nuo pagrindinio CASA sistemos įvado. 

CASA, USS, QSS, LASS Frameworks: „AudioSep“ fondas

CASA arba kompiuterinės klausos scenos analizės sistema yra sistema, kurią kūrėjai naudoja kurdami mašininio klausymosi sistemas, turinčias galimybę suvokti sudėtingą garso aplinką panašiai kaip žmonės suvokia garsą naudodami savo klausos sistemas. Garso atskyrimas, ypatingą dėmesį skiriant tikslinio garso atskyrimui, yra pagrindinė CASA tyrimų sritis, ir juo siekiama išspręstikokteilių vakarėlio problema“ arba atskirti realaus pasaulio garso įrašus nuo atskirų garso šaltinio įrašų ar failų. Garso atskyrimo svarba daugiausia siejama su plačiai paplitusiomis programomis, įskaitant muzikos šaltinio atskyrimą, garso šaltinio atskyrimą, kalbos patobulinimą, tikslinio garso atpažinimą ir daug daugiau. 

Didžioji dalis praeityje atliktų darbų, susijusių su garso atskyrimu, daugiausia susiję su vieno ar kelių garso šaltinių, pvz., muzikos ar kalbos atskyrimu, atskyrimu. Naujas modelis, pavadintas USS arba Universal Sound Separation, skirtas atskirti savavališkus garsus realaus pasaulio garso įrašuose. Tačiau atskirti kiekvieną garso šaltinį nuo garso mišinio yra sudėtinga ir ribojanti užduotis, visų pirma dėl to, kad pasaulyje yra daug įvairių garso šaltinių, o tai yra pagrindinė priežastis, kodėl USS metodas nėra įmanomas realaus pasaulio programoms. realiu laiku. 

Galima USS metodo alternatyva yra QSS arba užklausomis pagrįstas garso atskyrimo metodas, kuriuo siekiama atskirti atskirą arba tikslinį garso šaltinį nuo garso mišinio pagal tam tikrą užklausų rinkinį. Dėl šios priežasties QSS sistema leidžia kūrėjams ir vartotojams iš mišinio išgauti norimus garso šaltinius pagal jų reikalavimus, todėl QSS metodas yra praktiškesnis sprendimas skaitmeninėms realaus pasaulio programoms, tokioms kaip daugialypės terpės turinio redagavimas ar garso redagavimas. 

Be to, kūrėjai neseniai pasiūlė išplėsti QSS sistemą, LASS sistemą arba kalbos užklausų garso šaltinio atskyrimo sistemą, kuria siekiama atskirti savavališkus garso šaltinius nuo garso mišinio, naudojant tikslinio garso šaltinio natūralios kalbos aprašymus. . Kadangi LASS sistema leidžia vartotojams išgauti tikslinius garso šaltinius naudojant natūralios kalbos instrukcijų rinkinį, ji gali tapti galingu įrankiu, plačiai taikomu skaitmeninėse garso programose. Palyginti su tradiciniais garso ar vaizdo užklausų metodais, natūralios kalbos instrukcijų naudojimas garso atskyrimui suteikia didesnį pranašumą, nes tai suteikia daugiau lankstumo, o užklausos informacijos gavimas tampa daug lengvesnis ir patogesnis. Be to, lyginant su etikečių užklausomis pagrįstomis garso atskyrimo sistemomis, kuriose naudojamas iš anksto nustatytas instrukcijų ar užklausų rinkinys, LASS sistema neriboja įvesties užklausų skaičiaus ir yra lankstesnė, kad ją būtų galima apibendrinti, kad būtų galima sklandžiai atidaryti domeną. 

Iš pradžių LASS sistema remiasi prižiūrimu mokymusi, kai modelis mokomas naudojant žymėtų garso ir teksto suporuotų duomenų rinkinį. Tačiau pagrindinė šio metodo problema yra ribotas anotuotų ir pažymėtų garso teksto duomenų prieinamumas. Siekiant sumažinti LASS sistemos patikimumą anotuotiems garso tekstu pažymėti duomenys, modeliai mokomi naudojant multimodalinės priežiūros mokymosi metodą. Pagrindinis multimodalinės priežiūros metodo tikslas yra naudoti multimodalinius kontrastinius išankstinio mokymo modelius, tokius kaip CLIP arba Contrastive Language Image Pre-Tining modelis, kaip sistemos užklausų koduotuvą. Kadangi CLIP sistema turi galimybę suderinti teksto įterpimus su kitais būdais, pvz., garso ar vaizdo, ji leidžia kūrėjams treniruoti LASS modelius, naudojant daug duomenų, ir leidžia trikdyti tekstinius duomenis nulinio kadro nustatymu. Tačiau dabartinėse LASS sistemose mokymui naudojami nedideli duomenų rinkiniai, o LASS sistemos taikymas šimtuose galimų sričių dar turi būti ištirtas. 

Siekdami išspręsti dabartinius apribojimus, su kuriais susiduria LASS sistemos, kūrėjai pristatė „AudioSep“ – pagrindinį modelį, kuriuo siekiama atskirti garsą nuo garso mišinio naudojant natūralios kalbos aprašymus. Šiuo metu „AudioSep“ tikslas yra sukurti iš anksto paruoštą garso atskyrimo modelį, kuris panaudotų esamus didelio masto multimodalinius duomenų rinkinius, kad būtų galima apibendrinti LASS modelius atvirojo domeno programose. Apibendrinant, „AudioSep“ modelis yra: „Pagrindinis universalaus garso atskyrimo atvirame domene modelis, naudojant natūralios kalbos užklausas arba aprašymus, parengtus naudojant didelio masto garso ir daugiarūšių duomenų rinkinius". 

„AudioSep“: pagrindiniai komponentai ir architektūra

„AudioSep“ sistemos architektūrą sudaro du pagrindiniai komponentai: teksto koduotuvas ir atskyrimo modelis. 

Teksto kodavimo priemonė

„AudioSep“ sistema naudoja CLIP arba kontrastinės kalbos vaizdo išankstinio mokymo modelio arba CLAP arba kontrastinės kalbos garso išankstinio mokymo modelio teksto koduotuvą, kad išskirtų teksto įterpimus natūralios kalbos užklausoje. Įvesties teksto užklausą sudaro seka „N“ prieigos raktus, kuriuos apdoroja teksto koduotuvas, kad išgautų teksto įterpimus pagal pateiktą įvesties kalbos užklausą. Teksto kodavimo priemonė naudoja transformatoriaus blokų šūsnį, kad užkoduotų įvesties teksto žetonus, o išvesties atvaizdai sujungiami po to, kai jie praleidžiami per transformatoriaus sluoksnius, todėl sukuriamas fiksuoto ilgio D matmens vektorinis vaizdas, kur D atitinka CLAP arba CLIP modelių matmenis, o teksto koduotuvas yra užšaldytas mokymo laikotarpiu. 

CLIP modelis yra iš anksto paruoštas didelio masto vaizdo ir teksto suporuotų duomenų rinkiniui, naudojant kontrastinį mokymąsi, o tai yra pagrindinė priežastis, kodėl jo teksto koduotuvas išmoksta susieti tekstinius aprašymus semantinėje erdvėje, kurią taip pat dalijasi vaizdiniai vaizdai. „AudioSep“ pranašumas, kurį įgyja naudojant CLIP teksto koduotuvą, yra tas, kad dabar jis gali padidinti arba išmokyti LASS modelį iš nepažymėtų garso ir vaizdo duomenų, kaip alternatyvą naudodamas vaizdinius įterpimus, taip leidžiant treniruoti LASS modelius be anotuotų ar pažymėtų reikalavimų. garso ir teksto duomenys. 

CLAP modelis veikia panašiai kaip CLIP modelis ir naudoja kontrastingą mokymosi tikslą, nes jis naudoja teksto ir garso kodavimo įrenginį, kad sujungtų garsą ir kalbą, taip sujungdamas tekstą ir garso aprašymus latentinėje garso ir teksto erdvėje. 

Atskyrimo modelis

„AudioSep“ sistemoje naudojamas dažnio domeno „ResUNet“ modelis, kuris tiekiamas garso klipų mišiniu kaip sistemos atskyrimo pagrindas. Sistema veikia pirmiausia taikant STFT arba trumpalaikę Furjė transformaciją bangos formai, kad būtų išskirta sudėtinga spektrograma, dydžio spektrograma ir X fazė. Tada modelis vadovaujasi tuo pačiu nustatymu ir sukuria kodavimo-dekoderio tinklą, skirtą apdoroti. dydžio spektrograma. 

„ResUNet“ kodavimo ir dekodavimo tinklą sudaro 6 liekamieji blokai, 6 dekoderio blokai ir 4 kliūties blokai. Spektrograma kiekviename kodavimo bloke naudoja 4 likutinius įprastinius blokus, kad sumažintų atranką į kliūties funkciją, o dekoderio blokai naudoja 4 likutinius dekonvoliucinius blokus, kad gautų atskyrimo komponentus padidinant ypatybių atranką. Po to kiekvienas kodavimo blokas ir atitinkami dekoderio blokai sukuria praleidimo ryšį, kuris veikia tuo pačiu padidinimo arba sumažinimo dažniu. Likęs sistemos blokas susideda iš 2 Leaky-ReLU aktyvinimo sluoksnių, 2 paketinio normalizavimo sluoksnių ir 2 CNN sluoksnių, be to, sistemoje taip pat yra papildomas liekamasis spartusis klavišas, jungiantis kiekvieno atskiro likusio bloko įvestį ir išvestį. ResUNet modelis naudoja sudėtingą spektrogramą X kaip įvestį ir sukuria didumo kaukę M kaip išvestį, o fazės likutis priklauso nuo teksto įterpimo, kuris valdo mastelio keitimo dydį ir spektrogramos kampo pasukimą. Tada atskirtą kompleksinę spektrogramą galima išgauti padauginus prognozuojamo dydžio kaukę ir fazės likutį su mišinio STFT (trumpalaikė Furjė transformacija). 

Savo sistemoje „AudioSep“ naudoja „FiLm“ arba pagal ypatybes tiesiškai moduliuotą sluoksnį, kad sujungtų atskyrimo modelį ir teksto koduotuvą po konvoliucinių blokų įdiegimo „ResUNet“. 

Treniruotės ir praradimai

Mokydami „AudioSep“ modelį, kūrėjai naudoja garsumo didinimo metodą ir treniruoja „AudioSep“ sistemą nuo galo iki galo, naudodami L1 praradimo funkciją tarp pagrindinės tiesos ir numatomų bangų formų. 

Duomenų rinkiniai ir gairės

Kaip minėta ankstesniuose skyriuose, „AudioSep“ yra pagrindinis modelis, kuriuo siekiama išspręsti dabartinę LASS modelių priklausomybę nuo anotuotų garso ir teksto suporuotų duomenų rinkinių. „AudioSep“ modelis parengtas naudojant daugybę duomenų rinkinių, kad jame būtų daugiarūšio mokymosi galimybės, o čia pateikiamas išsamus duomenų rinkinio ir etalonų, kuriuos kūrėjai naudoja mokydami „AudioSep“ sistemą, aprašymas. 

Garso rinkinys

„AudioSet“ yra silpnai pažymėtas didelio masto garso duomenų rinkinys, kurį sudaro daugiau nei 2 milijonai 10 sekundžių garso fragmentų, ištrauktų tiesiai iš „YouTube“. Kiekvienas garso fragmentas „AudioSet“ duomenų rinkinyje yra suskirstytas į kategorijas pagal garso klasių nebuvimą arba buvimą be konkrečios garso įvykių laiko informacijos. AudioSet duomenų rinkinyje yra daugiau nei 500 skirtingų garso klasių, įskaitant natūralius garsus, žmogaus garsus, transporto priemonių garsus ir daug daugiau. 

VGGSgarsas

„VGGSound“ duomenų rinkinys yra didelio masto vaizdo ir garso duomenų rinkinys, kuris, kaip ir „AudioSet“, buvo gautas tiesiogiai iš „YouTube“ ir jame yra daugiau nei 2,00,000 10 300 vaizdo klipų, kurių kiekvienas yra XNUMX sekundžių trukmės. „VGGSound“ duomenų rinkinys suskirstytas į daugiau nei XNUMX garso klasių, įskaitant žmonių garsus, gamtos garsus, paukščių garsus ir kt. VGGSound duomenų rinkinio naudojimas užtikrina, kad objektas, atsakingas už tikslinio garso kūrimą, taip pat būtų aprašytas atitinkamame vaizdo klipe. 

Garso dangteliai

„AudioCaps“ yra didžiausias viešai prieinamas garso antraštės duomenų rinkinys, kurį sudaro daugiau nei 50,000 10 5 sekundžių garso klipų, išgautų iš „AudioSet“ duomenų rinkinio. „AudioCaps“ duomenys yra suskirstyti į tris kategorijas: treniruočių duomenis, testavimo duomenis ir patvirtinimo duomenis, o garso klipai yra anotuojami natūralios kalbos aprašymais naudojant „Amazon Mechanical Turk“ platformą. Verta paminėti, kad kiekvienas mokymo duomenų rinkinio garso klipas turi vieną antraštę, o bandymų ir patvirtinimo rinkinių duomenys turi XNUMX pagrindines tiesos antraštes. 

ClothoV2

„ClothoV2“ yra garso antraštės duomenų rinkinys, kurį sudaro klipai, gauti iš „FreeSound“ platformos, ir, kaip ir „AudioCaps“, kiekvienas garso klipas yra komentuojamas natūralia kalba, naudojant Amazon Mechanical Turk platformą. 

WavCaps

Kaip ir „AudioSet“, „WavCaps“ yra silpnai pažymėtas didelio masto garso duomenų rinkinys, kurį sudaro daugiau nei 400,000 7568 garso klipų su antraštėmis, o bendra vykdymo trukmė yra maždaug XNUMX treniruočių duomenų valandos. Garso klipai WavCaps duomenų rinkinyje yra gaunami iš daugybės garso šaltinių, įskaitant BBC Sound Effects, AudioSet, FreeSound, SoundBible ir kt.

Išsami informacija apie mokymą

Mokymo etapo metu „AudioSep“ modelis atsitiktinai atrenka du garso segmentus, gautus iš dviejų skirtingų garso klipų iš mokymo duomenų rinkinio, tada juos sumaišo, kad sukurtų mokymo mišinį, kuriame kiekvieno garso segmento ilgis yra apie 5 sekundes. Tada modelis iš bangos formos signalo išskiria sudėtingą spektrogramą naudodamas 1024 dydžio Hann langą su 320 šuolių dydžiu. 

Tada modelis naudoja CLIP / CLAP modelių teksto koduotuvą, kad išgautų tekstinius įterpimus, o teksto priežiūra yra numatytoji „AudioSep“ konfigūracija. Atskyrimo modeliui „AudioSep“ sistema naudoja „ResUNet“ sluoksnį, kurį sudaro 30 sluoksnių, 6 kodavimo blokai ir 6 dekoderio blokai, primenantys universalioje garso atskyrimo sistemoje naudojamą architektūrą. Be to, kiekvienas kodavimo blokas turi du konvoliucinius sluoksnius, kurių branduolio dydis yra 3 × 3, o kodavimo blokų išvesties funkcijų žemėlapių skaičius yra atitinkamai 32, 64, 128, 256, 512 ir 1024. Dekoderio blokai dalijasi simetrija su kodavimo blokais, o kūrėjai taiko „Adam“ optimizavimo priemonę, kad išmokytų „AudioSep“ modelį, kurio partijos dydis yra 96. 

Vertinimo rezultatai

Apie matytus duomenų rinkinius

Toliau pateiktame paveikslėlyje palyginamas „AudioSep“ sistemos našumas su matytais duomenų rinkiniais mokymo etape, įskaitant mokymo duomenų rinkinius. Toliau pateiktame paveikslėlyje pavaizduoti „AudioSep“ sistemos etaloniniai vertinimo rezultatai, palyginti su bazinėmis sistemomis, įskaitant kalbą. Patobulinimų modeliai, LASS ir CLIP. „AudioSep“ modelis su CLIP teksto koduotuvu vaizduojamas kaip „AudioSep-CLIP“, o „AudioSep“ modelis su CLAP teksto koduotuvu vaizduojamas kaip „AudioSep-CLAP“.

Kaip matyti paveikslėlyje, „AudioSep“ sistema veikia gerai naudojant garso antraštes arba teksto etiketes kaip įvesties užklausas, o rezultatai rodo puikų „AudioSep“ sistemos našumą, palyginti su ankstesniais etaloniniais LASS ir garso atskyrimo modeliais. 

Apie nematomus duomenų rinkinius

Norėdami įvertinti „AudioSep“ našumą nulinio kadro nustatyme, kūrėjai toliau vertino neregėtų duomenų rinkinių našumą, o „AudioSep“ sistema užtikrina įspūdingą atskyrimo našumą nulinio kadro nustatyme, o rezultatai rodomi toliau esančiame paveikslėlyje. 

Be to, toliau pateiktame paveikslėlyje parodyti „AudioSep“ modelio įvertinimo rezultatai, palyginti su balso banko paklausos patobulinimu. 

„AudioSep“ sistemos įvertinimas rodo stiprų ir pageidaujamą nematomų duomenų rinkinių veikimą nulinio kadro nustatyme, taigi leidžia atlikti patikimas darbo užduotis su naujais duomenų paskirstymais. 

Atskyrimo rezultatų vizualizavimas

Žemiau esančiame paveikslėlyje parodyti rezultatai, gauti, kai kūrėjai naudojo „AudioSep-CLAP“ sistemą, kad atliktų spektrogramų vizualizaciją pagal pagrindinę tiesą nukreiptiems garso šaltiniams ir garso mišiniams bei atskirtiems garso šaltiniams, naudojant įvairių garso ar garsų tekstines užklausas. Rezultatai leido kūrėjams pastebėti, kad spektrogramos atskirtas šaltinio modelis yra artimas pagrindinės tiesos šaltiniui, o tai dar labiau patvirtina objektyvius eksperimentų metu gautus rezultatus. 

Tekstinių užklausų palyginimas

Kūrėjai įvertina „AudioSep-CLAP“ ir „AudioSep-CLIP“ našumą „AudioCaps Mini“, o kūrėjai naudoja „AudioSet“ įvykių etiketes , „AudioCaps“ antraštes ir iš naujo komentuotus natūralios kalbos aprašymus, kad ištirtų skirtingų užklausų poveikį ir toliau nurodytus dalykus. paveikslėlyje parodytas „AudioCaps Mini“ veikimo pavyzdys. 

Išvada

Garso rugsėjis yra pagrindinis modelis, sukurtas siekiant būti atviro domeno universalia garso atskyrimo sistema, kuri naudoja natūralios kalbos aprašymus garso atskyrimui. Kaip pastebėta vertinimo metu, „AudioSep“ sistema gali sklandžiai atlikti mokymąsi be priežiūros ir naudojant garso antraštes arba teksto etiketes kaip užklausas. „AudioSep“ rezultatai ir įvertinimo našumas rodo gerą našumą, kuris pranoksta dabartines garso atskyrimo sistemas, tokias kaip LASS, ir gali būti pakankamai pajėgi išspręsti dabartinius populiarių garso atskyrimo sistemų apribojimus. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.