stub AudioSep : eraldage kõik, mida kirjeldate – Unite.AI
Ühenda meile

Tehisintellekt

AudioSep : eraldage kõik, mida kirjeldate

mm

avaldatud

 on

LASS ehk keelepäringuga heliallika eraldamine on CASA või arvutusliku kuulmisstseeni analüüsi uus paradigma, mille eesmärk on eraldada sihtheli antud helisegust, kasutades loomuliku keele päringut, mis pakub loomulikku, kuid skaleeritavat liidest digitaalse heli ülesannete ja rakenduste jaoks. . Kuigi LASS-i raamistikud on viimastel aastatel märkimisväärselt arenenud, saavutades soovitud jõudluse konkreetsetes heliallikates, nagu muusikariistad, ei suuda nad sihtheli avatud domeenis eraldada. 

AudioSep, on alusmudel, mille eesmärk on lahendada LASS-i raamistike praegused piirangud, võimaldades loomuliku keele päringute abil sihtheli eraldamist. AudioSepi raamistiku arendajad on mudelit põhjalikult koolitanud mitmesuguste suuremahuliste multimodaalsete andmekogumite osas ja hinnanud raamistiku toimivust paljude heliülesannete puhul, sealhulgas muusikariistade eraldamine, helisündmuste eraldamine ja kõne täiustamine. paljude teiste seas. AudioSepi esialgne jõudlus vastab kriteeriumidele, kuna see demonstreerib muljetavaldavat nullkaadri õppimisvõimet ja tagab tugeva helieraldusvõime. 

Selles artiklis vaatleme sügavamalt AudioSepi raamistiku toimimist, kuna hindame mudeli arhitektuuri, koolituseks ja hindamiseks kasutatavaid andmekogumiid ning AudioSepi mudeli tööga seotud olulisi kontseptsioone. Alustame CASA raamistiku põhisissejuhatusega. 

CASA, USS, QSS, LASS raamistikud: AudioSepi sihtasutus

CASA ehk Computational Auditory Scene Analysis raamistik on raamistik, mida arendajad kasutavad masinkuulamissüsteemide kujundamiseks, millel on võime tajuda keerulisi helikeskkondi sarnaselt sellele, kuidas inimesed tajuvad heli oma kuulmissüsteeme kasutades. Helieraldus, keskendudes eelkõige sihtmärgi heli eraldamisele, on CASA raamistikus põhiline uurimisvaldkond ja selle eesmärk on lahendadakokteilipeo probleem” või reaalse maailma helisalvestiste eraldamine üksikutest heliallika salvestistest või failidest. Heli eraldamise tähtsust saab omistada peamiselt selle laialt levinud rakendustele, sealhulgas muusikaallika eraldamine, heliallika eraldamine, kõne täiustamine, sihtheli tuvastamine ja palju muud. 

Enamik minevikus tehtud helide eraldamise tööst keerleb peamiselt ühe või mitme heliallika eraldamise ümber, nagu muusika eraldamine või kõne eraldamine. Uus mudel, mis kannab nime USS või Universal Sound Separation, püüab eraldada suvalised helid pärismaailma helisalvestistes. Siiski on keeruline ja piirav ülesanne eraldada iga heliallika helisegust peamiselt maailmas eksisteerivate erinevate heliallikate suure hulga tõttu, mis on peamine põhjus, miks USS-i meetod ei ole reaalsete rakenduste jaoks teostatav. reaalajas. 

USS-meetodi teostatav alternatiiv on QSS või päringupõhine helieraldusmeetod, mille eesmärk on eraldada üksik või sihtheliallikas helisegust konkreetse päringute komplekti alusel. Tänu sellele võimaldab QSS-i raamistik arendajatel ja kasutajatel eraldada segust soovitud heliallikaid vastavalt nende nõuetele, mis muudab QSS-meetodi praktilisemaks lahenduseks reaalmaailma digitaalsete rakenduste jaoks, nagu multimeedia sisu redigeerimine või heli redigeerimine. 

Lisaks pakkusid arendajad hiljuti välja QSS-i raamistiku, LASS-raamistiku või keelepäringutega heliallika eraldamise raamistiku laienduse, mille eesmärk on eraldada suvalised heliallikad helisegust, kasutades sihtheliallika loomuliku keele kirjeldusi. . Kuna LASS-raamistik võimaldab kasutajatel eraldada sihtheliallikaid loomuliku keele juhiste komplekti kasutades, võib sellest saada võimas tööriist digitaalse helirakenduste laialt levinud rakendustega. Võrreldes traditsiooniliste heli- või nägemispäringu meetoditega, pakub loomuliku keele juhiste kasutamine heli eraldamiseks suuremat eelist, kuna see lisab paindlikkust ning muudab päringu teabe hankimise palju lihtsamaks ja mugavamaks. Veelgi enam, võrreldes sildipäringupõhiste helieraldusraamistikega, mis kasutavad etteantud käskude või päringute komplekti, ei piira LASS-i raamistik sisendpäringute arvu ja seda saab paindlikult üldistada domeeni sujuvaks avamiseks. 

Algselt tugineb LASS-i raamistik juhendatud õppele, mille käigus mudelit õpetatakse märgistatud heli-teksti paarisandmete kogumi põhjal. Selle lähenemisviisi peamine probleem on aga annoteeritud ja märgistatud heliteksti andmete piiratud kättesaadavus. LASS-i raamistiku usaldusväärsuse vähendamiseks märkustega helitekstiga märgistatud andmed, koolitatakse mudeleid kasutades multimodaalset supervisiooni õppimisviisi. Multimodaalse järelevalve lähenemisviisi kasutamise peamine eesmärk on kasutada raamistiku päringu kodeerijana multimodaalseid kontrastiivseid eelkoolitusmudeleid, nagu CLIP või Contrastive Language Image Pre Training mudel. Kuna CLIP-raamistikul on võime joondada teksti manustamist muude modaalsustega, nagu heli või nägemine, võimaldab see arendajatel treenida LASS-mudeleid, kasutades andmerikkaid modaalsusi, ja võimaldab häirida tekstiandmeid nullkaadri seadistuses. Praegused LASS-i raamistikud kasutavad koolituseks siiski väikesemahulisi andmekogumeid ja LASS-i raamistiku rakendusi sadades potentsiaalsetes valdkondades tuleb veel uurida. 

LASS-i raamistike praeguste piirangute lahendamiseks on arendajad kasutusele võtnud AudioSepi, põhimudeli, mille eesmärk on eraldada heli helisegust, kasutades loomuliku keele kirjeldusi. AudioSepi praegune eesmärk on välja töötada eelkoolitatud helieraldusmudel, mis kasutab olemasolevaid suuremahulisi multimodaalseid andmekogumeid, et võimaldada LASS-mudelite üldistamist avatud domeeni rakendustes. Kokkuvõtteks võib öelda, et AudioSepi mudel on järgmine:Põhimudel universaalseks heli eraldamiseks avatud domeenis, kasutades loomuliku keele päringuid või kirjeldusi, mis on koolitatud suuremahuliste heli- ja multimodaalsete andmekogumite põhjal". 

AudioSep: põhikomponendid ja arhitektuur

AudioSepi raamistiku arhitektuur koosneb kahest põhikomponendist: tekstikodeerijast ja eraldusmudelist. 

Teksti kodeerija

AudioSepi raamistik kasutab loomuliku keele päringu teksti manustuste eraldamiseks CLIP-i või kontrastse keele kujutise eelkoolituse mudeli või CLAP-i või kontrastse keele heli eelkoolituse mudeli tekstikodeerijat. Sisendteksti päring koosneb jadast "N” märgid, mida seejärel töötleb tekstikooder, et eraldada antud sisestuskeele päringu teksti manustused. Tekstikooder kasutab sisendteksti märkide kodeerimiseks trafoplokkide virna ja väljundi esitused koondatakse pärast nende läbimist trafokihtidest, mille tulemuseks on fikseeritud pikkusega D-mõõtmelise vektorkujutuse väljatöötamine, kus D vastab CLAP- või CLIP-mudelite mõõtmetele, kui tekstikooder on treeningperioodi ajal külmunud. 

CLIP-mudel on eelkoolitatud suuremahulisel pildi-teksti paarisandmete andmekogumil, kasutades kontrastõpet, mis on peamine põhjus, miks selle tekstikooder õpib semantilises ruumis tekstikirjeldusi kaardistama, mida jagavad ka visuaalsed esitused. AudioSepi eeliseks CLIP-i tekstikodeerija kasutamine on see, et see saab nüüd suurendada või koolitada LASS-mudelit märgistamata audiovisuaalsetest andmetest, kasutades alternatiivina visuaalseid manuseid, võimaldades seega treenida LASS-mudeleid ilma annoteeritud või sildistatud nõudeta. audio-teksti andmed. 

CLAP-mudel töötab sarnaselt CLIP-mudeliga ja kasutab kontrastiivset õppimiseesmärki, kuna see kasutab heli ja keele ühendamiseks teksti- ja helikodeerijat, viies teksti ja heli kirjeldused audio-teksti latentsesse ruumi. 

Eraldamise mudel

AudioSepi raamistik kasutab sagedusdomeeni ResUNeti mudelit, millele toidetakse heliklippide segu raamistiku eraldamise selgroona. Raamistik toimib nii, et esmalt rakendatakse lainekujule STFT-d või lühiajalist Fourier' teisendust, et eraldada kompleksne spektrogramm, suurusjärgu spektrogramm ja X-faas. Seejärel järgib mudel sama seadistust ja loob töötlemiseks kodeerija-dekoodri võrgu. suurusjärgu spektrogramm. 

ResUNeti kodeerija-dekoodri võrk koosneb 6 jääkplokist, 6 dekoodriplokist ja 4 pudelikaela plokist. Igas koodriplokis olev spektrogramm kasutab 4 tavalist jääkplokki, et diskreetida ennast kitsaskoha funktsiooniks, samas kui dekoodriplokid kasutavad 4 jääkdekonvolutsiooniplokki, et saada eralduskomponente funktsioonide ülesdiskreetimise teel. Pärast seda loovad kõik kodeerijaplokid ja vastavad dekoodriplokid vahelejätmise ühenduse, mis töötab sama üles- või alladiskreetimissagedusega. Raamistiku jääkplokk koosneb 2 Leaky-ReLU aktiveerimiskihist, 2 partii normaliseerimise kihist ja 2 CNN-i kihist ning lisaks on raamistikus ka täiendav jääk-otsetee, mis ühendab iga üksiku jääkploki sisendi ja väljundi. ResUNeti mudel kasutab sisendiks kompleksspektrogrammi X ja loob väljundina magnituudimaski M, mille faasijääk sõltub teksti manustest, mis kontrollivad skaleerimise suurust ja spektrogrammi nurga pööramist. Eraldatud kompleksspektrogrammi saab seejärel eraldada, korrutades prognoositud suurusjärgu maski ja faasijäägi segu STFT-ga (lühiajaline Fourier' teisendus). 

AudioSep kasutab oma raamistikus FiLmi või funktsioonipõhiselt lineaarselt moduleeritud kihti, et ühendada eraldusmudel ja tekstikooder pärast konvolutsiooniplokkide juurutamist ResUNetis. 

Koolitus ja kaotus

AudioSepi mudeli treenimise ajal kasutavad arendajad helitugevuse suurendamise meetodit ja treenivad AudioSepi raamistikku otsast lõpuni, kasutades põhitõe ja prognoositud lainekujude vahelist L1 kadufunktsiooni. 

Andmekogumid ja võrdlusalused

Nagu eelmistes jaotistes mainitud, on AudioSep alusmudel, mille eesmärk on lahendada LASS-mudelite praegune sõltuvus märkustega heli-tekstiga seotud andmekogumitest. AudioSepi mudelit õpetatakse kasutama mitmesuguseid andmekogumeid, et varustada see multimodaalsete õppimisvõimalustega. Siin on üksikasjalik kirjeldus andmestike ja võrdlusaluste kohta, mida arendajad AudioSepi raamistiku koolitamiseks kasutavad. 

Audiokomplekt

AudioSet on nõrgalt märgistatud suuremahuline heliandmekogum, mis sisaldab üle 2 miljoni 10-sekundilise helilõigu, mis on ekstraktitud otse YouTube'ist. Iga AudioSeti andmestiku helilõik on kategoriseeritud heliklasside puudumise või olemasolu järgi ilma helisündmuste konkreetsete ajastuse üksikasjadeta. AudioSeti andmekogumil on üle 500 erineva heliklassi, sealhulgas loomulikud helid, inimeste helid, sõidukite helid ja palju muud. 

VGGSound

VGGSoundi andmestik on suuremahuline visuaal-heli andmekogum, mis nagu AudioSet on hangitud otse YouTube'ist ja sisaldab üle 2,00,000 10 300 videoklipi, millest igaüks on XNUMX sekundi pikkused. VGGSoundi andmekogum on liigitatud enam kui XNUMX heliklassi, sealhulgas inimeste helid, loomulikud helid, linnuhääled ja palju muud. Andmestiku VGGSound kasutamine tagab, et sihtheli tekitamise eest vastutav objekt on ka vastavas visuaalses klipis kirjeldatav. 

AudioCaps

AudioCaps on suurim avalikult saadaval olev helitiitrite andmestik ja see sisaldab üle 50,000 10 5-sekundilise heliklipi, mis on eraldatud AudioSeti andmestikku. AudioCapsi andmed on jagatud kolme kategooriasse: treeninguandmed, testimisandmed ja valideerimisandmed ning heliklipid on Amazon Mechanical Turki platvormi abil inimlikult kommenteeritud loomuliku keele kirjeldustega. Väärib märkimist, et treeningandmete kogumi igal heliklipil on üks pealdis, samas kui testimis- ja valideerimiskomplektide andmetel on igal XNUMX tõepõhist pealkirja. 

ClothoV2

ClothoV2 on helitiitrite andmestik, mis koosneb FreeSoundi platvormilt pärinevatest klippidest ja nagu ka AudioCaps, on igale heliklipile Amazon Mechanical Turki platvormi kasutades lisatud loomuliku keele kirjeldused. 

WavCaps

Täpselt nagu AudioSet, on ka WavCaps nõrgalt märgistatud suuremahuline heliandmekogum, mis sisaldab enam kui 400,000 7568 heliklippi koos pealdistega ja kogu käitusajaga umbes XNUMX tundi treeningandmeid. WavCapsi andmestiku heliklipid pärinevad paljudest heliallikatest, sealhulgas BBC Sound Effects, AudioSet, FreeSound, SoundBible ja palju muud.

Koolituse üksikasjad

Treeningufaasis valib AudioSepi mudel juhuslikult kaks helisegmenti, mis on saadud kahest erinevast heliklipist treeningandmestikust, ja segab need seejärel kokku, et luua treeningsegu, kus iga helisegmendi pikkus on umbes 5 sekundit. Seejärel eraldab mudel lainekuju signaalist keeruka spektrogrammi, kasutades Hanni akent, mille suurus on 1024 ja mille suurus on 320 hüpet. 

Seejärel kasutab mudel CLIP/CLAP-mudelite tekstikodeerijat, et eraldada tekstilised manustused, kusjuures AudioSepi vaikekonfiguratsiooniks on tekstijärelevalve. Eraldusmudeli jaoks kasutab AudioSepi raamistik ResUNeti kihti, mis koosneb 30 kihist, 6 kodeerijaplokist ja 6 dekoodriplokist, mis sarnanevad universaalses helieraldusraamistikus järgitava arhitektuuriga. Lisaks on igal kodeerijaplokil kaks konvolutsioonikihti, mille tuuma suurus on 3 × 3, kusjuures kodeerijaplokkide väljundfunktsioonide kaartide arv on vastavalt 32, 64, 128, 256, 512 ja 1024. Dekoodri plokid jagavad sümmeetriat kodeerija plokkidega ja arendajad rakendavad Adam optimeerijat, et treenida AudioSepi mudelit partii suurusega 96. 

Hindamise tulemused

Nähtud andmekogumite kohta

Järgmisel joonisel võrreldakse AudioSepi raamistiku toimivust treeningfaasis nähtud andmekogumitel, sealhulgas koolituse andmekogudel. Allolev joonis kujutab AudioSepi raamistiku võrdlusanalüüsi tulemusi võrreldes baassüsteemidega, sealhulgas kõnega. Täiendusmudelid, LASS ja CLIP. CLIP-tekstikooderiga AudioSepi mudel on esindatud kui AudioSep-CLIP, samas kui CLAP-tekstikodeerijaga AudioSep-mudel on esindatud kui AudioSep-CLAP.

Nagu jooniselt näha, toimib AudioSepi raamistik hästi, kui kasutatakse sisendpäringutena helitiitreid või tekstisilte, ning tulemused näitavad AudioSepi raamistiku paremat jõudlust võrreldes varasemate LASS-i ja helipäringutega helieraldusmudelitega. 

Nähtamatutel andmekogudel

AudioSepi toimivuse hindamiseks nullkaadri seadistuses jätkasid arendajad seninägematute andmekogumite toimivuse hindamist ning AudioSepi raamistik pakub muljetavaldavat eraldusjõudlust nullkaadri seadistuses ning tulemused on näidatud alloleval joonisel. 

Lisaks näitab allolev pilt AudioSepi mudeli hindamise tulemusi Voicebank-Demand kõne täiustamise suhtes. 

AudioSepi raamistiku hindamine näitab tugevat ja soovitud jõudlust nähtamatute andmekogumite puhul nullkaadri seadistuses ning teeb seega võimaluse uute andmejaotuste puhul usaldusväärsete toimingute tegemiseks. 

Eraldamise tulemuste visualiseerimine

Allolev joonis näitab tulemusi, mis saadi, kui arendajad kasutasid AudioSep-CLAP raamistikku spektrogrammide visualiseerimiseks põhitõe sihtheliallikate jaoks ning helisegude ja eraldatud heliallikate jaoks, kasutades erinevate helide või helide tekstipäringuid. Tulemused võimaldasid arendajatel jälgida, et spektrogrammi eraldatud allika muster on lähedane põhitõe allikale, mis toetab veelgi katsete käigus saadud objektiivseid tulemusi. 

Tekstipäringute võrdlus

Arendajad hindavad AudioSep-CLAP-i ja AudioSep-CLIP-i toimivust rakenduses AudioCaps Mini ning arendajad kasutavad AudioSeti sündmuste silte , AudioCapsi pealdisi ja ümbermärkustega loomuliku keele kirjeldusi, et uurida erinevate päringute mõju ja järgmist. joonisel on näide AudioCaps Mini töös. 

Järeldus

AudioSep on alusmudel, mis on välja töötatud eesmärgiga olla avatud domeeniga universaalne helieraldusraamistik, mis kasutab heli eraldamiseks loomulikke keeli. Nagu hindamise käigus täheldati, on AudioSepi raamistik võimeline teostama sujuvalt nullkaadrit ja järelevalveta õpet, kasutades päringutena helitiitreid või tekstisilte. AudioSepi tulemused ja hindamistulemused näitavad tugevat jõudlust, mis ületab praeguseid tipptasemel helieraldusraamistikke, nagu LASS, ja see võib olla piisavalt võimeline lahendama populaarsete helieraldusraamistike praegused piirangud. 

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.