stubbur AudioSep: Aðskilja allt sem þú lýsir - Unite.AI
Tengja við okkur

Artificial Intelligence

AudioSep: Aðskilja allt sem þú lýsir

mm

Útgefið

 on

LASS eða Language-queried Audio Source Separation er nýja hugmyndafræðin fyrir CASA eða Computational Auditory Scene Analysis sem miðar að því að aðskilja markhljóð frá tiltekinni blöndu af hljóði með því að nota náttúrulega tungumálafyrirspurn sem veitir náttúrulegt en þó skalanlegt viðmót fyrir stafræn hljóðverk og forrit . Þrátt fyrir að LASS rammarnir hafi þróast verulega á undanförnum árum hvað varðar að ná tilætluðum árangri á tilteknum hljóðgjafa eins og hljóðfærum, þá geta þeir ekki aðskilið markhljóðið á opnu léni. 

AudioSep, er grunnlíkan sem miðar að því að leysa núverandi takmarkanir á LASS ramma með því að virkja hljóðaðskilnað marks með því að nota náttúruleg tungumálafyrirspurnir. Hönnuðir AudioSep rammans hafa þjálfað líkanið mikið á fjölmörgum fjölþættum gagnapakka í stórum stíl og hafa metið frammistöðu rammans í fjölmörgum hljóðverkefnum, þar á meðal hljóðfæraaðskilnaði, hljóðviðburðaaðskilnaði og aukinni ræðu. meðal margra annarra. Upphafleg frammistaða AudioSep uppfyllir viðmiðin þar sem það sýnir glæsilega núllskotsnámsgetu og skilar sterkum hljóðaðskilnaðarafköstum. 

Í þessari grein munum við kafa dýpra í virkni AudioSep rammans þar sem við munum meta arkitektúr líkansins, gagnasöfnin sem notuð eru til þjálfunar og mats og nauðsynleg hugtök sem taka þátt í vinnslu AudioSep líkansins. Svo skulum við byrja á grunnkynningu á CASA ramma. 

CASA, USS, QSS, LASS Frameworks: The Foundation for AudioSep

CASA eða Computational Auditory Scene Analysis ramma er rammi sem forritarar nota til að hanna vélhlustunarkerfi sem hafa getu til að skynja flókið hljóðumhverfi á svipaðan hátt og menn skynja hljóð með því að nota heyrnarkerfi sín. Hljóðaðskilnaður, með sérstakri áherslu á markhljóðskil, er grundvallarrannsóknarsvið innan CASA ramma og miðar að því að leysa „kokteilveisluvandamál“ eða aðskilja raunverulegar hljóðupptökur frá einstökum hljóðupptökum eða skrám. Mikilvægi hljóðaðskilnaðar má aðallega rekja til útbreiddra forrita þess, þar á meðal aðskilnað tónlistargjafa, aðskilnað hljóðgjafa, talauka, auðkenningar hljóðs og margt fleira. 

Flest vinnan við hljóðaðskilnað sem gerð var í fortíðinni snýst aðallega um aðskilnað einnar eða fleiri hljóðgjafa eins og tónlistaraðskilnað eða talaðskilnað. Ný gerð sem gengur undir nafninu USS eða Universal Sound Separation miðar að því að aðskilja handahófskennd hljóð í raunverulegum hljóðupptökum. Hins vegar er það krefjandi og takmarkandi verkefni að aðskilja hvern hljóðgjafa frá hljóðblöndu fyrst og fremst vegna þess mikla fjölda mismunandi hljóðgjafa sem eru til í heiminum sem er aðalástæðan fyrir því að USS aðferðin er ekki framkvæmanleg fyrir raunveruleg forrit sem virka í rauntíma. 

Mögulegur valkostur við USS aðferðina er QSS eða Query-based Sound Separation aðferð sem miðar að því að aðskilja einstaklings- eða markhljóðgjafa frá hljóðblöndunni byggt á tilteknu mengi fyrirspurna. Þökk sé þessu gerir QSS ramma verktaki og notendum kleift að vinna viðeigandi hljóðgjafa úr blöndunni út frá kröfum þeirra sem gerir QSS aðferðina að hagnýtari lausn fyrir stafræn raunveruleikaforrit eins og margmiðlunarefnisklippingu eða hljóðvinnslu. 

Ennfremur hafa þróunaraðilar nýlega lagt til framlengingu á QSS ramma, LASS ramma eða tungumálafyrirspurna hljóðgjafa aðskilnað ramma sem miðar að því að aðskilja handahófskennda hljóðgjafa frá hljóðblöndu með því að nýta náttúrulega tungumálalýsingar markhljóðgjafans. . Þar sem LASS ramminn gerir notendum kleift að draga út markhljóðgjafana með því að nota safn af náttúrulegu tungumálaleiðbeiningum gæti það orðið öflugt tæki með útbreiddum forritum í stafrænum hljóðforritum. Þegar borið er saman við hefðbundnar hljóð- eða sjónspurðar aðferðir, þá býður notkun náttúrulegra tungumálaleiðbeininga fyrir hljóðaðskilnað meiri kosti þar sem það eykur sveigjanleika og gerir öflun fyrirspurnaupplýsinga miklu auðveldara og þægilegra. Ennfremur, þegar borið er saman við merkifyrirspurn byggða hljóðaðskilnaðarramma sem nýta sér fyrirfram skilgreind leiðbeiningar eða fyrirspurnir, takmarkar LASS ramminn ekki fjölda inntaksfyrirspurna og hefur sveigjanleika til að vera alhæfður til að opna lén óaðfinnanlega. 

Upphaflega byggir LASS ramminn á nám undir eftirliti þar sem líkanið er þjálfað á safni merktra hljóð-texta pöruð gögn. Hins vegar er aðalvandamálið við þessa nálgun takmarkað framboð á athugasemdum og merktum hljóð-textagögnum. Til þess að draga úr áreiðanleika LASS ramma á athugasemdum hljóð-texta merkt gögn, eru líkönin þjálfuð með því að nota fjölþætt eftirlitsnám. Meginmarkmiðið á bak við notkun fjölþættrar eftirlitsnálgunar er að nota fjölþætt andstæða forþjálfunarlíkön eins og CLIP eða Contrastive Language Image Pre Training líkanið sem fyrirspurnarkóðara fyrir rammann. Þar sem CLIP ramminn hefur getu til að samræma innfellingu texta við aðrar aðferðir eins og hljóð eða sjón, gerir það forriturum kleift að þjálfa LASS líkönin með því að nota gagnaríkar aðferðir og gerir truflun á textagögnum kleift í núllmyndastillingu. Núverandi LASS rammar nota hins vegar smærri gagnapakka til þjálfunar og enn á eftir að kanna notkun LASS ramma yfir hundruð hugsanlegra léna. 

Til að leysa núverandi takmarkanir sem LASS rammar standa frammi fyrir hafa verktaki kynnt AudioSep, grunnlíkan sem miðar að því að aðgreina hljóð frá hljóðblöndu með náttúrulegum tungumálalýsingum. Núverandi áhersla fyrir AudioSep er að þróa fyrirfram þjálfað hljóðaðskilnaðarlíkan sem nýtir núverandi stórfelld fjölþætt gagnapakka til að gera kleift að alhæfa LASS líkana í opnu lénsforritum. Til að draga saman er AudioSep líkanið: "Grunnlíkan fyrir alhliða hljóðaðskilnað í opnu léni með því að nota náttúruleg tungumálafyrirspurnir eða lýsingar sem eru þjálfaðar á stórum hljóð- og fjölþættum gagnasöfnum". 

AudioSep: Lykilhlutir og arkitektúr

Arkitektúr AudioSep ramma samanstendur af tveimur lykilþáttum: textakóðara og aðskilnaðarlíkani. 

Textakóðarinn

AudioSep ramminn notar textakóðara af CLIP eða Contrastive Language Image Pre Training líkaninu eða CLAP eða Contrastive Language Audio Pre Training líkaninu til að draga út textainnfellingar innan náttúrulegs tungumálafyrirspurnar. Innsláttartextafyrirspurnin samanstendur af röð af „N”-tákn sem síðan er unnið af textakóðaranum til að draga út textainnfellinguna fyrir tiltekna inntakstungumálafyrirspurn. Textakóðarinn notar stafla af spenniblokkum til að umrita inntakstextamerkin og úttaksframsetningin eru tekin saman eftir að þeim hefur verið farið í gegnum spennilögin sem leiðir til þróunar á D-víddar vektorframsetningu með fastri lengd þar sem D samsvarar að stærðum CLAP eða CLIP líkananna á meðan textakóðarinn er frosinn á þjálfunartímabilinu. 

CLIP líkanið er forþjálfað á umfangsmiklu gagnasafni mynd-texta paraðra gagna með því að nota andstæða nám sem er aðalástæðan fyrir því að textakóðari þess lærir að kortleggja textalýsingar á merkingarrýminu sem einnig er deilt með sjónrænum framsetningum. Kosturinn sem AudioSep öðlast með því að nota textakóðara CLIP er að hann getur nú stækkað eða þjálfað LASS líkanið úr ómerktum hljóð- og myndgögnum með því að nota sjónræna innfellingu sem valkost og gerir þannig kleift að þjálfa LASS líkan án þess að þurfa að gera athugasemdir eða merkingar. hljóð-texta gögn. 

CLAP líkanið virkar svipað og CLIP líkanið og notar andstæða námsmarkmið þar sem það notar texta og hljóðkóðara til að tengja hljóð og tungumál og færir þannig texta og hljóðlýsingar á dulda hljóð-texta rými sem er tengt saman. 

Aðskilnaðarlíkan

AudioSep ramminn notar tíðni léns ResUNet líkan sem er gefið með blöndu af hljóðinnskotum sem aðskilnaðar burðarás fyrir rammann. Ramminn virkar þannig að fyrst er beitt STFT eða Short-Time Fourier Transform á bylgjuformið til að draga út flókið litróf, stærðarrófið og Phase of X. Líkanið fylgir síðan sömu stillingu og smíðar kóðara-afkóðanet til að vinna úr stærðarlitrófið. 

ResUNet kóðara-afkóðara netið samanstendur af 6 afgangsblokkum, 6 afkóðablokkum og 4 flöskuhálsblokkum. Litrófið í hverri kóðarablokk notar 4 hefðbundnar leifar blokkir til að lækka sjálfan sig í flöskuhálseiginleika á meðan afkóðarablokkir nota 4 leifar afstýringarblokka til að fá aðskilnaðarhlutana með því að upsampla eiginleikana. Í kjölfarið kemur hver af kóðarablokkunum og samsvarandi afkóðarablokkum þeirra á slepptutengingu sem starfar á sama uppsýnis- eða niðursýnishraða. Afgangsblokk rammans samanstendur af 2 Leaky-ReLU virkjunarlögum, 2 batch normalization lögum og 2 CNN lögum, og ennfremur kynnir ramminn einnig viðbótar afgangsflýtileið sem tengir inntak og úttak hvers einstaks afgangsblokk. ResUNet líkanið tekur hið flókna litróf X sem inntak og framleiðir stærðargrímuna M sem úttakið þar sem fasaleifarnar eru skilyrtar við innfellingu texta sem stjórnar stærð stærðar mælikvarða og snúningi horni litrófsins. Aðskilda flókna litrófið er síðan hægt að draga út með því að margfalda spáð stærðargrímu og fasaleif með STFT (Short-Time Fourier Transform) blöndunnar. 

Í umgjörð sinni notar AudioSep FiLm eða Feature-wise Línulega stillt lag til að brúa aðskilnaðarlíkanið og textakóðarann ​​eftir uppsetningu á snúningsblokkunum í ResUNet. 

Þjálfun og tap

Meðan á þjálfun AudioSep líkansins stendur, nota verktaki aðferð til að auka hljóðstyrk og þjálfa AudioSep ramma frá enda til enda með því að nota L1 tapfall á milli sannleikans og spáðra bylgjuforma. 

Gagnasett og viðmið

Eins og getið er um í fyrri köflum er AudioSep grunnlíkan sem miðar að því að leysa núverandi háð LASS líkana á merktum hljóð-texta pöruðum gagnapörum. AudioSep líkanið er þjálfað á fjölmörgum gagnasöfnum til að útbúa það með fjölþættum námsgetu og hér er nákvæm lýsing á gagnapakkanum og viðmiðunum sem forritarar nota til að þjálfa AudioSep rammann. 

Hljóðsett

AudioSet er veikt merkt stórt hljóðgagnasett sem samanstendur af yfir 2 milljónum 10 sekúndna hljóðbúta sem eru dregin út beint af YouTube. Hvert hljóðbút í AudioSet gagnasafninu er flokkað eftir fjarveru eða viðveru hljóðflokka án sérstakra tímaupplýsinga hljóðatburðanna. AudioSet gagnasafnið hefur yfir 500 mismunandi hljóðflokka, þar á meðal náttúruhljóð, mannleg hljóð, ökutækishljóð og margt fleira. 

VGGSound

VGGSound gagnasafnið er umfangsmikið sjónrænt hljóðgagnasett sem rétt eins og AudioSet hefur verið sótt beint frá YouTube og það inniheldur yfir 2,00,000 myndinnskot sem hvert þeirra er 10 sekúndur að lengd. VGGSound gagnasafnið er flokkað í yfir 300 hljóðflokka, þar á meðal mannshljóð, náttúruhljóð, fuglahljóð og fleira. Notkun VGGSound gagnasafnsins tryggir að hlutnum sem ber ábyrgð á að framleiða markhljóðið sé einnig hægt að lýsa í samsvarandi myndbroti. 

AudioCaps

AudioCaps er stærsta hljóðskjátextagagnasafnið sem er tiltækt opinberlega og samanstendur af yfir 50,000 10 sekúndna hljóðinnskotum sem eru dregin út úr AudioSet gagnasafninu. Gögnin í AudioCaps eru skipt í þrjá flokka: þjálfunargögn, prófunargögn og staðfestingargögn, og hljóðklippurnar eru mannlegar skýringar með náttúrulegum tungumálalýsingum með því að nota Amazon Mechanical Turk vettvang. Það er athyglisvert að hver hljóðinnskot í þjálfunargagnapakkanum er með einum yfirskrift, en gögnin í prófunar- og staðfestingarsettunum hafa hvert um sig 5 sannleikstexta. 

ClothoV2

ClothoV2 er gagnasafn fyrir hljóðtexta sem samanstendur af innskotum sem eru fengin frá FreeSound pallinum, og rétt eins og AudioCaps, er hvert hljóðinnskot með mannlegum skýringum með náttúrulegum tungumálalýsingum með Amazon Mechanical Turk pallinum. 

WavCaps

Rétt eins og AudioSet, er WavCaps veikt merkt stórt hljóðgagnasett sem samanstendur af yfir 400,000 hljóðinnskotum með texta, og heildar keyrslutíma sem er um það bil 7568 klukkustundir af þjálfunargögnum. Hljóðinnskotið í WavCaps gagnasafninu eru fengnar frá fjölmörgum hljóðgjafa, þar á meðal BBC Sound Effects, AudioSet, FreeSound, SoundBible og fleira.

Upplýsingar um þjálfun

Á þjálfunarstiginu tekur AudioSep líkanið af handahófi sýnishorn af tveimur hljóðhlutum sem eru fengnir úr tveimur mismunandi hljóðbútum úr þjálfunargagnasettinu og blandar þeim síðan saman til að búa til þjálfunarblöndu þar sem lengd hvers hljóðhluta er um 5 sekúndur. Líkanið dregur síðan flókna litrófið út úr bylgjulögunarmerkinu með því að nota Hann glugga af stærð 1024 með 320 hoppstærð. 

Líkanið notar síðan textakóðara CLIP/CLAP líkananna til að draga út textainnfellinguna þar sem textaeftirlit er sjálfgefin uppsetning fyrir AudioSep. Fyrir aðskilnaðarlíkanið notar AudioSep ramma ResUNet lag sem samanstendur af 30 lögum, 6 kóðara kubbum og 6 afkóðara kubbum sem líkjast arkitektúrnum sem fylgt er í alhliða hljóðaðskilnaðarrammanum. Ennfremur hefur hver kóðunarblokk tvö snúningslög með 3×3 kjarnastærð þar sem fjöldi úttakseinnakorta kóðunarblokka er 32, 64, 128, 256, 512 og 1024 í sömu röð. Afkóðarablokkirnar deila samhverfu með kóðarablokkunum og þróunaraðilar nota Adam fínstillingu til að þjálfa AudioSep líkanið með lotustærð 96. 

Niðurstöður mats

Á Séð gagnasöfn

Eftirfarandi mynd ber saman frammistöðu AudioSep ramma á gagnasöfnum sem sést hafa á þjálfunarstiginu, þar með talið þjálfunargagnasöfnunum. Myndin hér að neðan sýnir viðmiðunarmatsniðurstöður AudioSep ramma samanborið við grunnlínukerfi þar á meðal tal Aukalíkön, LASS og CLIP. AudioSep líkanið með CLIP texta kóðara er táknað sem AudioSep-CLIP, en AudioSep líkanið með CLAP texta kóðara er táknað sem AudioSep-CLAP.

Eins og sést á myndinni kemur AudioSep ramma vel út þegar hljóðskýringar eða textamerki eru notaðar sem inntaksfyrirspurnir og niðurstöðurnar gefa til kynna yfirburða frammistöðu AudioSep rammans samanborið við fyrri viðmið LASS og hljóðfyrirspurnar hljóðaðskilnaðarlíkön. 

Á óséðum gagnasöfnum

Til að meta frammistöðu AudioSep í núllskotastillingu héldu þróunaraðilar áfram að meta frammistöðu óséðra gagnapakka og AudioSep ramma skilar glæsilegum aðskilnaðarafköstum í núllskotastillingu og niðurstöðurnar eru sýndar á myndinni hér að neðan. 

Ennfremur sýnir myndin hér að neðan niðurstöður þess að meta AudioSep líkanið gegn Voicebank-Demand talaukningunni. 

Matið á AudioSep rammanum gefur til kynna sterka og æskilega frammistöðu á óséðum gagnasöfnum í núllskotstillingu, og gerir þannig leið fyrir að framkvæma hljóðaðgerðaverkefni á nýjum gagnadreifingum. 

Sýning á niðurstöðum aðskilnaðar

Myndin hér að neðan sýnir niðurstöðurnar sem fengust þegar þróunaraðilarnir notuðu AudioSep-CLAP rammann til að framkvæma sjónræna litrófsmynd fyrir hljóðgjafa í grunnsannleika, og hljóðblöndur og aðskildar hljóðgjafar með því að nota textafyrirspurnir af fjölbreyttu hljóði eða hljóðum. Niðurstöðurnar gerðu þróunaraðilum kleift að sjá að aðskilið upprunamynstur litrófsritsins er nálægt upptökum jarðsannleikans sem styður enn frekar hlutlægar niðurstöður sem fengust við tilraunirnar. 

Samanburður á textafyrirspurnum

Hönnuðir meta frammistöðu AudioSep-CLAP og AudioSep-CLIP á AudioCaps Mini, og þróunaraðilarnir nýta sér AudioSet viðburðamerkin , AudioCaps myndatexta og endurskráðar náttúrulegar lýsingar til að skoða áhrif mismunandi fyrirspurna og eftirfarandi mynd sýnir dæmi um AudioCaps Mini í aðgerð. 

Niðurstaða

AudioSep er grunnlíkan sem er þróað með það að markmiði að vera opið léns alhliða hljóðaðskilnaðarramma sem notar náttúrulegar mállýsingar fyrir hljóðaðskilnað. Eins og fram kom við matið er AudioSep ramminn fær um að framkvæma núllskot og eftirlitslaust nám óaðfinnanlega með því að nota hljóðskjátexta eða textamerki sem fyrirspurnir. Niðurstöður og matsárangur AudioSep gefur til kynna sterka frammistöðu sem er betri en núverandi hljóðaðskilnaðarramma eins og LASS og gæti verið nógu hæf til að leysa núverandi takmarkanir á vinsælum hljóðaðskilnaðarramma. 

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.