stuacach AudioSep : Ar Leith Rud ar bith a ndéanann tú cur síos air - Unite.AI
Ceangail le linn

Faisnéise Saorga

AudioSep : Cuir Rud ar bith ar Leith a ndéanann tú cur síos air

mm

foilsithe

 on

Is é atá i LASS nó Scaradh Foinse Fuaime le Ceist Teanga ná an paraidím nua le haghaidh CASA nó Anailís Radharc an Chliste Ríomhaireachta a bhfuil sé mar aidhm aige spriocfhuaim a scaradh ó mheascán áirithe fuaime trí úsáid a bhaint as fiosrú teanga nádúrtha a sholáthraíonn comhéadan nádúrtha ach inscálaithe le haghaidh tascanna agus feidhmchláir fuaime digiteacha . Cé go bhfuil dul chun cinn suntasach déanta ag creataí LASS le blianta beaga anuas maidir le feidhmíocht inmhianaithe a bhaint amach ar fhoinsí fuaime ar leith amhail uirlisí ceoil, ní féidir leo an spriocfhuaim a scaradh san fhearann ​​oscailte. 

FuaimeSep, is samhail bhunúsach é a bhfuil sé mar aidhm aige teorainneacha reatha chreataí LASS a réiteach trí spriocscaradh fuaime a chumasú trí úsáid a bhaint as fiosrúcháin nádúrtha teanga. Tá oiliúint fhorleathan déanta ag forbróirí an chreata AudioSep ar an tsamhail ar raon leathan de thacair sonraí ilmhódacha ar mhórscála, agus tá meastóireacht déanta acu ar fheidhmíocht an chreata ar raon leathan tascanna fuaime lena n-áirítear scaradh uirlisí ceoil, scaradh ócáidí fuaime, agus feabhas a chur ar an gcaint. i measc go leor eile. Sásaíonn feidhmíocht tosaigh AudioSep na tagarmharcanna mar go léiríonn sé cumais foghlama nialasacha iontacha agus seachadann sé feidhmíocht láidir deighilte fuaime. 

San Airteagal seo, beimid ag tumadh níos doimhne ar oibriú chreat AudioSep agus sinn ag déanamh meastóireachta ar ailtireacht na samhla, ar na tacair sonraí a úsáidtear le haghaidh oiliúna agus meastóireachta, agus ar na coincheapa riachtanacha a bhaineann le hoibriú shamhail AudioSep. Mar sin, cuirimis tús le réamhrá bunúsach ar chreat CASA. 

Creataí CASA, USS, QSS, LASS : An Foras le haghaidh AudioSep

Is creat é an CASA nó an Creat Anailís Ráitis Chliste Ríomhaireachta a úsáideann forbróirí chun córais éisteachta meaisín a dhearadh a bhfuil an cumas acu timpeallachtaí casta fuaime a bhrath ar bhealach atá cosúil leis an mbealach a bhraitheann daoine fuaim ag baint úsáide as a gcórais éisteachta. Réimse bunúsach taighde laistigh de chreat CASA is ea deighilt fuaime, le fócas speisialta ar scaradh fuaime sprice, agus tá sé mar aidhm aige réiteach a fháil ar “fadhb cóisir cocktail” nó taifeadtaí fuaime ón bhfíorshaol a scaradh ó thaifeadtaí nó comhaid fuaime foinse aonair. Is féidir an tábhacht a bhaineann le scaradh fuaime a chur i leith go príomha dá n-iarratas forleathan lena n-áirítear scaradh foinse ceoil, scaradh foinse fuaime, feabhsú cainte, sainaithint fuaime sprice, agus go leor eile. 

Baineann an chuid is mó den obair ar dheighilt fuaime a rinneadh san am a chuaigh thart go príomha le scaradh foinsí fuaime amháin nó níos mó amhail scaradh ceoil nó scaradh cainte. Tá sé mar aidhm ag samhail nua dar teideal USS nó Scaradh Fuaime Uilíoch fuaimeanna treallach a scaradh i dtaifeadtaí fuaime an domhain fíor. Mar sin féin, is tasc dúshlánach agus sriantach é gach foinse fuaime a dheighilt ó mheascán fuaime go príomha mar gheall ar an raon leathan d'fhoinsí fuaime éagsúla atá ann ar fud an domhain agus is í sin an phríomhchúis nach bhfuil an modh USS indéanta d'fheidhmchláir fhíorshaoil. i bhfíor-am. 

Rogha féideartha eile seachas an modh MSU is ea an QSS nó an modh Scartha Fuaime Bunaithe ar Cheist a bhfuil sé mar aidhm aige foinse fuaime aonair nó spriocfhoinse a scaradh ón meascán fuaime bunaithe ar shraith fiosrúchán ar leith. Mar gheall air seo, ceadaíonn an creat QSS d’fhorbróirí & d’úsáideoirí na foinsí fuaime atá ag teastáil a bhaint as an meascán bunaithe ar a gcuid riachtanas a fhágann gur réiteach níos praiticiúla é an modh QSS d’fheidhmchláir dhigiteacha sa saol mór ar nós eagarthóireacht ábhair ilmheán nó eagarthóireacht fuaime. 

Ina theannta sin, mhol forbróirí le déanaí síneadh a chur leis an gcreat QSS, leis an gcreat LASS nó leis an gcreat Scaradh Foinse Fuaime a Ceistíodh le Teanga a bhfuil sé mar aidhm aige foinsí treallacha fuaime a scaradh ó mheascán fuaime trí úsáid a bhaint as cur síos teanga nádúrtha na spriocfhoinse fuaime. . Toisc go gceadaíonn creat LASS d’úsáideoirí na spriocfhoinsí fuaime a bhaint as sraith treoracha teanga nádúrtha, d’fhéadfadh sé a bheith ina uirlis chumhachtach le feidhmchláir fhorleathana i bhfeidhmchláir fuaime digiteacha. Nuair a chuirtear i gcomparáid le modhanna traidisiúnta closcheistithe nó físcheistithe, tá buntáiste níos mó ag baint le treoracha teanga nádúrtha le haghaidh scaradh fuaime toisc go gcuireann sé solúbthacht leis, agus déanann sé i bhfad níos éasca agus níos áisiúla faisnéis fiosrúcháin a fháil. Ina theannta sin, nuair a chuirtear i gcomparáid le creataí deighilte fuaime bunaithe ar fhiosrúcháin lipéid a bhaineann úsáid as sraith treoracha nó ceisteanna réamhshainithe, ní chuireann creat LASS teorainn le líon na bhfiosrúchán ionchuir, agus tá an tsolúbthacht aige chun é a ghinearálú chun fearann ​​a oscailt gan uaim. 

Ar dtús, braitheann an creat LASS ar fhoghlaim faoi mhaoirseacht ina gcuirtear oiliúint ar an tsamhail ar thacar sonraí péireáilte fuaime-théacs lipéadaithe. Mar sin féin, is í an phríomhcheist a bhaineann leis an gcur chuige seo ná infhaighteacht theoranta sonraí fuaime téacs anótáilte agus lipéadaithe. Chun iontaofacht chreat LASS ar anót a laghdú sonraí lipéadaithe fuaime-théacs, cuirtear oiliúint ar na samhlacha ag baint úsáide as an gcur chuige foghlama maoirseachta ilmhódaigh. Is í an phríomhaidhm atá taobh thiar de chur chuige maoirseachta ilmhódaigh a úsáid ná samhlacha réamhoiliúna codarsnacha ilmhódacha a úsáid mar an tsamhail CLIP nó Réamhoiliúint Íomhá Teanga Contrastive mar ionchódóir fiosrúcháin don chreat. Ós rud é go bhfuil an cumas ag an gcreat CLIP leabaithe téacs a ailíniú le módúlachtaí eile cosúil le fuaim nó fís, cuireann sé ar chumas forbróirí na samhlacha LASS a oiliúint ag baint úsáide as módúlachtaí atá saibhir i sonraí, agus ceadaíonn sé cur isteach ar na sonraí téacsúla i socrú náid. Baineann creataí reatha LASS úsáid, áfach, as tacair sonraí ar mhionscála le haghaidh oiliúna, agus tá feidhmchláir chreat LASS thar na céadta réimse féideartha fós le hiniúchadh. 

Chun na teorainneacha reatha atá le sárú ag creataí LASS a réiteach, tá AudioSep tugtha isteach ag forbróirí, samhail bhunúsach a bhfuil sé mar aidhm aige fuaim a scaradh ó mheascán fuaime ag baint úsáide as cur síos ar theanga nádúrtha. Is é an fócas reatha do AudioSep múnla deighilte fuaime réamhoilte a fhorbairt a ghiaráil tacair shonraí ilmhódacha ar mhórscála atá ann cheana féin chun ginearálú samhlacha LASS in feidhmchláir fearainn oscailte a chumasú. Mar achoimre, is é múnla AudioSep ná : “Samhail bhunúsach do dheighilt uilíoch fuaime san fhearann ​​oscailte ag úsáid ceisteanna nó tuairiscí teanga nádúrtha oilte ar thacair shonraí fuaime & ilmhódacha ar mhórscála". 

AudioSep : Príomh-Chomhpháirteanna & Ailtireacht

Cuimsíonn ailtireacht chreat AudioSep dhá phríomhchuid: ionchódóir téacs, agus samhail deighilte. 

An Ionchódóir Téacs

Úsáideann an creat AudioSep ionchódóir téacs den tsamhail Réamhoiliúint CLIP nó Íomhá Teanga Chontrártha nó an tsamhail CLAP nó Réamhoiliúint Fuaime Teanga Codarsnacha chun leabaithe téacs a bhaint laistigh de cheist teanga nádúrtha. Is éard atá sa cheist téacs ionchuir ná seicheamh “N” comharthaí a phróiseálann an t-ionchódóir téacs ansin chun na leabaithe téacs a bhaint as an gceist teanga ionchuir a tugadh. Úsáideann an t-ionchódóir téacs cruach de bhlocanna claochladán chun na comharthaí téacs ionchuir a ionchódú, agus déantar na huiríll aschuir a chomhiomlánú tar éis iad a chur ar aghaidh trí na sraitheanna claochladáin a fhágann go bhforbraítear léiriú veicteoir D-tríthoiseach le fad seasta nuair a fhreagraíonn D. le toisí CLAP nó samhlacha CLIP fad is a reoitear an t-ionchódóir téacs le linn na tréimhse oiliúna. 

Tá an tsamhail CLIP réamh-oilte ar thacar sonraí ar scála mór de shonraí íomhá-téacs péireáilte ag baint úsáide as foghlaim chodarsnacha a bhfuil an phríomhchúis go bhfoghlaimíonn a ionchódóir téacs mapáil tuairiscí téacs ar an spás shéimeantach atá roinnte freisin ag na léirithe amhairc. Is é an buntáiste a bhaineann le AudioSep trí úsáid a bhaint as ionchódóir téacs CLIP ná gur féidir leis an tsamhail LASS a mhéadú nó a oiliúint ó shonraí closamhairc neamhlipéadaithe ag baint úsáide as na leabaithe amhairc mar rogha eile, rud a fhágann gur féidir samhlacha LASS a thraenáil gan riachtanas anótáilte nó lipéadaithe. sonraí fuaime-téacs. 

Oibríonn an tsamhail CLAP cosúil leis an tsamhail CLIP agus baintear úsáid as cuspóir foghlama codarsnachta mar go n-úsáideann sé téacs agus ionchódóir fuaime chun fuaim agus teanga a nascadh, rud a thugann tuairiscí téacs agus fuaime ar spás folaigh clostéacs nasctha le chéile. 

Múnla Scartha

Baineann creat AudioSep úsáid as múnla ResUNet fearann-minicíochta a chothaítear meascán de ghearrthóga fuaime mar chnámh droma deighilte don chreat. Oibríonn an creat trí STFT nó Trasfhoirmiú Gearr-Ama Fourier a chur i bhfeidhm ar an tonnchruth ar dtús chun speictream casta, an speictream méide, agus Céim X a bhaint as. Ansin leanann an tsamhail an socrú céanna agus tógann sé líonra ionchódóra-díchódóra le próiseáil. an speictream méide. 

Tá líonra ionchódóra-díchódóra ResUNet comhdhéanta de 6 bhloc iarmharacha, 6 bhloc díchódóra, agus 4 bhloc scrogaill. Úsáideann an speictream i ngach bloc ionchódóra 4 bhloic thraidisiúnta iarmharacha chun é féin a íosshampláil mar ghné scrogaill ach baineann na bloic díchódóra úsáid as 4 bhloc díraonta iarmharacha chun na comhpháirteanna deighilte a fháil trí na gnéithe a uasghrádú. Ina dhiaidh sin, bunaíonn gach ceann de na bloic ionchódóra & a bloic díchódóra comhfhreagracha nasc scipeála a fheidhmíonn ag an ráta uassamplála nó íosshamplála céanna. Tá bloc iarmharach an chreata comhdhéanta de 2 shraith gníomhachtaithe Leaky-ReLU, 2 shraith normalaithe bhaisc, agus 2 shraith CNN, agus ina theannta sin, tugann an creat isteach aicearra iarmharach breise a nascann ionchur & aschur gach bloc iarmharach aonair. Glacann an tsamhail ResUNet an speictream coimpléascach X mar an t-ionchur, agus táirgeann sé an masc méide M mar an t-aschur agus an phas iarmharach á riochtú ar leabaithe téacs a rialaíonn méid an scálaithe, agus rothlú uillinn an speictrim. Is féidir an speictream coimpléascach deighilte a bhaint ansin tríd an masc méide tuartha & iarmharach na céime a iolrú le STFT (Claochlú Fourier Shorttime) den mheascán. 

Ina chreat, úsáideann AudioSep ciseal modhnaithe Líneach FiLm nó Gné-Chliste chun an tsamhail dheighilte agus an t-ionchódóir téacs a dhroicheadú tar éis imscaradh na mbloic réchúiseach sa ResUNet. 

Oiliúint agus Caillteanas

Le linn na samhla AudioSep a oiliúint, úsáideann forbróirí an modh méadaithe treise, agus cuireann siad oiliúint ar chreat AudioSep deireadh go deireadh trí úsáid a bhaint as feidhm chaillteanais L1 idir an fhírinne ar an talamh agus na tonnta tuartha. 

Tacair Sonraí agus Tagarmharcanna

Mar a luadh i rannáin roimhe seo, is samhail bhunúsach é AudioSep a bhfuil sé mar aidhm aige spleáchas reatha na samhlacha LASS ar thacair sonraí péireáilte fuaime-théacs anótáilte a réiteach. Tá an tsamhail AudioSep traenáilte ar raon leathan tacair sonraí chun cumais foghlama ilmhódacha a fheistiú, agus anseo tá cur síos mionsonraithe ar an tacar sonraí agus na tagarmharcanna a úsáideann forbróirí chun an creat AudioSep a oiliúint. 

FuaimeSocr

Is tacar sonraí fuaime ar mhórscála lag-lipéadaithe é AudioSet a chuimsíonn breis agus 2 mhilliún gearrthóg fuaime 10 soicind a bhaintear díreach ó YouTube. Déantar gach gearrthóg fuaime i dtacar sonraí AudioSet a chatagóiriú de réir easpa nó láithreacht aicmí fuaime gan sonraí uainiúcháin sonracha na n-imeachtaí fuaime. Tá os cionn 500 rang fuaime ar leith ag tacar sonraí AudioSet lena n-áirítear fuaimeanna nádúrtha, fuaimeanna daonna, fuaimeanna feithicle, agus go leor eile. 

VGGSound

Is tacar sonraí amhairc-fuaime ar mhórscála é tacar sonraí VGGSound atá díreach cosúil le AudioSet a fuarthas go díreach ó YouTube, agus tá os cionn 2,00,000 gearrthóg físe ann, agus fad 10 soicind ag gach ceann acu. Déantar tacar sonraí VGGSound a chatagóiriú i níos mó ná 300 rang fuaime lena n-áirítear fuaimeanna daonna, fuaimeanna nádúrtha, fuaimeanna éan, agus go leor eile. Cinntíonn úsáid tacar sonraí VGGSound go bhfuil an réad atá freagrach as an spriocfhuaim a tháirgeadh intuairiscithe sa ghearrthóg amhairc chomhfhreagrach. 

Caipíní Fuaime

Is é AudioCaps an tacar sonraí ceannteidil fuaime is mó atá ar fáil go poiblí, agus cuimsíonn sé os cionn 50,000 gearrthóg fuaime 10 soicind a bhaintear as tacar sonraí AudioSet. Tá na sonraí sna AudioCaps roinnte i dtrí chatagóir: sonraí oiliúna, sonraí tástála, agus sonraí bailíochtaithe, agus tá na gearrthóga fuaime anótáilte go daonna le tuairiscí teanga nádúrtha ag baint úsáide as ardán Amazon Mechanical Turk. Is fiú a thabhairt faoi deara go bhfuil fotheideal amháin ag gach gearrthóg fuaime sa tacar sonraí oiliúna, ach tá 5 fhotheideal fhírinneachta ag gach ceann de na sonraí sna tacair tástála & bailíochtaithe. 

ÉadachV2

Is tacar sonraí ceannteidil fuaime é an ClothoV2 atá comhdhéanta de ghearrthóga a fuarthas ón ardán FreeSound, agus díreach cosúil le AudioCaps, tá anót daonna ar gach gearrthóg fuaime le cur síos ar theanga nádúrtha ag baint úsáide as ardán Amazon Mechanical Turk. 

WavCaps

Díreach cosúil le AudioSet, is tacar sonraí fuaime ar mhórscála lag-lipéadaithe é WavCaps a chuimsíonn os cionn 400,000 gearrthóg fuaime le fotheidil, agus am rite iomlán arb ionann é agus 7568 uair an chloig de shonraí oiliúna. Faightear na gearrthóga fuaime i dtacar sonraí WavCaps ó raon leathan foinsí fuaime lena n-áirítear BBC Sound Effects, AudioSet, FreeSound, SoundBible, agus go leor eile.

Sonraí Oiliúna

Le linn na céime oiliúna, déanann an tsamhail AudioSep sampla randamach de dhá mhír fuaime a fuarthas ó dhá ghearrthóg fuaime éagsúla ón tacar sonraí oiliúna, agus ansin measctar iad le chéile chun meascán oiliúna a chruthú ina bhfuil fad gach teascán fuaime thart ar 5 soicind. Ansin baintear an speictream casta as an comhartha tonnchruth leis an tsamhail ag baint úsáide as fuinneog Hann de mhéid 1024 le méid hop 320. 

Úsáideann an tsamhail ansin ionchódóir téacs na múnlaí CLIP/CLAP chun na leabaithe téacs a bhaint as agus is é an mhaoirseacht téacs an chumraíocht réamhshocraithe do AudioSep. Maidir leis an tsamhail dheighilte, úsáideann creat AudioSep ciseal ResUNet ina bhfuil 30 ciseal, 6 bhloc ionchódóra, agus 6 bhloc díchódóra atá cosúil leis an ailtireacht a leantar sa chreat deighilte fuaime uilíoch. Ina theannta sin, tá dhá shraith chomhdhlúite ag gach bloc ionchódóra le méid eithne 3×3 agus is é 32, 64, 128, 256, 512, agus 1024 faoi seach líon na léarscáileanna gné aschuir de bhloic ionchódóra. Comhroinneann na bloic díchódóra siméadracht leis na bloic ionchódóra, agus cuireann na forbróirí an optimizer Adam i bhfeidhm chun an tsamhail AudioSep a oiliúint le méid baisce 96. 

Torthaí Meastóireachta

Ar Thacair Sonraí Feicthe

Déanann an figiúr seo a leanas comparáid idir feidhmíocht chreat AudioSep ar thacair sonraí a chonacthas le linn na céime oiliúna lena n-áirítear na tacair sonraí oiliúna. Léiríonn an figiúr thíos torthaí meastóireachta tagarmhairc chreat AudioSep nuair a chuirtear i gcomparáid iad le córais bhonnlíne lena n-áirítear Speech Samhlacha feabhsaithe, LASS, agus CLIP. Léirítear samhail AudioSep le hionchódóir téacs CLIP mar AudioSep-CLIP, ach léirítear an tsamhail AudioSep le hionchódóir téacs CLAP mar AudioSep-CLAP.

Mar is léir san fhigiúr, feidhmíonn creat AudioSep go maith nuair a úsáidtear fotheidil fuaime nó lipéid téacs mar cheisteanna ionchuir, agus léiríonn na torthaí feidhmíocht níos fearr chreat AudioSep i gcomparáid le samhlacha deighilte fuaime tagarmhairc LASS agus fuaime-cheistithe roimhe seo. 

Ar Thacair Sonraí Neamhfheicthe

Chun measúnú a dhéanamh ar fheidhmíocht AudioSep i suíomh náid lámhaigh, lean na forbróirí ag déanamh meastóireachta ar an bhfeidhmíocht ar thacair sonraí nach bhfacthas riamh cheana, agus seachadann creat AudioSep feidhmíocht deighilte go hiontach i suíomh náid lámhaigh, agus tá na torthaí ar taispeáint san fhigiúr thíos. 

Ina theannta sin, taispeánann an íomhá thíos na torthaí ó mheasúnú a dhéanamh ar mhúnla AudioSep i gcoinne feabhsú cainte Voicebank-Demand. 

Léiríonn an mheastóireacht ar chreat AudioSep feidhmíocht láidir & inmhianaithe ar thacair sonraí nach bhfacthas riamh cheana i socrú náid, agus mar sin déanann sé bealach chun tascanna oibríochta fuaime a dhéanamh ar dháileacháin nua sonraí. 

Amharcléiriú ar Thorthaí Scartha

Léiríonn an figiúr thíos na torthaí a fuarthas nuair a d’úsáid na forbróirí an creat AudioSep-CLAP chun léirshamhlú a dhéanamh ar speictreagraim d’fhoinsí fuaime sprice talamhfhírinne, agus meascáin fuaime agus foinsí fuaime scartha ag baint úsáide as fiosrúcháin téacs de chlostaifid nó fuaimeanna éagsúla. Thug na torthaí deis d'fhorbróirí a thabhairt faoi deara go bhfuil patrún foinse scartha an speictream gar d'fhoinse na fírinne talún a thacaíonn tuilleadh leis na torthaí oibiachtúla a fuarthas le linn na dturgnaimh. 

Comparáid idir Ceisteanna Téacs

Déanann na forbróirí meastóireacht ar fheidhmíocht AudioSep-CLAP agus AudioSep-CLIP ar AudioCaps Mini, agus baineann na forbróirí úsáid as na lipéid imeachtaí AudioSet , na fotheidil AudioCaps, agus tuairiscí teanga nádúrtha ath-anótáilte chun éifeachtaí fiosrúcháin éagsúla a scrúdú, agus na nithe seo a leanas léiríonn an figiúr sampla den AudioCaps Mini ag obair. 

Conclúid

FuaimeSep is samhail bhunúsach í a fhorbraítear leis an aidhm a bheith ina chreat deighilte fuaime uilíoch a úsáideann tuairiscí teanga nádúrtha le haghaidh scaradh fuaime. Mar a breathnaíodh le linn na meastóireachta, tá creat AudioSep in ann foghlaim náid & gan mhaoirseacht a dhéanamh gan uaim trí úsáid a bhaint as fotheidil fuaime nó as lipéid téacs mar cheisteanna. Léiríonn torthaí agus feidhmíocht mheastóireachta AudioSep feidhmíocht láidir a sháraíonn na creataí deighilte fuaime úrscothacha mar LASS, agus d’fhéadfadh go mbeadh sé in ann teorainneacha reatha creataí deighilte fuaime a bhfuil móréilimh orthu a réiteach. 

"Innealtóir de réir gairme, scríbhneoir ó chroí". Is scríbhneoir teicniúil é Kunal a bhfuil grá agus tuiscint dhomhain aige ar AI agus ar ML, atá tiomanta do choincheapa casta sna réimsí seo a shimpliú trína dhoiciméadú mealltach agus faisnéiseach.