stubbur Gervigreindarrannsóknir sjá fyrir sér aðskildar hljóðstyrkstýringar fyrir valmynd, tónlist og hljóðbrellur - Unite.AI
Tengja við okkur

Artificial Intelligence

Gervigreindarrannsóknir sjá fyrir sér aðskildar hljóðstyrkstýringar fyrir valmynd, tónlist og hljóðbrellur

mm
Uppfært on

Nýtt rannsóknarsamstarf undir forystu Mitsubishi kannar möguleikann á að draga þrjú aðskilin hljóðrás úr upprunalegum hljóðgjafa, sundurliða hljóðrásinni í tal, tónlist og hljóðbrellur (þ.e. umhverfishljóð).

Þar sem þetta er vinnslurammi eftir að staðreyndir hafa verið gerðar, býður það upp á möguleika fyrir síðari kynslóðir margmiðlunarkerfis, þar á meðal neytendabúnað, til að bjóða upp á þriggja punkta hljóðstyrkstýringu, sem gerir notandanum kleift að hækka hljóðstyrk svargluggans eða lækka hljóðstyrk hljóðrásar. .

Í stuttu innskotinu hér að neðan úr meðfylgjandi myndbandi fyrir rannsóknina (sjá lok greinarinnar fyrir fullt myndband) sjáum við mismunandi hliðar á hljóðrásinni vera lögð áhersla á þegar notandinn dregur stjórntæki yfir þríhyrning með hvern af þremur hljóðþáttunum í einu horninu :

Stutt klippa úr myndbandinu sem fylgir blaðinu (sjá embed í lok greinarinnar). Þegar notandinn dregur bendilinn í átt að einum af þremur útdregnum hliðum í þríhyrningsviðmótinu (hægra megin), leggur hljóðið áherslu á þann hluta þríhliða hljóðrásarinnar. Þó að lengri myndbandið vitni í fjölda viðbótardæma á YouTube, virðast þau ekki vera tiltæk eins og er. Heimild: https://vimeo.com/634073402

The pappír á rétt á sér The Cocktail Fork Vandamálið: Þriggja stafa hljóðaðskilnaður fyrir alvöru hljóðrásir, og kemur frá vísindamönnum við Mitsubishi Electric Research Laboratories (MERL) í Cambridge, MA, og deild greindarkerfisverkfræði við Indiana háskólann í Illinois.

Aðskilja hliðar á hljóðrás

Rannsakendur hafa kallað áskorunina „Kokteilveisluvandamálið“ vegna þess að það felur í sér að einangra alvarlega flækja þætti hljóðrásar, sem skapar vegvísi sem líkist gaffli (sjá mynd hér að neðan). Í reynd geta hljóðrásir með mörgum rásum (þ.e. hljómtæki og fleira) verið með mismunandi tegundum efnis, svo sem glugga, tónlist og andrúmsloft, sérstaklega þar sem gluggar hafa tilhneigingu til að ráða yfir miðrásinni í Dolby 5.1 blöndun. Sem stendur hins vegar. hið mjög virka rannsóknarsvið hljóðaðskilnaðar einbeitir sér að því að fanga þessa þætti úr einni, bakuðu hljóðrás, eins og núverandi rannsóknir gera.

The Cocktail Fork - dregur þrjú aðskilin hljóðrás úr sameinuðu og staku hljóðrás. Heimild: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork - dregur þrjú aðskilin hljóðrás úr sameinuðu og staku hljóðrás. Heimild: https://arxiv.org/pdf/2110.09958.pdf

Nýlegar rannsóknir hafa einbeitt sér að því að draga út tal í ýmsum umhverfi, oft í þeim tilgangi að afneita talhljóð fyrir síðari tengingu við náttúruleg málvinnslukerfi (NLP), en einnig á einangrun af söngraddum í geymslu, annað hvort til að búa til gerviútgáfur af raunverulegum (jafnvel dauður) söngvara, eða til að auðvelda Einangrun í karókí-stíl.

Gagnasett fyrir hvern flöt

Hingað til hefur lítið verið hugsað um að nota þessa tegund gervigreindartækni til að veita notendum meiri stjórn á blöndun hljóðrásar. Þess vegna hafa rannsakendur formbundið vandamálið og búið til nýtt gagnasafn sem aðstoð við áframhaldandi rannsóknir á aðskilnaði hljóðrásar í mörgum gerðum, auk þess að prófa það á ýmsum núverandi hljóðaðskilnaðarramma.

Nýja gagnasafnið sem höfundar hafa þróað heitir Divide og Remaster (DnR), og er dregið af fyrri gagnasöfnum LibriSpeech, Ókeypis tónlistarskjalasafn og Freesound gagnasett 50k (FSD50K). Fyrir þá sem vilja vinna með DnR frá grunni verður að endurgera gagnasafnið úr þessum þremur heimildum; annars verður það fljótlega aðgengilegt á Zenodo, halda höfundar fram. Hins vegar, þegar þetta er skrifað, er veitt GitHub hlekkur fyrir útdráttartæki er ekki virkt eins og er, þannig að áhugasamir gætu þurft að bíða í smá stund.

Rannsakendur hafa komist að því að CrossNet un-mix (XUMX) arkitektúr sem Sony lagði til í maí og virkar sérstaklega vel með DnR.

CrossNet arkitektúr Sony.

CrossNet arkitektúr Sony.

Höfundarnir halda því fram að vélanámsútdráttarlíkön þeirra virki vel á hljóðrásum frá YouTube, þó að matið sem kynnt er í greininni sé byggt á tilbúnum gögnum, og meðfylgjandi aðalstuðningsmyndband (innfellt hér að neðan) sé eins og er það eina sem virðist vera tiltækt.

Gagnasöfnin þrjú sem notuð eru samanstanda hvert af safni þeirrar tegundar sem þarf að aðskilja frá hljóðrás: FSD50K er upptekið af hljóðbrellum og inniheldur 50,000 44.1 kHz mónó hljóðinnskot merkt með 200 flokksmerkjum úr verufræði Google AudioSet; Free Music Archive inniheldur 100,000 hljómtæki lög sem ná yfir 161 tónlistartegund, þó að höfundarnir hafi notað undirmengi sem inniheldur 25,000 lög, til jafns við FSD50K; og LibriSpeech veitir DnR 100 klukkustundir af hljóðbókasýnum sem 44.1kHz mp3 hljóðskrár.

Framundan Vinna

Höfundarnir gera ráð fyrir frekari vinnu við gagnasafnið og samsetningu aðskildra líkana sem þróuð voru til viðbótarrannsókna á talgreiningar- og hljóðflokkunarramma, með sjálfvirkri myndatextagerð fyrir talhljóð og hljóð sem ekki eru tal. Þeir hyggjast einnig meta möguleika á endurhljóðblöndun sem getur dregið úr skynjunargripum, sem er áfram aðalvandamálið þegar sameinuðu hljóðrás er skipt niður í hluti þess.

Þessi tegund aðskilnaðar gæti í framtíðinni verið fáanleg sem neysluvara í snjallsjónvörpum sem innihalda mjög bjartsýni ályktunarnet, þó að það virðist líklegt að snemma útfærslur þyrftu nokkurn tíma forvinnslutíma og geymslupláss. Samsung nú þegar notar staðbundin tauganet til að auka skala, en Sony Hugrænn örgjörvi XR, notað í Bravia svið fyrirtækisins, greiningar og endurtúlkar hljóðrás á lifandi grunni með léttri samþættri gervigreind.

Kallar á meiri stjórn á blöndun hljóðrásar endurtaka sig reglulega, og flest lausnir í boði verða að takast á við þá staðreynd að hljóðrásin hefur þegar verið skoppuð niður í samræmi við gildandi staðla (og forsendur um hvað áhorfendur vilja) í kvikmynda- og sjónvarpsbransanum.

Einn áhorfandi, sem var pirraður yfir átakanlegu misræmi hljóðstyrks milli ýmissa þátta kvikmyndatóna, varð nógu örvæntingarfullur til að þróa vélbúnaðarbundinn sjálfvirkur hljóðstyrksstillir sem getur jöfnunarrúmmál fyrir kvikmyndir og sjónvarp.

Þó að snjallsjónvörp bjóði upp á a fjölbreytt úrval aðferða til að reyna að auka hljóðstyrk samræðna gegn stórkostlegu hljóðstyrk fyrir tónlist, eru þeir allir að berjast gegn ákvörðunum sem teknar eru á blöndunartímanum og, að öllum líkindum, sýn efnisframleiðenda sem vilja að áhorfendur upplifi hljóðrásina sína nákvæmlega eins og þeir voru settir upp.

Efnisframleiðendur virðast líklegir til að mótmæla þessari hugsanlegu viðbót við „endurblöndunarmenninguna“, þar sem nokkrir framleiðendur iðnaðarins hafa þegar lýst yfir óánægju gegn sjálfgefnum eftirvinnslu sjónvarpsbundnum reikniritum eins og hreyfisléttun.