Inteligență artificială

Cercetarea IA prevede controale de volum separate pentru dialog, muzică și efecte sonore

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

O nouă colaborare de cercetare condusă de Mitsubishi investighează posibilitatea extragerii a trei benzi sonore separate dintr-o sursă audio originală, descompunând banda audio în vorbire, muzică și efecte sonore (de exemplu, zgomot ambiental).

Deoarece acesta este un cadru de procesare post-facto, oferă potențial pentru generațiile viitoare de platforme de vizualizare multimedia, inclusiv echipamentele consumatorilor, pentru a oferi controale de volum cu trei puncte, permițând utilizatorului să ridice volumul dialogului sau să scadă volumul coloanei sonore.

În clipul scurt de mai jos, din videoclipul care însoțește cercetarea (a se vedea sfârșitul articolului pentru videoclipul complet), vedem diferite aspecte ale coloanei sonore evidențiate pe măsură ce utilizatorul trage un control de-a lungul unui triunghi cu cele trei componente audio într-un colț:

Un clip scurt din videoclipul care însoțește lucrarea (a se vedea încorporarea la sfârșitul articolului). Pe măsură ce utilizatorul trage cursorul spre una dintre cele trei aspecte extrase în interfața triunghiulară (în dreapta), sunetul evidențiază acea parte a coloanei sonore tripartite. Deși videoclipul mai lung citează o serie de exemple suplimentare de pe YouTube, acestea par să fie în prezent indisponibile. Source: https://vimeo.com/634073402

Articolul intitulat Problema Furculiței de Cocktail: Separarea Audio cu Trei Tulpini pentru Coloane Sonore din Lumea Reală, provine de la cercetători de la Laboratoarele de Cercetare Mitsubishi Electric (MERL) din Cambridge, MA, și Departamentul de Inginerie a Sistemelor Inteligente de la Universitatea din Indiana.

Separarea Aspectelor unei Coloane Sonore

Cercetătorii au denumit această provocare “Problema Petrecerii de Cocktail”, deoarece implică izolarea elementelor puternic împletite ale unei coloane sonore, ceea ce creează o hartă care semănă cu o furculiță (a se vedea imaginea de mai jos). În practică, coloanele sonore multicanal (de exemplu, stereo și mai mult) pot avea cantități diferite de tipuri de conținut, cum ar fi dialog, muzică și ambianță, în special deoarece dialogul tinde să domine canalul central în amestecurile Dolby 5.1. În prezent, cu toate acestea, domeniul foarte activ de cercetare al separării audio se concentrează pe capturarea acestor fire dintr-o coloană sonoră unică și “coaptă”, așa cum face și cercetarea actuală.

Furculița de Cocktail – derivarea a trei coloane sonore distincte dintr-o coloană sonoră unică și combinată. Source: https://arxiv.org/pdf/2110.09958.pdf

Cercetările recente s-au concentrat pe extragerea vorbirii în diverse medii, adesea în scopul denumirii audio a vorbirii pentru o implicare ulterioară cu sistemele de Procesare a Limbajului Natural (NLP), dar și pe izolarea vocilor de cântăreți din arhivă, fie pentru a crea versiuni sintetice ale cântăreților reali (chiar și morți), fie pentru a facilita izolarea muzicală în stil Karaoke.

Un Set de Date pentru Fiecare Aspect

Până în prezent, s-a acordat puțină atenție utilizării acestei tehnologii AI pentru a oferi utilizatorilor un control mai mare asupra amestecului unei coloane sonore. Prin urmare, cercetătorii au formalizat problema și au generat un nou set de date ca ajutor pentru cercetarea continuă privind separarea coloanelor sonore cu multiple tipuri, precum și testarea acesteia pe diverse cadre de separare audio existente.

Noul set de date pe care autorii l-au dezvoltat se numește Divide și Remaster (DnR), și este derivat din seturile de date anterioare LibriSpeech, Free Music Archive și Freesound Dataset 50k (FSD50K). Pentru cei care doresc să lucreze cu DnR de la zero, setul de date trebuie reconstruit din cele trei surse; în caz contrar, va fi disponibil în curând pe Zenodo, susțin autorii. Cu toate acestea, la momentul scrierii, legătura GitHub pentru utilitățile de extragere a surselor nu este în prezent activă, astfel că cei interesați pot trebui să aștepte o perioadă.

Cercetătorii au constatat că arhitectura CrossNet un-mix (XUMX) propusă de Sony în luna mai funcționează deosebit de bine cu DnR.

Arhitectura CrossNet a Sony.

Autorii susțin că modelele lor de extragere prin învățare automată funcționează bine pe coloane sonore de pe YouTube, deși evaluările prezentate în articol se bazează pe date sintetice, iar videoclipul principal care însoțește articolul (încorporat mai jos) este în prezent singurul care pare a fi disponibil.

Cele trei seturi de date utilizate conțin fiecare o colecție de tipul de ieșire care trebuie separat dintr-o coloană sonoră: FSD50K este ocupat cu efecte sonore și conține 50.000 de clipuri audio mono de 44,1 kHz etichetate cu 200 de etichete de clasă din ontologia AudioSet a Google; Free Music Archive conține 100.000 de cântece stereo care acoperă 161 de genuri muzicale, deși autorii au utilizat un subset care conține 25.000 de cântece, pentru paritate cu FSD50K; și LibriSpeech oferă DnR 100 de ore de mostre audio de cărți, sub formă de fișiere audio mp3 de 44,1 kHz.

Lucrări Viitoare

Autorii anticipează lucrări suplimentare asupra setului de date și o combinație a modelelor separate dezvoltate pentru cercetări suplimentare privind cadrele de recunoaștere a vorbirii și clasificarea sunetelor, care includ generarea automată de subtitrări pentru vorbire și sunete non-vorbire. Ei intenționează, de asemenea, să evalueze posibilitățile pentru abordări de remixare care pot reduce artefactele perceptive, ceea ce rămâne problema centrală atunci când se divide o coloană sonoră combinată în componentele sale constitutive.

Acest tip de separare ar putea fi disponibil în viitor ca o marfă pentru consumatori în televizoare inteligente care incorporează rețele de inferență foarte optimizate, deși pare probabil că implementările inițiale ar necesita un anumit nivel de timp de prelucrare și spațiu de stocare. Samsung folosește deja rețele neuronale locale pentru escaladare, în timp ce procesorul Cognitive Processor XR al Sony, utilizat în gama Bravia a companiei, analizează și reinterpretează coloane sonore în timp real prin intermediul unui AI integrat ușor.

Apelurile pentru un control mai mare asupra amestecului unei coloane sonore revin periodic, și majoritatea soluțiilor oferite trebuie să aibă de-a face cu faptul că coloana sonoră a fost deja redusă în conformitate cu standardele actuale (și presupunerile despre ceea ce doresc spectatorii) în industria filmelor și a televiziunii.

Un spectator, iritat de disparitatea izbitoare a nivelurilor de volum dintre diverse elemente ale coloanelor sonore ale filmelor, a devenit suficient de disperat pentru a dezvolta un ajustator automat de volum bazat pe hardware, capabil să egalizeze volumul pentru filme și programe de televiziune.

Deși televizoarele inteligente oferă o varietate de metode pentru a încerca să amplifice volumul dialogului împotriva nivelurilor de volum grandioase pentru muzică, ele luptă împotriva deciziilor luate la momentul amestecării, și, în mod evident, împotriva viziunilor producătorilor de conținut care doresc ca publicul să experimenteze coloanele sonore exact așa cum au fost stabilite.

Producătorii de conținut par să se opună probabil acestei posibile adăugări la “cultura remixului”, deoarece mai mulți luminari ai industriei au exprimat deja nemulțumire față de algoritmii de post-procesare TV bazati pe default, cum ar fi netezirea mișcării.

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.

Unite.AI

Cercetarea IA prevede controale de volum separate pentru dialog, muzică și efecte sonore

Separarea Aspectelor unei Coloane Sonore

Un Set de Date pentru Fiecare Aspect

Lucrări Viitoare

You may like