výhonek Výzkum AI předpokládá samostatné ovládání hlasitosti pro dialogy, hudbu a zvukové efekty – Unite.AI
Spojte se s námi

Umělá inteligence

AI Research předpokládá samostatné ovládání hlasitosti pro dialog, hudbu a zvukové efekty

mm
aktualizováno on

Nová výzkumná spolupráce pod vedením Mitsubishi zkoumá možnost extrahování tří samostatných zvukových stop z originálního zvukového zdroje, přičemž zvukovou stopu rozloží na řeč, hudbu a zvukové efekty (tj. okolní hluk).

Vzhledem k tomu, že se jedná o rámec post-facto zpracování, nabízí potenciál pro pozdější generace platforem pro sledování multimédií, včetně spotřebitelského vybavení, nabízet tříbodové ovládání hlasitosti, což uživateli umožňuje zvýšit hlasitost dialogů nebo snížit hlasitost zvukové stopy. .

V krátkém klipu níže z doprovodného videa pro výzkum (viz konec článku pro celé video) vidíme různé aspekty zvukové stopy zdůrazněné, když uživatel přetáhne ovládací prvek přes trojúhelník s každou ze tří zvukových komponent v jednom rohu. :

Krátký sestřih z videa doprovázejícího článek (viz vložení na konci článku). Když uživatel přetáhne kurzor směrem k jedné ze tří extrahovaných faset v uživatelském rozhraní trojúhelníku (vpravo), zvuk zdůrazní tuto část tripartitního zvukového doprovodu. Ačkoli delší video uvádí řadu dalších příkladů na YouTube, zdá se, že v současné době nejsou k dispozici. Zdroj: https://vimeo.com/634073402

Projekt papír je oprávněn Problém koktejlové vidličky: Oddělení zvuku se třemi stopkami pro soundtracky ze skutečného světa, a pochází od výzkumných pracovníků z Mitsubishi Electric Research Laboratories (MERL) v Cambridge, MA a z katedry inženýrství inteligentních systémů na Indiana University v Illinois.

Oddělování částí soundtracku

Výzkumníci výzvu nazvali „The Cocktail Party Problem“, protože zahrnuje izolaci silně propletených prvků zvukové stopy, která vytváří plán připomínající rozcestí (viz obrázek níže). V praxi mohou mít vícekanálové (tj. stereo a více) zvukové stopy různé množství typů obsahu, jako jsou dialogy, hudba a prostředí, zejména proto, že dialogy mají tendenci dominují středovému kanálu v mixech Dolby 5.1. V současnosti však. velmi aktivní výzkumná oblast separace zvuku se soustřeďuje na zachycení těchto vláken z jediného, ​​vypečeného zvukového doprovodu, stejně jako současný výzkum.

The Cocktail Fork – odvození tří odlišných zvukových stop ze sloučené a jediné zvukové stopy. Zdroj: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork – odvození tří odlišných zvukových stop ze sloučené a jediné zvukové stopy. Zdroj: https://arxiv.org/pdf/2110.09958.pdf

Nedávný výzkum se soustředil na extrakci řeči v různých prostředích, často za účelem potlačení šumu řeči pro následné zapojení do systémů zpracování přirozeného jazyka (NLP), ale také na izolace archivních pěveckých hlasů, buď k vytvoření syntetických verzí skutečných (dokonce mrtvý) zpěváky, nebo usnadnit Hudební izolace ve stylu karaoke.

Soubor dat pro každý aspekt

K dnešnímu dni se málo zvažovalo použití tohoto druhu technologie AI, aby uživatelé měli větší kontrolu nad mixem zvukové stopy. Výzkumníci proto tento problém formalizovali a vytvořili nový soubor dat jako pomůcku pro pokračující výzkum separace více typů zvukových stop a také jej otestovali na různých existujících systémech pro separaci zvuku.

Nový datový soubor, který autoři vyvinuli, se nazývá Divide and Remaster (DnR) a je odvozen z předchozích datových sad LibriSpeech, Volný hudební archiv a Freesound Dataset 50k (FSD50K). Pro ty, kteří chtějí pracovat s DnR od nuly, musí být soubor dat rekonstruován ze tří zdrojů; jinak bude brzy zpřístupněn na Zenodo, tvrdí autoři. V době psaní tohoto článku však za předpokladu Odkaz na GitHub pro těžbu zdrojů není aktuálně aktivní, takže zájemci možná budou muset chvíli počkat.

Výzkumníci zjistili, že CrossNet un-mix (XUMX) architektura navržená společností Sony v květnu zvláště dobře funguje s DnR.

Architektura CrossNet společnosti Sony.

Architektura CrossNet společnosti Sony.

Autoři tvrdí, že jejich modely extrakce strojového učení fungují dobře na zvukových stopách z YouTube, i když hodnocení prezentovaná v článku jsou založena na syntetických datech a dodané hlavní doprovodné video (vložené níže) je v současné době jediné, které se zdá být dostupné.

Každá ze tří použitých datových sad obsahuje sbírku toho druhu výstupu, který je třeba oddělit od zvukové stopy: FSD50K je obsazený zvukovými efekty a obsahuje 50,000 44.1 200 kHz mono zvukových klipů označených 100,000 štítky třídy z ontologie AudioSet společnosti Google; Free Music Archive obsahuje 161 25,000 stereo skladeb pokrývajících 50 hudebních žánrů, ačkoli autoři použili podmnožinu obsahující 100 44.1 skladeb pro paritu s FSD3K; a LibriSpeech poskytuje DnR XNUMX hodin ukázek zvukových knih jako XNUMX kHz mpXNUMX zvukové soubory.

Budoucí práce

Autoři očekávají další práci na datové sadě a kombinaci samostatných modelů vyvinutých pro další výzkum rámců rozpoznávání řeči a klasifikace zvuků, které zahrnují automatické generování titulků pro řečové a neřečové zvuky. Mají také v úmyslu vyhodnotit možnosti remixovacích přístupů, které mohou snížit vjemové artefakty, což zůstává hlavním problémem při rozdělování sloučené zvukové stopy do jejích základních složek.

Tento druh oddělení by mohl být v budoucnu dostupný jako spotřební zboží v chytrých televizích, které obsahují vysoce optimalizované inferenční sítě, i když se zdá pravděpodobné, že rané implementace by vyžadovaly určitou úroveň času na předběžné zpracování a úložného prostoru. Samsung již použití místní neuronové sítě pro upscaling, zatímco Sony Kognitivní procesor XR, používané v sortimentu společnosti Bravia, analýzy a reinterpretuje soundtracky naživo prostřednictvím lehké integrované umělé inteligence.

Vyžaduje větší kontrolu nad mixem zvukové stopy periodicky opakovat, a většina z nabízená řešení se musí vypořádat se skutečností, že zvuková stopa již byla odražena v souladu se současnými standardy (a předpoklady o tom, co diváci chtějí) ve filmovém a televizním průmyslu.

Jeden divák, rozrušený šokujícím rozdílem úrovní hlasitosti mezi různými prvky filmových soundtracků, byl natolik zoufalý, že Rozvíjet hardwarový automatický regulátor hlasitosti schopný vyrovnání hlasitosti pro filmy a TV.

Přestože chytré televizory nabízejí a rozmanitá škála metod ve snaze zvýšit hlasitost dialogů proti grandiózním úrovním hlasitosti hudby se všichni potýkají s rozhodnutími učiněnými v době míchání a pravděpodobně s vizemi producentů obsahu, kteří si přejí, aby publikum prožívalo jejich zvukové stopy přesně tak, jak byly nastaveny.

Zdá se, že producenti obsahu se pravděpodobně postaví proti tomuto potenciálnímu rozšíření „kultury remixů“, protože několik významných osobností z oboru již vyjádřilo nespokojenost s výchozími algoritmy následného zpracování na TV. jako je vyhlazování pohybu.