Umělá inteligence

Výzkum AI předpokládá samostatné ovládání hlasitosti pro dialog, hudbu a zvukové efekty

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

Nová výzkumná spolupráce vedená Mitsubishi zkoumá možnost extrahování tří samostatných zvukových stop z původního audiozdroje, rozdělení audio stop na řeč, hudbu a zvukové efekty (tj. ambientní šum).

Jelikož se jedná o post-faktum zpracování, nabízí potenciál pro pozdější generace multimediálních přehrávačů, včetně spotřební elektroniky, nabízet tříbodové ovládání hlasitosti, umožňující uživateli zvýšit hlasitost dialogu nebo snížit hlasitost soundtracku.

V krátkém klipu níže z doprovodného videa k výzkumu (viz konec článku pro kompletní video), vidíme různé aspekty soundtracku, které jsou zdůrazněny, když uživatel táhne ovladač přes trojúhelník s třemi audio komponentami v jednom rohu:

Krátký klip z videa doprovázejícího článek (viz vložené na konci článku). Když uživatel táhne kurzor směrem k jedné ze tří extrahovaných aspektů v trojúhelníkovém rozhraní (vpravo), audio zdůrazňuje tuto část tripartitní soundtracku. Ačkoli delší video cita řadu dalších příkladů na YouTube, tyto目前 nejsou k dispozici. Source: https://vimeo.com/634073402

Článek The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks pochází od výzkumníků z Mitsubishi Electric Research Laboratories (MERL) v Cambridge, MA, a oddělení Inteligentních systémů inženýrství na Indiana University v Illinois.

Oddělení aspektů soundtracku

Výzkumníci označili tuto výzvu jako “Cocktail Party Problem”, protože se jedná o izolaci silně propletených prvků soundtracku, což vytváří mapu podobnou vidliče (viz obrázek níže). V praxi mohou multi-kanálové (tj. stereo a více) soundtracky mít různé množství typů obsahu, jako je dialog, hudba a ambience, zejména protože dialog tends to dominovat středový kanál v Dolby 5.1 mixech. V současné době však velmi aktivní výzkumné pole audio separace se soustředí na zachycení těchto vláken z jednoho, pečeného soundtracku, stejně jako aktuální výzkum.

The Cocktail Fork – odvození tří samostatných soundtracků z jednoho spojeného soundtracku. Source: https://arxiv.org/pdf/2110.09958.pdf

Recentní výzkum se soustředil na extrahování řeči v různých prostředích, často pro účely odstranění šumu z řečového audio pro následné zapojení s Natural Language Processing (NLP) systémy, ale také na izolaci archivních zpěvů, buď pro vytvoření syntetických verzí skutečných (i mrtvých) zpěváků, nebo pro usnadnění Karaoke-style hudby izolace.

Dataset pro každý aspekt

Do současnosti nebyla věnována dostatečná pozornost použití této technologie AI pro poskytování uživatelům větší kontroly nad mixem soundtracku. Proto výzkumníci formalizovali problém a vytvořili nový dataset jako pomoc pro pokračující výzkum do multi-typu soundtrack separace, jakož i testování jej na různých existujících audio separačních rámcích.

Nový dataset, který autoři vyvinuli, se nazývá Divide and Remaster (DnR), a je odvozen z předchozích datasetů LibriSpeech, Free Music Archive a Freesound Dataset 50k (FSD50K). Pro ty, kteří chtějí pracovat s DnR od začátku, musí být dataset rekonstruován ze tří zdrojů; jinak bude brzy k dispozici na Zenodo, tvrdí autoři. Nicméně, v době psaní, poskytnutý GitHub link pro zdroj extrahování utilit není v současné době aktivní, takže ti, kteří jsou intéressovaní, mohou muset počkat chvíli.

Výzkumníci zjistili, že architektura CrossNet un-mix (XUMX) navržená Sony v květnu funguje zvláště dobře s DnR.

Sony’s CrossNet architektura.

Autoři tvrdí, že jejich modely strojového učení pro extrakci fungují dobře na soundtracky z YouTube, ačkoli hodnocení prezentovaná v článku jsou založena na syntetických datech, a dodaný hlavní podpůrný video (vložený níže) je v současné době jediné, které parece být k dispozici.

Tři datové sady použité každý sestávají z kolekce typu výstupu, který potřebuje být oddělen od soundtracku: FSD50K je obsazený se zvukovými efekty a obsahuje 50 000 44,1 kHz mono audio klipů označených s 200 třídami z Google’s AudioSet ontologie; Free Music Archive obsahuje 100 000 stereo písní pokrývajících 161 hudebních žánrů, ačkoli autoři použili podmnožinu obsahující 25 000 písní, pro shodu s FSD50K; a LibriSpeech poskytuje DnR s 100 hodinami audio knihovních vzorků jako 44,1kHz mp3 audio soubory.

Budoucí práce

Autoři předpokládají další práci na datasetu a kombinaci samostatných modelů vyvinutých pro další výzkum do rámců rozpoznávání řeči a klasifikace zvuku, s funkcí automatické generace titulků pro řeč a ne-řeč zvuky. Také hodlají vyhodnotit možnosti pro remixovací přístupy, které mohou snížit percepční artefakty, což zůstává centrálním problémem při dělení spojeného audio soundtracku na jeho složené komponenty.

Tento typ separace by mohl v budoucnu být k dispozici jako spotřební komodita v inteligentních televizorech, které zahrnují vysoce optimalizované inferenční sítě, ačkoli se zdá, že rané implementace by potřebovaly jistou úroveň předzpracování času a úložného prostoru. Samsung již používá lokální neuronové sítě pro upscale, zatímco Sony’s Cognitive Processor XR, použitý v společnosti Bravia řadu, analyzuje a reinterpretuje soundtracky v reálném čase prostřednictvím integrované AI.

Volání po větší kontrole nad mixem soundtracku se opakují periodicky, a většina řešení nabízených musí řešit fakt, že soundtrack byl již zmísen v souladu s aktuálními standardy (a předpoklady o tom, co diváci chtějí) v filmovém a televizním průmyslu.

Jeden divák, znepokojený šokujícím rozdílem úrovní hlasitosti mezi různými prvky filmových soundtracků, se stal natolik zoufalým, že vyvinul hardwarově založený automatický regulátor hlasitosti, schopný vyrovnat hlasitost pro filmy a TV.

Ačkoli inteligentní televizory nabízejí různé metody pro pokus o zvýšení hlasitosti dialogu proti velkolepým úrovním hlasitosti pro hudbu, všechny bojují proti rozhodnutím učiněným v době mixování, a, argumentovatelně, vize producentů obsahu, kteří chtějí, aby publika zažila jejich soundtracky přesně tak, jak byly nastaveny.

Producenti obsahu se zdají být pravděpodobně znepokojení touto potenciální adicionální funkcí “remix kultury”, protože několik průmyslových luminářů již vyjádřilo nespokojenost s výchozím post-procesním TV-algoritmy jako motion smoothing.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Výzkum AI předpokládá samostatné ovládání hlasitosti pro dialog, hudbu a zvukové efekty

Oddělení aspektů soundtracku

Dataset pro každý aspekt

Budoucí práce

You may like