Angolo di Anderson

La ricerca sull’intelligenza artificiale prevede controlli del volume separati per dialogo, musica e effetti sonori

mm

Una nuova collaborazione di ricerca guidata da Mitsubishi indaga sulla possibilità di estrarre tre soundtrack separati da una fonte audio originale, dividendo la traccia audio in discorso, musica ed effetti sonori (ad esempio rumore ambientale).

Poiché si tratta di un framework di elaborazione post-fatto, offre potenziali vantaggi per le future generazioni di piattaforme multimediali, compresi i dispositivi consumer, per offrire controlli del volume a tre punti, consentendo all’utente di aumentare il volume del dialogo o ridurre il volume di una colonna sonora.

Nel breve clip qui sotto dal video che accompagna la ricerca (vedi fine dell’articolo per il video completo), vediamo diversi aspetti della colonna sonora enfatizzati mentre l’utente trascina un controllo su un triangolo con ciascuno dei tre componenti audio in un angolo:

Un breve clip dal video che accompagna il paper (vedi embed a fine articolo). Mentre l’utente trascina il cursore verso uno degli tre aspetti estratti nel triangolo UI (a destra), l’audio enfatizza quella parte della colonna sonora tripartita. Sebbene il video più lungo citi una serie di ulteriori esempi su YouTube, questi sembrano attualmente non disponibili. Fonte: https://vimeo.com/634073402

Il paper è intitolato The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks e proviene da ricercatori dei Mitsubishi Electric Research Laboratories (MERL) di Cambridge, MA, e del Dipartimento di Ingegneria dei Sistemi Intelligenti dell’Università dell’Indiana a Illinois.

Separazione degli aspetti di una colonna sonora

I ricercatori hanno definito la sfida ‘The Cocktail Party Problem’ perché coinvolge l’isolamento di elementi fortemente intrecciati di una colonna sonora, creando una mappa che assomiglia a una forchetta (vedi immagine qui sotto). Nella pratica, le colonne sonore multicanale (ad esempio stereo e più) possono avere quantità diverse di tipi di contenuti, come dialogo, musica e atmosfera, in particolare poiché il dialogo tende a dominare il canale centrale nelle miscele Dolby 5.1. Al momento, tuttavia, il campo di ricerca molto attivo della separazione audio si concentra sull’estrazione di questi fili da una colonna sonora unica e “cotta”, come fa la ricerca attuale.

The Cocktail Fork – derivazione di tre colonne sonore distinte da una colonna sonora unica e combinata. Fonte: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork – derivazione di tre colonne sonore distinte da una colonna sonora unica e combinata. Fonte: https://arxiv.org/pdf/2110.09958.pdf

Le ricerche recenti si sono concentrate sull’estrazione del discorso in vari ambienti, spesso per scopi di denoising del discorso audio per il successivo coinvolgimento con i sistemi di Elaborazione del Linguaggio Naturale (NLP), ma anche sull’isolamento delle voci cantate d’archivio, sia per creare versioni sintetiche di cantanti reali (anche morti), sia per facilitare l’isolamento della musica in stile Karaoke.

Un set di dati per ogni aspetto

Finora, poca considerazione è stata data all’uso di questo tipo di tecnologia AI per dare agli utenti più controllo sulla miscela di una colonna sonora. Pertanto, i ricercatori hanno formalizzato il problema e generato un nuovo set di dati come aiuto per la ricerca continua sulla separazione delle colonne sonore multitype, nonché testandolo su vari framework di separazione audio esistenti.

Il nuovo set di dati che gli autori hanno sviluppato si chiama Divide and Remaster (DnR) e deriva da set di dati precedenti LibriSpeech, Free Music Archive e il Freesound Dataset 50k (FSD50K). Per coloro che desiderano lavorare con DnR da zero, il set di dati deve essere ricostruito dalle tre fonti; altrimenti, sarà presto reso disponibile su Zenodo, affermano gli autori. Tuttavia, al momento della stesura, il link GitHub fornito per le utility di estrazione delle fonti non è attualmente attivo, quindi coloro che sono interessati potrebbero dover aspettare un po’.

I ricercatori hanno scoperto che l’architettura CrossNet un-mix (XUMX) proposta da Sony in maggio funziona particolarmente bene con DnR.

Architettura audio CrossNet di Sony.

Architettura audio CrossNet di Sony.

Gli autori affermano che i loro modelli di estrazione di apprendimento automatico funzionano bene sulle colonne sonore di YouTube, sebbene le valutazioni presentate nel paper si basino su dati sintetici e il video principale fornito (incluso qui sotto) sia attualmente l’unico che sembra essere disponibile.

I tre set di dati utilizzati comprendono ciascuno una raccolta del tipo di output che deve essere separato da una colonna sonora: FSD50K è occupato con effetti sonori e presenta 50.000 clip audio mono a 44,1 kHz con 200 etichette di classe dell’ontologia AudioSet di Google; il Free Music Archive presenta 100.000 canzoni stereo che coprono 161 generi musicali, sebbene gli autori abbiano utilizzato un subset contenente 25.000 canzoni, per parità con FSD50K; e LibriSpeech fornisce a DnR 100 ore di campioni audio di libri come file audio mp3 a 44,1 kHz.

Lavori futuri

Gli autori prevedono ulteriori lavori sul set di dati e una combinazione dei modelli separati sviluppati per ulteriori ricerche sui framework di riconoscimento del discorso e classificazione dei suoni, con generazione automatica di didascalie per discorso e suoni non discorsivi. Hanno anche intenzione di valutare le possibilità di approcci di remixing che possono ridurre gli artefatti percettivi, che rimane il problema centrale quando si divide una colonna sonora audio combinata nei suoi componenti costituenti.

Questo tipo di separazione potrebbe in futuro essere disponibile come commodity per i consumatori nei televisori intelligenti che incorporano reti di inferenza altamente ottimizzate, sebbene sembri probabile che le implementazioni iniziali richiedano un certo livello di tempo di pre-elaborazione e spazio di archiviazione. Samsung già utilizza reti neurali locali per l’upsampling, mentre il Cognitive Processor XR di Sony, utilizzato nella gamma Bravia, analizza e reinterpreti le colonne sonore in tempo reale tramite AI integrate leggere.

Le richieste di un maggiore controllo sulla miscela di una colonna sonora si ripetono periodicamente, e la maggior parte delle soluzioni offerte devono fare i conti con il fatto che la colonna sonora è già stata “bounciata” in conformità con gli standard attuali (e le presunzioni su ciò che gli spettatori desiderano) nell’industria cinematografica e televisiva.

Un utente, infastidito dalla scioccante disparità dei livelli di volume tra gli elementi diversi delle colonne sonore dei film, è diventato così disperato da sviluppare un regolatore di volume automatico basato su hardware in grado di equalizzare il volume per film e TV.

Sebbene i televisori intelligenti offrano una gamma diversificata di metodi per tentare di amplificare il volume del dialogo contro i livelli di volume grandiosi per la musica, stanno lottando tutti contro le decisioni prese al momento del mixing e, argomentano, le visioni dei produttori di contenuti che desiderano che il pubblico esperisca le loro colonne sonore esattamente come sono state impostate.

I produttori di contenuti sembrano probabili a irritarsi contro questo potenziale aggiunta alla ‘cultura del remix’, poiché diversi luminari dell’industria hanno già espresso il loro dissenso contro algoritmi di post-elaborazione TV predefiniti come il motion smoothing.

https://vimeo.com/634073402

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.