csonk Az AI-kutatás külön hangerőszabályzót irányoz elő a párbeszédablakhoz, a zenéhez és a hangeffektusokhoz – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az AI-kutatás külön hangerőszabályzót irányoz elő a párbeszéd-, a zene- és a hangeffektusokhoz

mm
korszerűsített on

A Mitsubishi által vezetett új kutatási együttműködés három különálló hangsáv kinyerésének lehetőségét vizsgálja egy eredeti hangforrásból, a hangsávot beszédre, zenére és hangeffektusokra (azaz környezeti zajra) bontva.

Mivel ez egy utólagos feldolgozási keret, lehetőséget kínál a multimédiás megtekintési platformok későbbi generációi számára, beleértve a fogyasztói berendezéseket is, hogy hárompontos hangerőszabályzót kínáljanak, lehetővé téve a felhasználó számára a párbeszéd hangerejének növelését vagy a hangsáv hangerejének csökkentését. .

Az alábbi rövid klipben a kutatáshoz mellékelt videóból (a teljes videóért lásd a cikk végét) láthatjuk, hogy a hangsáv különböző aspektusai kerülnek kihangsúlyozásra, ahogy a felhasználó egy vezérlőt húz egy háromszögön, ahol a három audiokomponens mindegyike az egyik sarokban van. :

Egy rövid részlet a lapot kísérő videóból (lásd a cikk végén a beágyazást). Miközben a felhasználó a kurzort a három kivont felület egyike felé húzza a háromszög felhasználói felületen (jobb oldalon), a hang kiemeli a háromoldalú hangsávnak ezt a részét. Bár a hosszabb videó számos további példát idéz a YouTube-on, ezek jelenleg nem elérhetők. Forrás: https://vimeo.com/634073402

A papír jogosult A koktélvilla probléma: Három szárú hangelválasztás a valós hangsávokhoz, és a Cambridge-i Mitsubishi Electric Research Laboratories (MERL) és az illinoisi Indiana Egyetem Intelligens Rendszermérnöki Tanszékének kutatóitól származik.

A hangsáv szempontjainak elválasztása

A kutatók a kihívást „The Cocktail Party Problem”-nek nevezték el, mivel ez magában foglalja a hangsáv erősen összefonódott elemeinek elkülönítését, ami egy villára emlékeztető ütemtervet hoz létre (lásd az alábbi képet). A gyakorlatban a többcsatornás (azaz sztereó és több) hangsávok különböző típusú tartalommal rendelkezhetnek, mint például párbeszéd, zene és hangulat, különösen mivel a párbeszéd hajlamos uralják a középső csatornát Dolby 5.1 mixekben. Jelenleg azonban. A hangszétválasztás nagyon aktív kutatási területe a jelenlegi kutatáshoz hasonlóan ezen szálak egyetlen, sült hangsávból történő rögzítésére koncentrál.

The Cocktail Fork – három különálló filmzene egy egyesített és egyetlen hangsávból. Forrás: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork – három különálló filmzene egy egyesített és egyetlen hangsávból. Forrás: https://arxiv.org/pdf/2110.09958.pdf

A legújabb kutatások a beszéd különböző környezetekben történő kinyerésére összpontosítottak, gyakran abból a célból, hogy a beszédhang zajtalanítását a Natural Language Processing (NLP) rendszerekkel való későbbi kapcsolódás érdekében, valamint a szigetelés archív énekhangok, akár a valódi (sőt halott) énekesek, vagy megkönnyíteni Karaoke stílusú zenei elszigeteltség.

Adatkészlet minden szemponthoz

A mai napig kevés figyelmet szenteltek ennek a fajta mesterséges intelligencia technológiának annak érdekében, hogy a felhasználók jobban irányítsák a hangsávok keverését. Ezért a kutatók formalizálták a problémát, és létrehoztak egy új adatkészletet a többtípusú hangsáv-elválasztással kapcsolatos, folyamatban lévő kutatások segítőjeként, valamint különféle meglévő hangleválasztási keretrendszereken történő tesztelés céljából.

A szerzők által kidolgozott új adatkészlet az ún Divide and Remaster (DnR), és korábbi adatkészletekből származik LibriSpeech, Ingyenes zenei archívum és a Freesound Dataset 50k (FSD50K). Azok számára, akik a DnR-rel a semmiből szeretnének dolgozni, az adatkészletet a három forrásból kell rekonstruálni; ellenkező esetben hamarosan elérhető lesz a Zenodóban, állítják a szerzők. A cikk írásakor azonban a biztosított GitHub link A forráskinyerési segédprogramok jelenleg nem aktívak, így az érdeklődőknek várniuk kell egy kicsit.

A kutatók azt találták, hogy a CrossNet un-mix (XUMX) a Sony által májusban javasolt architektúra különösen jól működik a DnR-rel.

A Sony CrossNet architektúrája.

A Sony CrossNet architektúrája.

A szerzők azt állítják, hogy gépi tanulási kinyerési modelljeik jól működnek a YouTube-ról származó hangsávokon, bár a cikkben bemutatott értékelések szintetikus adatokon alapulnak, és a mellékelt fő támogató videó (beágyazva) jelenleg az egyetlen, amely elérhetőnek tűnik.

A három felhasznált adatkészlet egy-egy olyan kimeneti gyűjteményt tartalmaz, amelyet el kell választani a hangsávtól: az FSD50K hangeffektusokkal van lefoglalva, és 50,000 44.1 200 kHz-es monó hangfelvételt tartalmaz, amelyek 100,000 osztálycímkével vannak ellátva a Google AudioSet ontológiájából; a Free Music Archive 161 25,000 sztereó dalt tartalmaz, amelyek 50 zenei műfajt fednek le, bár a szerzők egy 100 44.1 dalt tartalmazó részhalmazt használtak, az FSD3K-val való egyenlőség érdekében; A LibriSpeech pedig XNUMX órányi hangoskönyv-mintát biztosít a DnR-nek XNUMX kHz-es mpXNUMX hangfájlként.

Jövőbeni munka

A szerzők további munkát várnak az adathalmazon és a beszédfelismerési és hangosztályozási keretrendszerek további kutatására kifejlesztett különálló modellek kombinációján, amelyek automatikus feliratgenerálást tartalmaznak a beszéd és nem beszédhangok számára. Szándékuk az is, hogy értékeljék a remixelési megközelítések lehetőségeit, amelyek csökkenthetik az észlelési műtermékeket, ami továbbra is a központi probléma, amikor az egyesített hangsávot alkotóelemekre osztják fel.

Ez a fajta szétválasztás a jövőben fogyasztási cikkként elérhető lehet a rendkívül optimalizált következtetési hálózatokat magában foglaló okostévékben, bár valószínűnek tűnik, hogy a korai megvalósítások bizonyos szintű előfeldolgozási időt és tárhelyet igényelnek. Samsung már használ helyi neurális hálózatok a felskálázáshoz, míg a Sonyé Kognitív processzor XR, a cég Bravia kínálatában használt, elemzések és újraértelmezi hangsávok élő adásban a könnyű integrált mesterséges intelligencia segítségével.

Nagyobb ellenőrzést igényel a hangsáv keveréke felett időszakosan ismétlődik, és a legtöbb kínált megoldásokat meg kell küzdeniük azzal a ténnyel, hogy a filmzenét már a jelenlegi szabványoknak (és a nézők elvárásaira vonatkozó feltételezéseknek) megfelelően visszaverték a film- és tévéiparban.

Az egyik néző, akit bosszantott a hangerőszintek megdöbbentő eltérése a filmzenék különböző elemei között, elég kétségbeesett ahhoz, hogy Fejleszt hardver alapú automatikus hangerőszabályzó, amely képes hangerő kiegyenlítése filmekhez és TV-hez.

Bár az okostévék a sokféle módszer A párbeszéd hangerejének növelésére a zene grandiózus hangereje mellett mindannyian küzdenek a keverés idején hozott döntésekkel, és vitathatatlanul a tartalomgyártók elképzeléseivel, amelyek azt szeretnék, hogy a közönség pontosan úgy élje meg a hangsávjukat, ahogyan beállították.

Úgy tűnik, hogy a tartalomgyártók felháborodnak a „remix-kultúra” ezen potenciális kiegészítése ellen, mivel számos iparági csúcs már elégedetlenségének adott hangot az alapértelmezett TV-alapú utófeldolgozási algoritmusokkal szemben. mint például a mozgássimítás.