Vernetzen Sie sich mit uns

Künstliche Intelligenz

KI-Forschung sieht separate Lautstärkeregelung für Dialoge, Musik und Soundeffekte vor

mm

Eine neue Forschungskooperation unter der Leitung von Mitsubishi untersucht die Möglichkeit, drei separate Soundtracks aus einer Original-Audioquelle zu extrahieren und den Audiotrack in Sprache, Musik und Soundeffekte (dh Umgebungsgeräusche) zu zerlegen.

Da es sich um ein Post-facto-Verarbeitungs-Framework handelt, bietet es für spätere Generationen von Multimedia-Anzeigeplattformen, einschließlich Verbrauchergeräten, die Möglichkeit, Dreipunkt-Lautstärkeregelungen anzubieten, die es dem Benutzer ermöglichen, die Lautstärke von Dialogen zu erhöhen oder die Lautstärke eines Soundtracks zu verringern .

Im folgenden kurzen Clip aus dem begleitenden Video zur Recherche (das vollständige Video finden Sie am Ende des Artikels) sehen wir, wie verschiedene Facetten des Soundtracks hervorgehoben werden, wenn der Benutzer ein Steuerelement über ein Dreieck zieht, wobei sich jede der drei Audiokomponenten in einer Ecke befindet :

Ein kurzer Ausschnitt aus dem Video zum Artikel (siehe Einbettung am Ende des Artikels). Wenn der Benutzer den Cursor zu einer der drei extrahierten Facetten in der Dreiecks-Benutzeroberfläche (rechts) zieht, wird dieser Teil des dreiteiligen Soundtracks durch den Ton hervorgehoben. Obwohl das längere Video eine Reihe zusätzlicher Beispiele auf YouTube zitiert, scheinen diese derzeit nicht verfügbar zu sein. Quelle: https://vimeo.com/634073402

Die Krepppapier ist berechtigt Das Problem der Cocktailgabel: Dreistufige Audiotrennung für Soundtracks aus der realen Welt, und stammt von Forschern der Mitsubishi Electric Research Laboratories (MERL) in Cambridge, MA, und der Abteilung für Intelligente Systemtechnik der Indiana University in Illinois.

Facetten eines Soundtracks trennen

Die Forscher haben die Herausforderung „Das Cocktailparty-Problem“ genannt, weil es darum geht, stark verflochtene Elemente eines Soundtracks zu isolieren, wodurch eine Roadmap entsteht, die einer Gabelung ähnelt (siehe Abbildung unten). In der Praxis können Mehrkanal-Soundtracks (d. h. Stereo und mehr) unterschiedliche Mengen an Inhalten enthalten, wie Dialoge, Musik und Ambiente, insbesondere da Dialoge dazu neigen, dominieren den Mittelkanal in Dolby 5.1-Mischungen. Derzeit jedoch. Das sehr aktive Forschungsgebiet der Audiotrennung konzentriert sich wie die aktuelle Forschung darauf, diese Stränge aus einem einzigen, gebackenen Soundtrack zu erfassen.

The Cocktail Fork – Ableitung von drei unterschiedlichen Soundtracks aus einem zusammengeführten und einzigen Soundtrack. Quelle: https://arxiv.org/pdf/2110.09958.pdf

The Cocktail Fork – Ableitung von drei unterschiedlichen Soundtracks aus einem zusammengeführten und einzigen Soundtrack. Quelle: https://arxiv.org/pdf/2110.09958.pdf

Neuere Forschungen haben sich auf das Extrahieren von Sprache in verschiedenen Umgebungen konzentriert, oft zum Zweck der Rauschunterdrückung von Sprachaudio für die spätere Nutzung von Systemen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), aber auch auf die Isolierung von archivierten Gesangsstimmen, entweder um synthetische Versionen von echten (sogar tot) Sänger, oder zu erleichtern Musikisolation im Karaoke-Stil.

Ein Datensatz für jede Facette

Bisher gibt es kaum Überlegungen, diese Art von KI-Technologie einzusetzen, um Benutzern mehr Kontrolle über den Mix eines Soundtracks zu geben. Aus diesem Grund haben die Forscher das Problem formalisiert und einen neuen Datensatz erstellt, der die laufende Forschung zur Trennung mehrerer Tonspuren unterstützt und ihn auf verschiedenen bestehenden Audio-Trennungs-Frameworks testet.

Der neue Datensatz, den die Autoren entwickelt haben, heißt Teilen und remastern (DnR) und wird aus früheren Datensätzen abgeleitet LibriSpeech, Kostenloses Musikarchiv und der Freesound-Datensatz 50k (FSD50K). Für diejenigen, die mit DnR von Grund auf arbeiten möchten, muss der Datensatz aus den drei Quellen rekonstruiert werden; andernfalls werde es in Kürze bei Zenodo verfügbar sein, behaupten die Autoren. Zum Zeitpunkt des Verfassens dieses Artikels war jedoch das bereitgestellte GitHub-Link für Dienstprogramme zur Quellenextraktion ist derzeit nicht aktiv, daher müssen Interessierte möglicherweise eine Weile warten.

Die Forscher haben herausgefunden, dass die CrossNet-Entmischung (XUMX)-Architektur, die Sony im Mai vorgeschlagen hat, funktioniert besonders gut mit DnR.

Die CrossNet-Architektur von Sony.

Sonys CrossNet-Architektur.

Die Autoren behaupten, dass ihre Extraktionsmodelle für maschinelles Lernen gut mit Soundtracks von YouTube funktionieren, obwohl die in der Arbeit vorgestellten Bewertungen auf synthetischen Daten basieren und das bereitgestellte Hauptunterstützungsvideo (unten eingebettet) derzeit das einzige ist, das verfügbar zu sein scheint.

Die drei verwendeten Datensätze umfassen jeweils eine Sammlung der Art von Ausgabe, die von einem Soundtrack getrennt werden muss: FSD50K beschäftigt sich mit Soundeffekten und enthält 50,000 44.1-kHz-Mono-Audioclips, die mit 200 Klassenbezeichnungen aus der AudioSet-Ontologie von Google versehen sind. Das Free Music Archive enthält 100,000 Stereolieder aus 161 Musikgenres, wobei die Autoren aus Gründen der Parität mit FSD25,000K eine Teilmenge mit 50 Liedern verwendet haben. Und LibriSpeech stellt DnR 100 Stunden Hörbuchbeispiele als 44.1-kHz-MP3-Audiodateien zur Verfügung.

Future Work

Die Autoren erwarten weitere Arbeiten am Datensatz und eine Kombination der einzelnen Modelle, die für weitere Forschungen zu Spracherkennungs- und Klangklassifizierungsrahmen entwickelt wurden, einschließlich der automatischen Untertitelgenerierung für Sprach- und Nicht-Sprachlaute. Sie wollen außerdem Möglichkeiten für Remixing-Ansätze evaluieren, die Wahrnehmungsartefakte reduzieren können, die nach wie vor das zentrale Problem bei der Aufteilung eines zusammengeführten Audio-Soundtracks in seine Bestandteile sind.

Diese Art der Trennung könnte in Zukunft als Verbraucherprodukt in Smart-TVs mit hochoptimierten Inferenznetzwerken verfügbar sein, obwohl es wahrscheinlich ist, dass frühe Implementierungen ein gewisses Maß an Vorverarbeitungszeit und Speicherplatz erfordern würden. Samsung schon verwendet lokale neuronale Netzwerke für die Hochskalierung, während Sonys Kognitiver Prozessor XR, das in der Bravia-Reihe des Unternehmens verwendet wird, analysiert und neu interpretiert Soundtracks auf Live-Basis über leichte integrierte KI.

Fordert eine größere Kontrolle über die Mischung eines Soundtracks wiederkehren periodischund die meisten der Lösungen angeboten Ich muss mich mit der Tatsache auseinandersetzen, dass der Soundtrack bereits gemäß den aktuellen Standards (und Annahmen darüber, was die Zuschauer wollen) in der Film- und Fernsehbranche angepasst wurde.

Ein Zuschauer war verärgert über die schockierende Ungleichheit der Lautstärken verschiedener Elemente von Filmsoundtracks und geriet in Verzweiflung entwickeln ein hardwarebasierter automatischer Lautstärkeregler, der dazu in der Lage ist Lautstärke ausgleichen für Filme und Fernsehen.

Obwohl Smart-TVs eine bieten vielfältiges Methodenspektrum Beim Versuch, die Dialoglautstärke im Vergleich zu den grandiosen Lautstärkepegeln für die Musik zu erhöhen, kämpfen sie alle mit den Entscheidungen, die beim Mischen getroffen werden, und wohl auch mit den Visionen der Inhaltsproduzenten, die möchten, dass das Publikum ihre Soundtracks genau so erlebt, wie sie zusammengestellt wurden.

Die Produzenten von Inhalten werden sich wahrscheinlich über diesen potenziellen Beitrag zur „Remix-Kultur“ ärgern, da mehrere Branchengrößen bereits ihre Unzufriedenheit über die standardmäßigen Nachbearbeitungsalgorithmen für Fernsehsendungen zum Ausdruck gebracht haben. wie Bewegungsglättung.

 

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai