Inteligencia artificial
Investigación de IA que contempla controles de volumen separados para diálogo, música y efectos de sonido

Una nueva colaboración de investigación liderada por Mitsubishi investiga la posibilidad de extraer tres pistas de sonido separadas de una fuente de audio original, descomponiendo la pista de audio en habla, música y efectos de sonido (es decir, ruido ambiental).
Dado que este es un marco de procesamiento post-facto, ofrece potencial para que las generaciones posteriores de plataformas de visualización de multimedia, incluido el equipo de consumo, ofrezcan controles de volumen de tres puntos, lo que permite al usuario subir el volumen del diálogo o bajar el volumen de una banda sonora.
En el clip corto a continuación del video acompañante de la investigación (ver final del artículo para el video completo), vemos diferentes facetas de la banda sonora resaltadas a medida que el usuario arrastra un control sobre un triángulo con cada uno de los tres componentes de audio en una esquina:
Un clip corto del video que acompaña el documento (ver incrustación al final del artículo). A medida que el usuario arrastra el cursor hacia una de las tres facetas extraídas en la interfaz de usuario del triángulo (a la derecha), el audio enfatiza esa parte de la banda sonora tripartita. Aunque el video más largo cita una serie de ejemplos adicionales en YouTube, estos parecen estar actualmente no disponibles. Source: https://vimeo.com/634073402
El documento se titula El problema del tenedor de cóctel: separación de audio de tres tallos para bandas sonoras del mundo real, y proviene de investigadores de los Laboratorios de Investigación de Mitsubishi Electric (MERL) en Cambridge, MA, y el Departamento de Ingeniería de Sistemas Inteligentes de la Universidad de Indiana en Illinois.
Separar facetas de una banda sonora
Los investigadores han bautizado el desafío como ‘El problema de la fiesta de cóctel’ porque implica aislar elementos severamente entretejidos de una banda sonora, lo que crea un mapa de ruta que se asemeja a un tenedor (ver imagen a continuación). En la práctica, las bandas sonoras multicanal (es decir, estéreo y más) pueden tener diferentes cantidades de tipos de contenido, como diálogo, música y ambientación, particularmente desde que el diálogo tiende a dominar el canal central en mezclas Dolby 5.1. Actualmente, sin embargo, el campo de investigación muy activo de la separación de audio se concentra en capturar estos hilos de una sola banda sonora horneada, como lo hace la investigación actual.

El tenedor de cóctel – derivando tres bandas sonoras distintas de una sola banda sonora fusionada. Source: https://arxiv.org/pdf/2110.09958.pdf
La investigación reciente se ha centrado en extraer el habla en varios entornos, a menudo con fines de desenoisation del audio del habla para un posterior compromiso con los sistemas de Procesamiento de Lenguaje Natural (NLP), pero también en la aislamiento de voces cantadas de archivo, ya sea para crear versiones sintéticas de cantantes reales (incluso muertos), o para facilitar aislamiento de música al estilo Karaoke.
Un conjunto de datos para cada faceta
Hasta la fecha, se ha dado poca consideración a utilizar este tipo de tecnología de IA para dar a los usuarios más control sobre la mezcla de una banda sonora. Por lo tanto, los investigadores han formalizado el problema y generado un nuevo conjunto de datos como ayuda para la investigación continua en la separación de bandas sonoras de varios tipos, así como para probarlo en varios marcos de separación de audio existentes.
El nuevo conjunto de datos que los autores han desarrollado se llama Divide and Remaster (DnR), y se deriva de conjuntos de datos anteriores LibriSpeech, Free Music Archive y el Conjunto de datos Freesound 50k (FSD50K). Para aquellos que deseen trabajar con DnR desde cero, el conjunto de datos debe reconstruirse a partir de las tres fuentes; de lo contrario, estará disponible pronto en Zenodo, afirman los autores. Sin embargo, en el momento de escribir, el enlace de GitHub para las utilidades de extracción de fuentes no está actualmente activo, por lo que aquellos interesados pueden tener que esperar un poco.
Los investigadores han encontrado que la arquitectura de desmezcla CrossNet (XUMX) propuesta por Sony en mayo funciona particularmente bien con DnR.

Arquitectura de audio CrossNet de Sony.
Los autores afirman que sus modelos de extracción de aprendizaje automático funcionan bien en bandas sonoras de YouTube, aunque las evaluaciones presentadas en el documento se basan en datos sintéticos, y el video principal de apoyo (incrustado a continuación) es actualmente el único que parece estar disponible.
Los tres conjuntos de datos utilizados cada uno comprenden una colección del tipo de salida que necesita separarse de una banda sonora: FSD50K se ocupa de efectos de sonido y cuenta con 50,000 clips de audio mono de 44,1 kHz etiquetados con 200 etiquetas de clase de la ontología AudioSet de Google; el Free Music Archive cuenta con 100,000 canciones estéreo que cubren 161 géneros musicales, aunque los autores han utilizado un subconjunto que contiene 25,000 canciones, para igualar con FSD50K; y LibriSpeech proporciona a DnR 100 horas de muestras de audio de libros de audio como archivos de audio mp3 de 44,1 kHz.
Trabajo futuro
Los autores anticipan más trabajo en el conjunto de datos y una combinación de los modelos separados desarrollados para investigaciones adicionales en marcos de reconocimiento de habla y clasificación de sonido, que cuentan con generación automática de subtítulos para habla y sonidos no hablados. También pretenden evaluar posibilidades para enfoques de remezcla que puedan reducir artefactos perceptuales, lo que sigue siendo el problema central cuando se divide una banda sonora de audio fusionada en sus componentes constituyentes.
Este tipo de separación podría estar disponible en el futuro como una commodity de consumo en televisores inteligentes que incorporen redes de inferencia altamente optimizadas, aunque parece probable que las implementaciones tempranas necesitarían algún nivel de tiempo de preprocesamiento y espacio de almacenamiento. Samsung ya usa redes neuronales locales para escalado, mientras que el Procesador Cognitivo XR de Sony, utilizado en la gama Bravia de la empresa, analiza y reinterpreta bandas sonoras de forma en vivo a través de IA integrada ligera.
Las llamadas a un mayor control sobre la mezcla de una banda sonora se repiten periódicamente, y la mayoría de las soluciones ofrecidas tienen que lidiar con el hecho de que la banda sonora ya ha sido reducida de acuerdo con los estándares actuales (y suposiciones sobre lo que los espectadores desean) en las industrias cinematográfica y de televisión.
Un espectador, frustrado por la desigualdad asombrosa de los niveles de volumen entre los diversos elementos de las bandas sonoras de las películas, se volvió lo suficientemente desesperado como para desarrollar un ajustador de volumen automático basado en hardware capaz de equalizar el volumen para películas y televisión.
Aunque los televisores inteligentes ofrecen una variedad de métodos para intentar aumentar el volumen del diálogo contra niveles de volumen grandiosos para la música, todos luchan contra las decisiones tomadas en el momento de la mezcla, y, argumentablemente, las visiones de los productores de contenido que desean que la audiencia experimente sus bandas sonoras exactamente como se configuraron.
Los productores de contenido parecen probablemente irritarse contra esta posible adición a la ‘cultura de remezcla’, ya que varios luminarios de la industria ya han expresado su descontento contra algoritmos de post-procesamiento de TV predeterminados como el suavizado de movimiento.












