talón AudioSep: Separe todo lo que describa - Unite.AI
Contáctanos

Inteligencia artificial

AudioSep: Separe todo lo que describa

mm

Publicado

 on

LASS o Separación de fuente de audio consultada por lenguaje es el nuevo paradigma para CASA o Análisis computacional de escena auditiva que tiene como objetivo separar un sonido objetivo de una mezcla determinada de audio utilizando una consulta de lenguaje natural que proporciona una interfaz natural pero escalable para tareas y aplicaciones de audio digital. . Aunque los marcos LASS han avanzado significativamente en los últimos años en términos de lograr el rendimiento deseado en fuentes de audio específicas, como instrumentos musicales, no pueden separar el audio de destino en el dominio abierto. 

Audioseptiembre, es un modelo fundamental que tiene como objetivo resolver las limitaciones actuales de los marcos LASS al permitir la separación del audio de destino mediante consultas en lenguaje natural. Los desarrolladores del marco AudioSep han entrenado ampliamente el modelo en una amplia variedad de conjuntos de datos multimodales a gran escala y han evaluado el rendimiento del marco en una amplia gama de tareas de audio, incluida la separación de instrumentos musicales, la separación de eventos de audio y la mejora del habla. entre muchos otros. El rendimiento inicial de AudioSep satisface los puntos de referencia, ya que demuestra impresionantes capacidades de aprendizaje de disparo cero y ofrece un sólido rendimiento de separación de audio. 

En este artículo, profundizaremos en el funcionamiento del marco AudioSep mientras evaluamos la arquitectura del modelo, los conjuntos de datos utilizados para el entrenamiento y la evaluación, y los conceptos esenciales involucrados en el funcionamiento del modelo AudioSep. Entonces, comencemos con una introducción básica al marco CASA. 

Marcos CASA, USS, QSS, LASS: La Fundación para AudioSep

El marco CASA o Análisis Computacional de Escena Auditiva es un marco utilizado por los desarrolladores para diseñar sistemas de escucha de máquinas que tienen la capacidad de percibir entornos sonoros complejos de una manera similar a la forma en que los humanos perciben el sonido usando sus sistemas auditivos. La separación de sonidos, con especial atención a la separación de sonidos objetivo, es un área fundamental de investigación en el marco de CASA, y tiene como objetivo resolver el “problema de coctel”o separar grabaciones de audio del mundo real de grabaciones o archivos de fuentes de audio individuales. La importancia de la separación de sonidos se puede atribuir principalmente a sus aplicaciones generalizadas, incluida la separación de fuentes de música, separación de fuentes de audio, mejora del habla, identificación de sonidos de destino y mucho más. 

La mayor parte del trabajo sobre separación de sonido realizado en el pasado gira principalmente en torno a la separación de una o más fuentes de audio, como la separación de música o la separación de voz. Un nuevo modelo llamado USS o Universal Sound Separation tiene como objetivo separar sonidos arbitrarios en grabaciones de audio del mundo real. Sin embargo, es una tarea desafiante y restrictiva separar cada fuente de sonido de una mezcla de audio principalmente debido a la amplia gama de diferentes fuentes de sonido que existen en el mundo, que es la razón principal por la cual el método USS no es factible para aplicaciones del mundo real. en tiempo real. 

Una alternativa factible al método USS es el QSS o el método de separación de sonido basado en consultas, que tiene como objetivo separar una fuente de sonido individual o de destino de la mezcla de audio en función de un conjunto particular de consultas. Gracias a esto, el marco QSS permite a los desarrolladores y usuarios extraer las fuentes de audio deseadas de la mezcla en función de sus requisitos, lo que hace que el método QSS sea una solución más práctica para aplicaciones digitales del mundo real, como la edición de contenido multimedia o la edición de audio. 

Además, los desarrolladores han propuesto recientemente una extensión del marco QSS, el marco LASS o el marco de separación de fuentes de audio consultadas por lenguaje que tiene como objetivo separar fuentes arbitrarias de sonido de una mezcla de audio mediante el uso de descripciones en lenguaje natural de la fuente de audio de destino. . Como el marco LASS permite a los usuarios extraer las fuentes de audio de destino utilizando un conjunto de instrucciones en lenguaje natural, podría convertirse en una herramienta poderosa con aplicaciones generalizadas en aplicaciones de audio digital. En comparación con los métodos tradicionales de consulta de audio o de visión, el uso de instrucciones en lenguaje natural para la separación de audio ofrece un mayor grado de ventaja, ya que agrega flexibilidad y hace que la adquisición de información de consulta sea mucho más fácil y conveniente. Además, en comparación con los marcos de separación de audio basados ​​en consultas de etiquetas que utilizan un conjunto predefinido de instrucciones o consultas, el marco LASS no limita la cantidad de consultas de entrada y tiene la flexibilidad de generalizarse para abrir el dominio sin problemas. 

Originalmente, el marco LASS se basa en el aprendizaje supervisado en el que el modelo se entrena con un conjunto de datos emparejados de audio y texto etiquetados. Sin embargo, el principal problema de este enfoque es la disponibilidad limitada de datos de audiotexto anotados y etiquetados. Para reducir la confiabilidad del marco LASS en anotaciones datos etiquetados de audio-texto, los modelos se entrenan utilizando el enfoque de aprendizaje de supervisión multimodal. El objetivo principal detrás del uso de un enfoque de supervisión multimodal es utilizar modelos de preentrenamiento contrastivo multimodal como el modelo CLIP o Contrastive Language Image Pre Training como codificador de consultas para el marco. Dado que el marco CLIP tiene la capacidad de alinear incrustaciones de texto con otras modalidades como audio o visión, permite a los desarrolladores entrenar los modelos LASS utilizando modalidades ricas en datos y permite la interferencia con los datos textuales en una configuración de disparo cero. Sin embargo, los marcos LASS actuales utilizan conjuntos de datos a pequeña escala para la capacitación, y aún no se han explorado las aplicaciones del marco LASS en cientos de dominios potenciales. 

Para resolver las limitaciones actuales que enfrentan los marcos LASS, los desarrolladores han introducido AudioSep, un modelo fundamental que tiene como objetivo separar el sonido de una mezcla de audio utilizando descripciones en lenguaje natural. El objetivo actual de AudioSep es desarrollar un modelo de separación de sonido previamente entrenado que aproveche los conjuntos de datos multimodales a gran escala existentes para permitir la generalización de modelos LASS en aplicaciones de dominio abierto. En resumen, el modelo AudioSep es: “Un modelo fundamental para la separación universal de sonidos en un dominio abierto utilizando consultas o descripciones en lenguaje natural entrenadas en conjuntos de datos multimodales y de audio a gran escala.

AudioSep: componentes clave y arquitectura

La arquitectura del marco AudioSep consta de dos componentes clave: un codificador de texto y un modelo de separación. 

El codificador de texto

El marco AudioSep utiliza un codificador de texto del modelo CLIP o Contrastive Language Image Pre Training o CLAP o Contrastive Language Audio Pre Training para extraer incrustaciones de texto dentro de una consulta de lenguaje natural. La consulta de texto de entrada consta de una secuencia de "N”tokens que luego es procesado por el codificador de texto para extraer las incrustaciones de texto para la consulta de idioma de entrada dada. El codificador de texto utiliza una pila de bloques transformadores para codificar los tokens de texto de entrada, y las representaciones de salida se agregan después de pasar a través de las capas del transformador, lo que da como resultado el desarrollo de una representación vectorial D-dimensional con longitud fija donde D corresponde. a las dimensiones de los modelos CLAP o CLIP mientras el codificador de texto está congelado durante el período de entrenamiento. 

El modelo CLIP está previamente entrenado en un conjunto de datos a gran escala de datos emparejados imagen-texto mediante aprendizaje contrastivo, que es la razón principal por la que su codificador de texto aprende a mapear descripciones textuales en el espacio semántico que también comparten las representaciones visuales. La ventaja que obtiene AudioSep al utilizar el codificador de texto de CLIP es que ahora puede ampliar o entrenar el modelo LASS a partir de datos audiovisuales sin etiquetar utilizando las incrustaciones visuales como alternativa, permitiendo así el entrenamiento de modelos LASS sin el requisito de anotaciones o etiquetas. datos de audiotexto. 

El modelo CLAP funciona de manera similar al modelo CLIP y utiliza un objetivo de aprendizaje contrastivo, ya que utiliza un codificador de texto y audio para conectar audio y lenguaje, uniendo así descripciones de texto y audio en un espacio latente de audio-texto. 

Modelo de separación

El marco AudioSep utiliza un modelo ResUNet en el dominio de la frecuencia que se alimenta con una combinación de clips de audio como columna vertebral de separación del marco. El marco funciona aplicando primero una STFT o una transformada de Fourier de corto tiempo en la forma de onda para extraer un espectrograma complejo, el espectrograma de magnitud y la fase de X. Luego, el modelo sigue la misma configuración y construye una red codificador-decodificador para procesar el espectrograma de magnitud. 

La red codificador-decodificador ResUNet consta de 6 bloques residuales, 6 bloques decodificadores y 4 bloques de cuello de botella. El espectrograma en cada bloque codificador utiliza 4 bloques convencionales residuales para reducir la muestra en una característica de cuello de botella, mientras que los bloques decodificadores utilizan 4 bloques deconvolucionales residuales para obtener los componentes de separación mediante un muestreo superior de las características. Después de esto, cada uno de los bloques codificadores y sus bloques decodificadores correspondientes establecen una conexión de salto que opera a la misma velocidad de muestreo ascendente o descendente. El bloque residual del marco consta de 2 capas de activación Leaky-ReLU, 2 capas de normalización por lotes y 2 capas CNN y, además, el marco también introduce un atajo residual adicional que conecta la entrada y salida de cada bloque residual individual. El modelo ResUNet toma el espectrograma complejo X como entrada y produce la máscara de magnitud M como salida con la fase residual condicionada a incrustaciones de texto que controlan la magnitud del escalado y la rotación del ángulo del espectrograma. El espectrograma complejo separado se puede extraer multiplicando la máscara de magnitud predicha y la fase residual con STFT (Transformada de Fourier de corto tiempo) de la mezcla. 

En su marco, AudioSep utiliza una capa FiLm o modulada linealmente por funciones para unir el modelo de separación y el codificador de texto después del despliegue de los bloques convolucionales en ResUNet. 

Entrenamiento y pérdida

Durante el entrenamiento del modelo AudioSep, los desarrolladores utilizan el método de aumento de sonoridad y entrenan el marco AudioSep de un extremo a otro mediante el uso de una función de pérdida L1 entre la verdad del terreno y las formas de onda predichas. 

Conjuntos de datos y puntos de referencia

Como se mencionó en secciones anteriores, AudioSep es un modelo fundamental que tiene como objetivo resolver la dependencia actual de los modelos LASS en conjuntos de datos emparejados de audio y texto anotados. El modelo AudioSep se entrena en una amplia gama de conjuntos de datos para equiparlo con capacidades de aprendizaje multimodal, y aquí hay una descripción detallada del conjunto de datos y los puntos de referencia utilizados por los desarrolladores para entrenar el marco AudioSep. 

Conjunto de audio

AudioSet es un conjunto de datos de audio a gran escala con etiquetas débiles que comprende más de 2 millones de fragmentos de audio de 10 segundos extraídos directamente de YouTube. Cada fragmento de audio en el conjunto de datos AudioSet se clasifica por la ausencia o presencia de clases de sonido sin los detalles de sincronización específicos de los eventos de sonido. El conjunto de datos AudioSet tiene más de 500 clases de audio distintas, incluidos sonidos naturales, sonidos humanos, sonidos de vehículos y mucho más. 

VGGSonido

El conjunto de datos VGGSound es un conjunto de datos de audio visual a gran escala que, al igual que AudioSet, se obtuvo directamente de YouTube y contiene más de 2,00,000 clips de vídeo, cada uno de los cuales tiene una duración de 10 segundos. El conjunto de datos de VGGSound está categorizado en más de 300 clases de sonidos, incluidos sonidos humanos, sonidos naturales, sonidos de pájaros y más. El uso del conjunto de datos VGGSound garantiza que el objeto responsable de producir el sonido objetivo también se pueda describir en el clip visual correspondiente. 

AudioCaps

AudioCaps es el conjunto de datos de subtítulos de audio más grande disponible públicamente y comprende más de 50,000 clips de audio de 10 segundos que se extraen del conjunto de datos AudioSet. Los datos de AudioCaps se dividen en tres categorías: datos de entrenamiento, datos de prueba y datos de validación, y los clips de audio están anotados humanamente con descripciones en lenguaje natural utilizando la plataforma Amazon Mechanical Turk. Vale la pena señalar que cada clip de audio en el conjunto de datos de entrenamiento tiene un único título, mientras que los datos en los conjuntos de prueba y validación tienen cada uno 5 títulos de verdad sobre el terreno. 

ClotoV2

ClothoV2 es un conjunto de datos de subtítulos de audio que consta de clips obtenidos de la plataforma FreeSound y, al igual que AudioCaps, cada clip de audio está anotado humanamente con descripciones en lenguaje natural utilizando la plataforma Amazon Mechanical Turk. 

WavCaps

Al igual que AudioSet, WavCaps es un conjunto de datos de audio a gran escala con etiquetas débiles que comprende más de 400,000 7568 clips de audio con subtítulos y un tiempo de ejecución total aproximado de XNUMX horas de datos de entrenamiento. Los clips de audio del conjunto de datos WavCaps provienen de una amplia gama de fuentes de audio, incluidas BBC Sound Effects, AudioSet, FreeSound, SoundBible y más.

Detalles de entrenamiento

Durante la fase de entrenamiento, el modelo AudioSep toma muestras aleatorias de dos segmentos de audio provenientes de dos clips de audio diferentes del conjunto de datos de entrenamiento y luego los mezcla para crear una mezcla de entrenamiento donde la duración de cada segmento de audio es de aproximadamente 5 segundos. Luego, el modelo extrae el espectrograma complejo de la señal de forma de onda utilizando una ventana de Hann de tamaño 1024 con un tamaño de 320 saltos. 

Luego, el modelo utiliza el codificador de texto de los modelos CLIP/CLAP para extraer las incrustaciones de texto, siendo la supervisión de texto la configuración predeterminada para AudioSep. Para el modelo de separación, el marco AudioSep utiliza una capa ResUNet que consta de 30 capas, 6 bloques codificadores y 6 bloques decodificadores que se asemejan a la arquitectura seguida en el marco de separación de sonido universal. Además, cada bloque codificador tiene dos capas convolucionales con un tamaño de núcleo de 3 × 3 y el número de mapas de características de salida de los bloques codificadores es 32, 64, 128, 256, 512 y 1024 respectivamente. Los bloques decodificadores comparten simetría con los bloques codificadores y los desarrolladores aplican el optimizador Adam para entrenar el modelo AudioSep con un tamaño de lote de 96. 

Resultados de evaluación

En conjuntos de datos vistos

La siguiente figura compara el rendimiento del marco AudioSep en conjuntos de datos vistos durante la fase de entrenamiento, incluidos los conjuntos de datos de entrenamiento. La siguiente figura representa los resultados de la evaluación comparativa del marco AudioSep en comparación con los sistemas de referencia, incluido Speech. Modelos de mejora, LASS y CLIP. El modelo AudioSep con codificador de texto CLIP se representa como AudioSep-CLIP, mientras que el modelo AudioSep con codificador de texto CLAP se representa como AudioSep-CLAP.

Como se puede ver en la figura, el marco AudioSep funciona bien cuando se utilizan subtítulos de audio o etiquetas de texto como consultas de entrada, y los resultados indican el rendimiento superior del marco AudioSep en comparación con los modelos de separación de sonido consultados por audio y LASS de referencia anteriores. 

Sobre conjuntos de datos invisibles

Para evaluar el rendimiento de AudioSep en una configuración de disparo cero, los desarrolladores continuaron evaluando el rendimiento en conjuntos de datos invisibles y el marco AudioSep ofrece un rendimiento de separación impresionante en una configuración de disparo cero. Los resultados se muestran en la siguiente figura. 

Además, la siguiente imagen muestra los resultados de la evaluación del modelo AudioSep frente a la mejora del habla Voicebank-Demand. 

La evaluación del marco AudioSep indica un rendimiento sólido y deseado en conjuntos de datos invisibles en una configuración de disparo cero y, por lo tanto, abre paso para realizar tareas operativas sólidas en nuevas distribuciones de datos. 

Visualización de resultados de separación

La siguiente figura muestra los resultados obtenidos cuando los desarrolladores utilizaron el marco AudioSep-CLAP para realizar visualizaciones de espectrogramas para fuentes de audio objetivo reales, y mezclas de audio y fuentes de audio separadas mediante consultas de texto de diversos audios o sonidos. Los resultados permitieron a los desarrolladores observar que el patrón de fuente separada del espectrograma está cerca de la fuente de la verdad fundamental, lo que respalda aún más los resultados objetivos obtenidos durante los experimentos. 

Comparación de consultas de texto

Los desarrolladores evalúan el rendimiento de AudioSep-CLAP y AudioSep-CLIP en AudioCaps Mini, y utilizan las etiquetas de eventos AudioSet, los subtítulos de AudioCaps y las descripciones en lenguaje natural reanotadas para examinar los efectos de diferentes consultas y lo siguiente. La figura muestra un ejemplo de AudioCaps Mini en acción. 

Conclusión

Audioseptiembre es un modelo fundamental que se desarrolla con el objetivo de ser un marco de separación de sonido universal de dominio abierto que utiliza descripciones en lenguaje natural para la separación de audio. Como se observó durante la evaluación, el marco AudioSep es capaz de realizar un aprendizaje sin supervisión y sin supervisión sin problemas mediante el uso de subtítulos de audio o etiquetas de texto como consultas. Los resultados y el rendimiento de la evaluación de AudioSep indican un rendimiento sólido que supera a los marcos de separación de sonido de última generación como LASS, y podría ser lo suficientemente capaz de resolver las limitaciones actuales de los marcos de separación de sonido populares. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.