Inteligencia Artificial
Salmonn: hacia capacidades auditivas genéricas para modelos de lenguaje grandes

La audición, que implica la percepción y comprensión de información auditiva genérica, es crucial para los agentes de IA en entornos del mundo real. Esta información auditiva abarca tres tipos de sonido principales: música, eventos de audio y habla. Recientemente, los marcos de modelos de lenguaje grande (LLM) basados en texto han demostrado habilidades notables, logrando un rendimiento a nivel humano en una amplia gama de tareas de procesamiento del lenguaje natural (NLP). Además, se ha vuelto popular el ajuste de instrucciones, un método de capacitación que utiliza pares de respuestas de referencia e indicaciones del usuario. Este enfoque entrena modelos de lenguaje grandes para que sigan de manera más efectiva instrucciones abiertas del usuario. Sin embargo, la investigación actual se centra cada vez más en mejorar los modelos lingüísticos grandes con la capacidad de percibir contenido multimodal.
Centrándonos en lo mismo, en este artículo hablaremos de SALMONN o Speech Audio Language Music Open Neural Network, una red neuronal abierta de voz, audio, lenguaje, música, de última generación, construida mediante la incorporación de codificadores de voz y audio con un modelo de lenguaje grande basado en texto previamente entrenado en un modelo multimodal de audio-texto singular. El modelo SALMONN permite Modelos de lenguaje grande comprender y procesar entradas de audio genéricas directamente y ofrecer un rendimiento competitivo en una amplia gama de tareas de audio y voz utilizadas en la capacitación, incluidas respuestas a preguntas basadas en información auditiva, reconocimiento y traducción de voz, verificación del hablante, reconocimiento de emociones, subtítulos de audio y música, y mucho más. Profundizaremos en el marco SALMONN y exploraremos su funcionamiento, arquitectura y resultados en una amplia gama de tareas de PNL. Entonces empecemos.
SALMONN: Introducción a los modelos de lenguaje grande multimodales de audio y texto único
SALMONN significa Speech Audio Language Music Open Neural Network, y es un marco de modelo de lenguaje grande multimodal de audio-texto único capaz de percibir y comprender tres tipos básicos de audio o sonido, incluido el habla, los eventos de audio y la música. El modelo SALMONN permite que los modelos de lenguajes grandes comprendan y procesen entradas de audio genéricas directamente y ofrezcan un rendimiento competitivo en una amplia gama de tareas de audio y voz.
Para mejorar su rendimiento en tareas de audio tanto de voz como de otro tipo, el marco SALMONN emplea una estructura de codificador dual que consta de un codificador de audio BEATs y un codificador de voz procedente del modelo de voz Whisper. Además, el marco SALMONN también utiliza un Q-Former a nivel de ventana o un transformador de consulta como módulo de conexión para convertir de manera efectiva una secuencia de salida de un codificador de longitud variable en tokens de audio aumentados de un número variable y, en última instancia, lograr una alta resolución temporal para el audio. alineación del texto. El LoRA o adaptación de rango bajo El enfoque se utiliza como un adaptador intermodal del marco Vicuña para alinear su espacio de salida con su espacio de entrada aumentado en un intento de aumentar aún más su rendimiento. En el marco SALMONN, la capacidad de realizar tareas intermodales no vistas durante la fase de entrenamiento se pierde durante el entrenamiento de instrucciones como habilidades emergentes intermodales, que es la razón principal por la que el marco SALMONN implementa una etapa de activación adicional de algunos disparos para recuperar el LLM. habilidades emergentes generales del marco.
Además, el marco utiliza una amplia gama de eventos de audio, puntos de referencia de música y puntos de referencia del habla para evaluar sus capacidades auditivas cognitivas y divide los puntos de referencia en tres niveles. En el primer nivel de referencia, el marco entrena ocho tareas en la capacitación de instrucción, incluida la traducción, los subtítulos de audio y el reconocimiento de voz. Los otros dos niveles de referencia son tareas no entrenadas y el punto de referencia del segundo nivel consta de cinco tareas de procesamiento del lenguaje natural basadas en el habla, como el llenado de espacios y la traducción a idiomas no entrenados, que se basan en alineaciones multilingües de alta calidad entre texto y tokens de voz. Las tareas de referencia del nivel final intentan comprender la información auditiva hablada y no hablada para el razonamiento conjunto de habla y audio y la narración basada en audio.
En resumen, el marco SALMONN es
- El primer modelo multimodal de lenguaje grande capaz de comprender y percibir entradas de audio generales, incluidos eventos de audio, voz y música, al máximo de su capacidad.
- Un intento de analizar las habilidades emergentes intermodales que se ofrecen mediante la implementación del factor de escala LoRA y el uso de una etapa de activación extra económica durante el entrenamiento para activar las habilidades emergentes intermodales del marco.
SALMONN : Arquitectura y Metodología
En esta sección, veremos la arquitectura, el método de entrenamiento y la configuración experimental del marco SALMONN.
Arquitectura modelo
En el centro de su arquitectura, el marco SALMONN sincroniza y combina las salidas de dos codificadores auditivos, después de lo cual el marco implementa un Q-Former a nivel de marco como módulo de conexión. La secuencia de salida generada por Q-Former se combina con indicaciones de instrucciones de texto y luego se proporciona como entrada para el enfoque de adaptación de LoRA para generar la respuesta requerida.
Codificadores auditivos
El marco SALMONN utiliza dos codificadores auditivos: un codificador de audio BEATs sin voz y un codificador de voz procedente del marco Whisper de OpenAI. El codificador de audio BEAT está capacitado para utilizar el enfoque de aprendizaje iterativo autosupervisado en un intento de extraer semántica de audio de alto nivel no verbal, mientras que el codificador de voz está capacitado con una gran cantidad de datos débilmente supervisados para tareas de reconocimiento y traducción de voz con el características de salida del codificador adecuadas para incluir ruido de fondo e información de voz. El modelo primero tokeniza el audio de entrada y luego lo enmascara y lo predice durante el entrenamiento. Las características auditivas resultantes de estos dos codificadores se complementan entre sí y son adecuadas tanto para información hablada como no hablada.
Formador Q a nivel de ventana
La implementación de la estructura Q-Former es un enfoque común utilizado en los marcos LLM para convertir la salida de un codificador de imágenes en tokens de entrada textuales, y se necesitan algunas modificaciones cuando se trata de tokens de audio de diferentes longitudes. Para ser más específico, el marco considera la salida del codificador de la imagen de entrada como una secuencia de salida del codificador concatenada, y Q-Former implementa un número fijo de consultas entrenables para transformar la secuencia de salida del codificador en tokens textuales utilizando bloques apilados de Q-Former. . Un bloque Q-Former apilado se asemeja a un bloque decodificador Transformer con la excepción de la eliminación de máscaras casuales en las capas de autoatención y el uso de un número fijo de consultas estáticas entrenables en los bloques iniciales.
LoRA y LLM
El marco SALMONN también implementa Vicuna LLM, que es un marco de modelo de lenguaje grande LLaMA ajustado para seguir instrucciones de manera más precisa y efectiva. El marco LoRA es un método común utilizado para el ajuste fino eficiente de los parámetros y su inclusión en el marco SALMONN para valorar matrices de peso y adaptar la consulta en las capas de autoatención.

Método de entrenamiento
El marco SALMONN utiliza un enfoque de formación intermodal de tres etapas. La etapa de entrenamiento comprende una etapa de preentrenamiento y una etapa de ajuste de instrucciones que se incluyen en la mayoría de los casos. marcos visuales de LLMy se implementa una etapa de ajuste de activación adicional para resolver los problemas de sobreajuste encontrados durante las tareas de reconocimiento de voz y subtítulos de audio.
Etapa previa al entrenamiento
Para limitar la brecha observada entre los parámetros previamente entrenados, incluidos codificadores y LLM, y los parámetros inicializados aleatoriamente, incluidos adaptadores y módulos de conexión, el marco SALMONN utiliza una gran cantidad de subtítulos de audio y datos de reconocimiento de voz para entrenar previamente los componentes LoRA y Q-Former. . Estas tareas contienen información auditiva vital sobre los contenidos clave de los eventos de audio, tanto hablados como no hablados, y ninguna de ellas requiere comprensión o razonamiento complejos para aprender a alinear la información textual y auditiva.
Etapa de ajuste fino de la instrucción
La etapa de ajuste de instrucciones implementada en el marco SALMONN se parece a la implementada en los marcos de PNL y LLM visual mediante el uso de una lista de eventos de audio, tareas musicales y eventos de voz para ajustar las instrucciones de audio-texto. Las tareas se priorizan según su importancia en diferentes pruebas, incluido el reconocimiento de teléfonos, el reconocimiento de voz superpuesto y los subtítulos de música. Además, la información textual combinada con datos de audio forma la base para generar indicaciones de instrucción.
Sobreajuste de tareas
Incluso cuando se implementan solo las dos primeras etapas de capacitación, el marco SALMONN ofrece resultados competitivos en tareas de ajuste de instrucción, aunque el desempeño no está a la altura cuando se realizan tareas intermodales, especialmente en tareas que requieren habilidades de co-razonamiento intermodal. Específicamente, el modelo ocasionalmente viola las indicaciones de instrucción que resultan en la generación de respuestas irrelevantes o incorrectas, y este fenómeno se conoce como sobreajuste de tareas en el marco SALMONN, y la etapa de Ajuste de Activación se implementa para resolver estos problemas de sobreajuste.
Etapa de ajuste de activación
Un enfoque eficaz para resolver los problemas de sobreajuste es regularizar los modelos de lenguaje condicional intrínseco utilizando respuestas más largas y diversas, como la narración de historias o la respuesta a preguntas basadas en información auditiva. Luego, el marco genera datos de entrenamiento en pares para dichas tareas utilizando texto combinado con subtítulos de audio, voz o música.
Especificaciones de la tarea
Para evaluar las habilidades emergentes intermodales de disparo cero de SALMONN, los desarrolladores han incluido 15 tareas de habla, audio y música divididas en tres niveles.
Nivel 1
En el primer nivel, las tareas se utilizan para ajustar las instrucciones y, por lo tanto, son el conjunto de tareas más fácil que debe realizar el marco SALMONN.
Nivel 2
El segundo nivel consta de tareas sin entrenamiento, y su nivel de complejidad es mayor en comparación con las tareas de nivel 1. En el nivel 2, las tareas se basan en el procesamiento del lenguaje natural (PLN), incluyendo la extracción de palabras clave del habla, que se utiliza para evaluar la precisión del marco al extraer ciertas palabras clave mediante el habla. Otras tareas incluyen SQQA (Respuesta a preguntas basadas en consultas habladas), que evalúa el conocimiento de sentido común que el marco extrae mediante preguntas habladas; una tarea de llenado de espacios basada en el habla (SF) para evaluar la precisión de los valores de los espacios; y, finalmente, hay dos tareas AST para las conversiones de inglés a alemán y de inglés a japonés.
Nivel 3
La complejidad de las tareas en el Nivel 3 es la máxima en comparación con otros dos niveles, e incluye SAC o Speech Audio Co-Rasoning y tareas de Narración basada en audio. La tarea SAC requiere que el marco SALMONN comprenda una pregunta incluida en el clip de audio enviado al modelo, encuentre evidencia de apoyo utilizando eventos de audio o música de fondo y, finalmente, genere una razón adecuada para responder la pregunta. Las tareas de narración basada en audio requieren que el modelo genere una historia significativa basada en la información auditiva procedente de entradas de audio generales.

Resultados
Tareas de nivel 1
La siguiente tabla muestra los resultados en las tareas de Nivel 1 y, como se puede observar, el marco SALMONN arroja resultados competitivos en las tareas de Nivel 1 con o sin ajuste de activación.

Tareas de nivel 2 y 3
Aunque el marco SALMONN arroja resultados competitivos en las tareas de Nivel 1 incluso sin ajustes, no se puede decir lo mismo de las tareas de Nivel 2 y 3, ya que sin activación, el marco SALMONN sufre en gran medida por un ajuste excesivo de las tareas. El rendimiento cae aún más en las tareas SQQA, SAC y Storytelling con énfasis en interacciones multimodales, y el marco SALMONN tiene dificultades para seguir las instrucciones sin un ajuste de activación. Sin embargo, con el ajuste de activación, los resultados mejoran considerablemente y los resultados se incluyen en la siguiente imagen.

Factor de escala de descuento de LoRA
El descuento del factor de escala LoRA evalúa la influencia del uso del descuento de prueba de tiempo del factor de escala LoRA para minimizar los problemas de sobreajuste en las tareas. Como se puede observar en la siguiente figura, una disminución en el factor de escala de LoRA a 2.0 eleva la capacidad de razonamiento intermodal del marco SALMONN en tareas de ASR y relaciones públicas, tareas de SQQA, tareas de narración de historias y tareas de SAC, respectivamente.

Evaluación del sobreajuste de tareas
Para enfatizar el ajuste de activación, el marco SALMONN analiza los cambios en la perplejidad durante las tres etapas de entrenamiento y, como se puede ver en la siguiente imagen, los cambios de perplejidad para las tareas AAC y ASR tienen valores finales pequeños después de la primera etapa de entrenamiento, lo que indica la Aprendizaje del modelo de alineamientos intermodales.

Además, la perplejidad de la tarea de relaciones públicas también reduce el ajuste posterior a la instrucción debido a su dependencia del componente LoRA para aprender los tokens de salida. También se observa que, aunque el ajuste de las instrucciones ayuda a reducir la perplejidad en las tareas de Storytelling y SAC, la brecha sigue siendo lo suficientemente grande como para realizar las tareas con éxito a menos que se agregue una etapa de activación adicional o se elimine el componente LoRA.
Ajuste de activación
El marco SALMONN profundiza en diferentes métodos de activación, incluido el entrenamiento del modelo en pares de tareas de control de calidad basadas en texto con respuestas largas, o el uso de historias escritas largas basadas en audio, mientras que se utilizan transcripciones de voz largas para tareas ASR. Tanto los componentes Q-Former como LoRA se ajustan utilizando estos tres métodos. Además, el marco ignora las entradas de audio y Q-Former en un intento de ajustar los componentes LoRA y Vicuña como un modelo de lenguaje grande basado en texto adaptativo, y los resultados se demuestran en la siguiente imagen, y como se puede ver , el modelo no se puede activar mediante ASR (entrenamiento de ASR con etiquetas largas), ni mediante historias o texto mediante el entrenamiento del componente LoRA mediante entradas de mensajes de texto.

Conclusión
En este artículo, hemos hablado de SALMONN o Speech Audio Language Music Open Neural Network, un marco de modelo de lenguaje grande multimodal de audio-texto único capaz de percibir y comprender tres tipos básicos de audio o sonido, incluido el habla, los eventos de audio y la música. El modelo SALMONN permite que los modelos de lenguajes grandes comprendan y procesen entradas de audio genéricas directamente y ofrezcan un rendimiento competitivo en una amplia gama de tareas de audio y voz.
El marco SALMONN ofrece un rendimiento competitivo en una amplia gama de tareas entrenadas, incluidos subtítulos de audio, traducción y reconocimiento de voz, y más, mientras se generaliza a una serie de tareas de comprensión no entrenadas, incluida la traducción de voz para extracción de palabras clave y lenguajes no entrenados. Debido a sus capacidades, el marco SALMONN puede considerarse como el siguiente paso hacia la mejora de las capacidades auditivas genéricas de modelos lingüísticos grandes.










