Inteligência artificial

Salmonn: Em Direção a Habilidades Auditivas Genéricas Para Grandes Modelos de Linguagem

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

A audição, que envolve a percepção e compreensão de informações auditivas genéricas, é crucial para agentes de IA em ambientes do mundo real. Essas informações auditivas abrangem três tipos principais de som: música, eventos de áudio e fala. Recentemente, frameworks de Modelo de Linguagem Grande (LLM) baseados em texto mostraram habilidades notáveis, alcançando desempenho em nível humano em uma ampla gama de tarefas de Processamento de Linguagem Natural (NLP). Além disso, o ajuste de instruções, um método de treinamento que usa pares de respostas de referência e prompts de usuário, tornou-se popular. Essa abordagem treina grandes modelos de linguagem para seguir instruções de usuário de forma mais eficaz. No entanto, a pesquisa atual está cada vez mais focada em melhorar os grandes modelos de linguagem com a capacidade de perceber conteúdo multimodal.

Com foco no mesmo, neste artigo, vamos falar sobre SALMONN ou Speech Audio Language Music Open Neural Network, uma rede neural aberta de linguagem de áudio e fala de última geração construída incorporando codificadores de fala e áudio com um modelo de linguagem grande pré-treinado baseado em texto em um modelo multimodal de áudio-texto singular. O modelo SALMONN permite que Grandes Modelos de Linguagem entendam e processem entradas de áudio genéricas diretamente e forneçam desempenho competitivo em uma ampla variedade de tarefas de áudio e fala usadas no treinamento, incluindo resposta a perguntas baseadas em informações auditivas, reconhecimento de fala e tradução, verificação de falante, reconhecimento de emoção, legendagem de áudio e música e muito mais. Vamos mergulhar mais fundo no framework SALMONN e explorar seu funcionamento, arquitetura e resultados em uma ampla gama de tarefas de NLP. Então, vamos começar.

SALMONN : Uma Introdução a Modelos de Linguagem Grande Multimodais de Áudio-Texto Únicos

SALMONN significa Speech Audio Language Music Open Neural Network, e é um framework de modelo de linguagem grande multimodal de áudio-texto único capaz de perceber e entender três tipos básicos de som ou áudio, incluindo fala, eventos de áudio e música. O modelo SALMONN permite que Grandes Modelos de Linguagem entendam e processem entradas de áudio genéricas diretamente e forneçam desempenho competitivo em uma ampla variedade de tarefas de áudio e fala.

Para aumentar seu desempenho em tarefas de fala e áudio não falado, o framework SALMONN emprega uma estrutura de codificador duplo consistindo em um codificador de áudio BEATs e um codificador de fala proveniente do modelo de fala Whisper. Além disso, o framework SALMONN também usa um módulo de conexão de nível de janela Q-Former ou Transformador de consulta para converter efetivamente uma sequência de saída de codificador de comprimento variável em tokens de áudio aumentados de número variável e, em última análise, alcançar alta resolução temporal para alinhamento de áudio-texto. A abordagem LoRA ou Adaptação de Baixa Classificação é usada como um adaptador transmodal para o framework Vicuna para alinhar seu espaço de saída com seu espaço de entrada aumentado em uma tentativa de aumentar ainda mais seu desempenho. No framework SALMONN, a capacidade de realizar tarefas transmodais não vistas durante a fase de treinamento perdida durante o treinamento de instruções como habilidades emergentes transmodais é a razão principal pela qual o framework SALMONN implementa uma etapa de ativação adicional para recuperar as habilidades emergentes gerais do framework de LLM.

Além disso, o framework faz uso de uma ampla variedade de eventos de áudio, benchmarks de música e benchmarks de fala para avaliar suas habilidades auditivas cognitivas e divide os benchmarks em três níveis. No primeiro nível de benchmark, o framework treina oito tarefas em treinamento de instruções, incluindo tradução, legendagem de áudio e reconhecimento de fala. Os outros dois níveis de benchmark são tarefas não treinadas, com o segundo nível de benchmark consistindo em cinco tarefas de processamento de linguagem natural baseadas em fala, como preenchimento de slot e tradução para idiomas não treinados, que dependem de alinhamentos multilíngues de alta qualidade entre tokens de texto e fala. As tarefas de benchmark finais tentam entender informações auditivas faladas e não faladas para co-razão de fala-áudio e contação de histórias baseadas em áudio.

Para resumir, o framework SALMONN é

O primeiro modelo de linguagem grande multimodal capaz de entender e perceber entradas de áudio genéricas, incluindo eventos de áudio, fala e música, ao máximo de sua capacidade.
Uma tentativa de analisar habilidades emergentes transmodais oferecidas pela implementação do fator de escala LoRA e usando uma etapa de ativação extra econômica durante o treinamento para ativar habilidades emergentes transmodais do framework.

SALMONN : Arquitetura e Metodologia

Nesta seção, vamos dar uma olhada na arquitetura, método de treinamento e configuração experimental para o framework SALMONN.

Arquitetura do Modelo

No núcleo de sua arquitetura, o framework SALMONN sincroniza e combina as saídas de dois codificadores auditivos, após o que o framework implementa um Q-Former no nível de frame como um módulo de conexão. A sequência de saída gerada pelo Q-Former é mesclada com prompts de instrução de texto e, em seguida, fornecida como entrada para a abordagem de adaptação LoRA para gerar a resposta necessária.

Codificadores Auditivos

O framework SALMONN usa dois codificadores auditivos: um codificador de áudio BEATs não falado e um codificador de fala proveniente do framework de fala Whisper da OpenAI. O codificador de áudio BEATs é treinado para usar a abordagem de aprendizado iterativo auto-supervisionado para extrair semântica de áudio de alto nível não falada, enquanto o codificador de fala é treinado em uma grande quantidade de dados de supervisão fraca para tarefas de reconhecimento e tradução de fala, com as características de saída do codificador adequadas para incluir ruído de fundo e informações de fala. O modelo primeiro tokeniza a entrada de áudio e, em seguida, a mascara e a prevê no treinamento. As características auditivas resultantes desses dois codificadores se complementam mutuamente e são adequadas para informações faladas e não faladas.

Q-Former de Nível de Janela

Implementar a estrutura Q-Former é uma abordagem comum usada nos frameworks de LLM para converter a saída de um codificador de imagem em tokens de texto, e alguma modificação é necessária ao lidar com tokens de áudio de comprimento variável. Mais especificamente, o framework considera a saída do codificador da entrada de imagem como uma sequência de saída de codificador concatenada, e o Q-Former implanta um número fixo de consultas treináveis para transformar a sequência de saída do codificador em tokens de texto usando blocos empilhados de Q-Former. Um bloco Q-Former empilhado se assemelha a um bloco decodificador de Transformador, com as exceções sendo a remoção de máscaras casuais nas camadas de auto-atendimento e o uso de um número fixo de consultas estáticas treináveis nos blocos iniciais.

LoRA e LLM

O framework SALMONN também implanta um LLM Vicuna, que é um framework de modelo de linguagem grande LLaMA ajustado para seguir instruções de forma mais precisa e eficaz. A abordagem LoRA é um método comum usado para ajuste de parâmetros eficiente, e sua inclusão no framework SALMONN para valorizar matrizes de peso e adaptar a consulta nas camadas de auto-atendimento.

Método de Treinamento

O framework SALMONN usa uma abordagem de treinamento transmodal de três etapas. A etapa de treinamento compreende uma etapa de pré-treinamento e uma etapa de ajuste de instruções que são incluídas na maioria dos frameworks de LLM visuais, e uma etapa de ativação adicional é implementada para resolver problemas de sobre-ajuste encontrados durante tarefas de legendagem de áudio e reconhecimento de fala.

Etapa de Pré-Treinamento

Para limitar a lacuna observada entre parâmetros pré-treinados, incluindo codificadores e LLM, e parâmetros inicializados aleatoriamente, incluindo adaptador e módulos de conexão, o framework SALMONN usa uma grande quantidade de dados de legendagem de áudio e reconhecimento de fala para pré-treinar os componentes LoRA e Q-Former. Essas tarefas contêm informações auditivas vitais sobre o conteúdo principal de eventos de áudio, tanto falados quanto não falados, e nenhuma delas requer compreensão ou raciocínio complexo para aprender o alinhamento entre informações textuais e auditivas.

Etapa de Ajuste de Instruções

A etapa de ajuste de instruções implementada no framework SALMONN se assemelha à implementada em frameworks de NLP e LLM visuais, usando uma lista de eventos de áudio, tarefas de música e eventos de fala para ajustar as instruções de áudio-texto. As tarefas são priorizadas com base em sua importância em diferentes testes, incluindo reconhecimento de fala, reconhecimento de fala sobreposta e legendagem de música. Além disso, informações textuais emparelhadas com dados de áudio formam a base para gerar prompts de instrução.

Sobre-Ajuste de Tarefa

Mesmo implementando apenas as duas primeiras etapas de treinamento, o framework SALMONN fornece resultados competitivos em tarefas de ajuste de instruções, embora o desempenho não seja satisfatório ao realizar tarefas transmodais, especialmente em tarefas que requerem habilidades de co-razão transmodal. Especificamente, o modelo ocasionalmente viola prompts de instrução, o que resulta na geração de respostas irrelevantes ou incorretas, e esse fenômeno é referido como sobre-ajuste de tarefa no framework SALMONN, e a etapa de ativação é implementada para resolver esses problemas de sobre-ajuste.

Etapa de Ativação

Uma abordagem eficaz para resolver problemas de sobre-ajuste é regularizar modelos de linguagem condicionais intrínsecos usando respostas mais longas e diversificadas, como contação de histórias ou resposta a perguntas baseadas em informações auditivas. O framework, então, gera os dados de treinamento em pares para essas tarefas usando texto emparelhado com áudio ou legendagem de música.

Especificações de Tarefa

Para avaliar as habilidades emergentes transmodais zero-shot do SALMONN, os desenvolvedores incluíram 15 tarefas de fala, áudio e música divididas em três níveis.

Nível 1

No primeiro nível, as tarefas são usadas para ajuste de instruções e, portanto, são o conjunto mais fácil de tarefas que o framework SALMONN tem que realizar.

Nível 2

O segundo nível consiste em tarefas não treinadas e o nível de complexidade é maior em comparação com as tarefas do nível 1. No nível 2, as tarefas são tarefas de processamento de linguagem natural baseadas em fala, incluindo extração de palavras-chave de fala usada para avaliar a precisão do framework ao extrair certas palavras-chave usando fala. Outras tarefas incluem SQQA ou resposta a perguntas baseadas em fala que avalia o conhecimento comum extraído pelo framework usando perguntas de fala, uma tarefa de preenchimento de slot baseada em fala para avaliar a precisão dos valores de slot e, finalmente, há duas tarefas de tradução de inglês para alemão e inglês para japonês.

Nível 3

A complexidade das tarefas no nível 3 é a máxima em comparação com os outros dois níveis e inclui tarefas de co-razão de fala-áudio e contação de histórias baseadas em áudio. A tarefa de co-razão de fala-áudio exige que o framework SALMONN entenda uma pergunta incluída no clipe de áudio alimentado ao modelo, encontre evidências de apoio usando eventos de áudio ou música em segundo plano e, finalmente, gere uma razão apropriada para responder à pergunta. As tarefas de contação de histórias baseadas em áudio exigem que o modelo gere uma história significativa com base nas informações auditivas extraídas de entradas de áudio genéricas.

Resultados

Tarefas do Nível 1

A tabela a seguir demonstra os resultados nas tarefas do nível 1 e, como pode ser observado, o framework SALMONN retorna resultados competitivos nas tarefas do nível 1 com ou sem ativação-treinamento.

Tarefas dos Níveis 2 e 3

Embora o framework SALMONN retorne resultados competitivos nas tarefas do nível 1, mesmo sem ajuste fino, o mesmo não pode ser dito para as tarefas dos níveis 2 e 3, pois sem ativação, o framework SALMONN sofre muito com sobre-ajuste em tarefas, especialmente em tarefas que requerem habilidades de co-razão transmodal. O desempenho cai ainda mais nas tarefas de SQQA, co-razão de fala-áudio e contação de histórias, com ênfase em interações multimodais, e o framework SALMONN luta para seguir instruções sem ajuste de ativação. No entanto, com ajuste de ativação, os resultados melhoram consideravelmente e os resultados estão incluídos na seguinte imagem.

Desconto do Fator de Escala LoRA

Desconto do fator de escala LoRA avalia a influência do uso do desconto de tempo-teste do fator de escala LoRA para minimizar problemas de sobre-ajuste em tarefas. Como pode ser observado na seguinte figura, uma diminuição do fator de escala LoRA para 2,0 eleva a capacidade de raciocínio transmodal do framework SALMONN em tarefas de reconhecimento de fala e tradução, tarefas de SQQA, tarefas de contação de histórias e tarefas de co-razão de fala-áudio, respectivamente.

Avaliação do Sobre-Ajuste de Tarefa

Para enfatizar o ajuste de ativação, o framework SALMONN analisa as alterações na perplexidade durante as três etapas de treinamento e, como pode ser visto na seguinte imagem, as alterações na perplexidade para as tarefas de legendagem de áudio e reconhecimento de fala têm valores finais pequenos após a primeira etapa de treinamento, indicando que o modelo aprendeu alinhamentos transmodais.

Além disso, a perplexidade da tarefa de reconhecimento de fala também cai após o ajuste de instruções devido à sua dependência do componente LoRA para aprender tokens de saída. Também é observado que, embora o ajuste de instruções ajude a reduzir a perplexidade nas tarefas de contação de histórias e co-razão de fala-áudio, a lacuna ainda é grande o suficiente para realizar as tarefas com sucesso, a menos que uma etapa de ativação adicional seja adicionada ou o componente LoRA seja removido.

Ajuste de Ativação

O framework SALMONN mergulha em diferentes métodos de ativação, incluindo treinar o modelo em pares de tarefas de perguntas e respostas baseadas em texto com respostas longas ou usando histórias escritas longas baseadas em áudio, enquanto usa transcrições de fala longas para tarefas de reconhecimento de fala. Ambos os componentes Q-Former e LoRA são ajustados usando esses três métodos. Além disso, o framework ignora as entradas de áudio e Q-Former em uma tentativa de ajustar os componentes LoRA e Vicuna como um modelo de linguagem grande baseado em texto adaptável e os resultados estão demonstrados na seguinte imagem e, como pode ser visto, o modelo não pode ser ativado por ASR (treinando ASR com rótulos longos), nem por história ou texto, treinando o componente LoRA usando entradas de prompt de texto.

Pensamentos Finais

Neste artigo, falamos sobre SALMONN ou Speech Audio Language Music Open Neural Network, um framework de modelo de linguagem grande multimodal de áudio-texto único capaz de perceber e entender três tipos básicos de som ou áudio, incluindo fala, eventos de áudio e música. O modelo SALMONN permite que Grandes Modelos de Linguagem entendam e processem entradas de áudio genéricas diretamente e forneçam desempenho competitivo em uma ampla variedade de tarefas de áudio e fala.

O framework SALMONN fornece desempenho competitivo em uma ampla variedade de tarefas treinadas, incluindo legendagem de áudio, tradução e reconhecimento de fala, e mais, enquanto generaliza para uma ampla variedade de tarefas de compreensão não treinadas, incluindo tradução de fala para extração de palavras-chave e idiomas não treinados. Devido às suas habilidades, o framework SALMONN pode ser considerado o próximo passo para melhorar as habilidades auditivas genéricas dos grandes modelos de linguagem.