人工智能

Salmonn：通往大型语言模型的通用听觉能力

发布于 2023年11月28日

更新于 2026年5月22日

作者

Kunal Kejriwal

听觉是人工智能代理在现实世界环境中感知和理解通用音频信息的能力，对于人工智能代理来说至关重要。这种音频信息包括三个主要的音频类型：音乐、音频事件和语音。最近，基于文本的Large Language Model（LLM）框架在广泛的自然语言处理（NLP）任务中表现出色，达到人类水平的性能。此外，指令调优，一种使用参考响应和用户提示对的训练方法，变得流行起来。这种方法可以更有效地训练大型语言模型以遵循开放式用户指令。然而，当前的研究越来越专注于增强大型语言模型以感知多模态内容的能力。

同样，在本文中，我们将讨论SALMONN或Speech Audio Language Music Open Neural Network，它是一个由语音和音频编码器与预训练的基于文本的Large Language Model结合而成的单音频-文本多模态模型。SALMONN模型使Large Language Model能够直接理解和处理通用音频输入，并在广泛的音频和语音任务中实现竞争性的性能，包括听觉信息基于的问答、语音识别和翻译、说话人验证、情感识别、音频和音乐字幕等。我们将更深入地探讨SALMONN框架、其工作原理、架构和在广泛的NLP任务中的结果。让我们开始吧。

SALMONN：单音频-文本多模态大型语言模型介绍

SALMONN代表Speech Audio Language Music Open Neural Network，它是一个单音频-文本多模态大型语言模型框架，能够感知和理解三种基本的音频或声音类型，包括语音、音频事件和音乐。SALMONN模型使Large Language Model能够直接理解和处理通用音频输入，并在广泛的音频和语音任务中实现竞争性的性能。

为了提高其在语音和非语音音频任务中的性能，SALMONN框架采用了双编码器结构，包括一个BEATs音频编码器和一个来自Whisper语音模型的语音编码器。另外，SALMONN框架还使用了一个窗口级Q-Former或查询Transformer作为连接模块，以有效地将变长编码器输出序列转换为增强的音频标记，并最终实现高时间分辨率的音频-文本对齐。LoRA或低秩适应方法被用作跨模态适配器，以将Vicuna框架的输出空间与其增强的输入空间对齐，进一步提高其性能。在SALMONN框架中，执行跨模态任务的能力在训练阶段丢失，这是因为指令训练的主要原因，因此SALMONN框架实施了额外的少量激活阶段，以恢复LLM框架的普遍出现能力。

此外，框架使用了广泛的音频事件、音乐基准和语音基准来评估其认知听觉能力，并将基准分为三个级别。在第一个基准级别，框架在指令训练中训练八个任务，包括翻译、音频字幕和语音识别。其他两个基准级别是未训练的任务，第二个基准级别由五个基于语音的NLP任务组成，例如槽填充和翻译到未训练的语言，依赖于高质量的多语言对齐之间的文本和语音标记。最后一个基准级别的任务尝试理解语音和非语音听觉信息，用于语音-音频共理和音频基于的讲故事。

总之，SALMONN框架是

第一个能够理解和感知通用音频输入的多模态大型语言模型，包括音频事件、语音和音乐，达到其能力的最大限度。
通过实施LoRA缩放因子和使用额外的预算友好激活阶段来分析跨模态出现的能力的尝试，以激活框架的跨模态出现的能力。

SALMONN：架构和方法

在本节中，我们将探讨SALMONN框架的架构、训练方法和实验设置。

模型架构

在其架构的核心，SALMONN框架同步和合并了两个听觉编码器的输出，然后实施了一个Q-Former作为连接模块。Q-Former生成的输出序列与文本指令提示合并，然后作为输入提供给LoRA适配方法以生成所需的响应。

听觉编码器

SALMONN框架使用了两个听觉编码器：一个非语音BEATs音频编码器和一个来自OpenAI的Whisper语音模型的语音编码器。BEATs音频编码器使用自监督迭代学习方法来提取非语音高级音频语义，而语音编码器在大量弱监督数据上训练用于语音识别和语音翻译任务，编码器的输出特征适合包括背景噪声和语音信息。模型首先对输入音频进行标记化，然后在训练中进行掩蔽和预测。两个编码器的听觉特征互相补充，适合语音和非语音信息。

窗口级Q-Former

实施Q-Former结构是LLM框架中常见的方法，用于将图像编码器的输出转换为文本输入标记，当处理变长音频标记时需要一些修改。具体来说，框架将输入图像的编码器输出视为连接的编码器输出序列，Q-Former部署了一组可训练的查询来转换编码器输出序列为文本标记，使用Q-Former的堆叠块。一个Q-Former块类似于Transformer解码器块，除了去掉自注意力层中的因果掩蔽和使用初始块中的固定数量的可训练静态查询。

LoRA和LLM

SALMONN框架还部署了一个Vicuna LLM，它是一个LLaMA大型语言模型框架，经过微调以更准确、更有效地遵循指令。LoRA框架是一种常见的参数高效微调方法，其包含在SALMONN框架中，以值权重矩阵和适配自注意力层中的查询。

训练方法

SALMONN框架使用了一种三阶段的跨模态训练方法。训练阶段包括预训练阶段和指令调优阶段，这两个阶段在大多数视觉LLM框架中都存在，还有一个额外的激活调优阶段来解决音频字幕和语音识别任务中的过拟合问题。

预训练阶段

为了限制预训练参数（包括编码器和LLM）和随机初始化参数（包括适配器和连接模块）之间的差距，SALMONN框架使用大量音频字幕和语音识别数据来预训练LoRA和Q-Former组件。这些任务包含音频事件（语音和非语音）关键内容的重要听觉信息，并不需要复杂的理解或推理来学习文本和听觉信息之间的对齐。

指令调优阶段

SALMONN框架中的指令调优阶段类似于NLP和视觉LLM框架中的指令调优阶段，使用音频事件、音乐任务和语音事件的列表来调优音频-文本指令。任务根据其在不同测试中的重要性进行优先排序，包括电话识别、重叠语音识别和音乐字幕。此外，音频数据配对的文本信息形成生成指令提示的基础。

任务过拟合

即使只实施前两个训练阶段，SALMONN框架在指令调优任务中也能提供竞争性的结果，尽管在执行跨模态任务（尤其是需要跨模态共理能力的任务）时，性能并不理想。特别是，模型有时会违反指令提示，导致生成不相关或不正确的响应，这种现象在SALMONN框架中被称为任务过拟合，激活调优阶段被实施来解决这些过拟合问题。

激活调优阶段

解决过拟合问题的一种有效方法是使用更长、更丰富的响应（如故事或听觉信息基于的问答）来正则化内在条件语言模型。然后，框架使用文本配对音频或语音或音乐字幕来生成此类任务的配对训练数据。

任务规格

为了评估SALMONN的零次跨模态出现的能力，开发人员包含了15个语音、音频和音乐任务，分为三个级别。

级别1

在第一个级别中，任务用于指令调优，因此这是SALMONN框架必须执行的最简单的一组任务。

级别2

第二个级别由未训练的任务组成，相比第1级任务，其复杂性更高。在第2级中，任务是基于NLP的任务，包括语音关键字提取，用于评估框架在使用语音提取某些关键字时的准确性。其他任务包括SQQA或基于语音的查询问答，用于评估框架从语音中提取的常识知识，SF或基于语音的槽填充任务，用于评估槽值的准确性，最后还有两个AST任务，用于英语到德语和英语到日语的转换。

级别3

与其他两个级别相比，第3级任务的复杂性最高，包括SAC或语音音频共理和音频基于的讲故事任务。SAC任务要求SALMONN框架理解输入到模型的音频剪辑中的问题，使用音频事件或背景音乐中的支持证据找到合适的理由来回答问题。音频基于的讲故事任务要求模型根据一般音频输入生成有意义的故事。

结果

级别1任务

以下表格显示了在级别1任务中的结果，如图所示，即使没有激活调优，SALMONN框架也能在级别1任务中提供竞争性的结果。

级别2和3任务

虽然SALMONN框架即使没有细化也能在级别1任务中提供竞争性的结果，但在级别2和级别3任务中却不能如此。没有激活调优，SALMONN框架在这些任务中严重过拟合，尤其是在强调多模态交互的任务中，如SQQA、SAC和讲故事任务。SALMONN框架难以遵循指令，除非进行激活调优。然而，经过激活调优后，结果会显著改善，如下图所示。

LoRA缩放因子折扣

LoRA缩放因子折扣评估了使用时间测试LoRA缩放因子的折扣来最小化任务上的过拟合问题的影响。如图所示，将LoRA缩放因子降低到2.0可以提高SALMONN框架在ASR和PR任务、SQQA任务、讲故事任务和SAC任务上的跨模态推理能力。

评估任务过拟合

为了强调激活调优的重要性，SALMONN框架分析了在三个训练阶段中混乱度的变化，如图所示，AAC和ASR任务的混乱度在第一训练阶段后有小的最终值，表明模型学习了跨模态对齐。

此外，PR任务的混乱度在指令调优后也会降低，这是因为它依赖于LoRA组件来学习输出标记。虽然指令调优有助于降低讲故事和SAC任务的混乱度，但差距仍然足够大，无法在没有额外激活阶段或移除LoRA组件的情况下成功执行任务。

激活调优

SALMONN框架探讨了不同的激活方法，包括训练模型使用长答案的文本问答任务对，或使用音频基于的长写故事，或使用长语音转录进行ASR任务。Q-Former和LoRA组件使用这三种方法进行微调。此外，框架忽略了音频和Q-Former输入，以微调LoRA和Vicuna组件作为适应性文本大型语言模型，结果如图所示，模型不能通过ASR（使用长标签训练ASR）或故事或文本激活LoRA组件来激活。

总结

在本文中，我们讨论了SALMONN或Speech Audio Language Music Open Neural Network，它是一个单音频-文本多模态大型语言模型框架，能够感知和理解三种基本的音频或声音类型，包括语音、音频事件和音乐。SALMONN模型使Large Language Model能够直接理解和处理通用音频输入，并在广泛的音频和语音任务中实现竞争性的性能。

SALMONN框架在广泛的训练任务中提供了竞争性的性能，包括音频字幕、语音翻译和识别等，同时推广到一系列未训练的理解任务，包括语音翻译用于关键字提取和未训练的语言。由于其能力，SALMONN框架可以被视为增强大型语言模型的通用听觉能力的下一步。