Refresh

This website www.unite.ai/zh-CN/%E8%90%A8%E9%97%A8%E8%87%B4%E5%8A%9B%E4%BA%8E%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E9%80%9A%E7%94%A8%E5%90%AC%E5%8A%9B%E8%83%BD%E5%8A%9B/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

存根 Salmonn:实现大型语言模型的通用听力能力 - Unite.AI
关注我们.

人工智能

Salmonn:走向大型语言模型的通用听力能力

mm
更新 on

听力涉及对通用听觉信息的感知和理解,对于现实环境中的人工智能代理至关重要。 该听觉信息包含三种主要声音类型:音乐、音频事件和语音。 最近,基于文本的大语言模型(LLM)框架表现出了非凡的能力,在广泛的领域实现了人类水平的表现 自然语言处理 (自然语言处理)任务。 此外,指令调整(一种使用成对的参考响应和用户提示的训练方法)已经变得流行。 这种方法训练大型语言模型以更有效地遵循开放式用户指令。 然而,当前的研究越来越集中于增强大型语言模型,使其具有感知多模态内容的能力。

同样,在本文中,我们将讨论 SALMONN 或语音音频语言音乐开放神经网络,一种最先进的开放式语音音频语言音乐神经网络,通过将语音和音频编码器与基于预训练的基于文本的大语言模型合并到单一音频文本多模态模型中而构建。 SALMONN 模型使 大型语言模型 直接理解和处理通用音频输入,并在培训中使用的各种音频和语音任务中提供具有竞争力的性能,包括基于听觉信息的问答、语音识别和翻译、说话者验证、情感识别、音频和音乐字幕以及多得多。 我们将更深入地研究 SALMONN 框架,并探索其在各种 NLP 任务中的工作原理、架构和结果。 那么让我们开始吧。 

SALMONN:单音频文本多模态大语言模型简介

SALMONN 代表语音音频语言音乐开放神经网络,它是一个单一音频文本多模态大语言模型框架,能够感知和理解包括语音、音频事件和音乐在内的三种基本音频或声音类型。 SALMONN 模型使大型语言模型能够直接理解和处理通用音频输入,并在各种音频和语音任务上提供具有竞争力的性能。 

为了提高其在语音和非语音音频任务上的性能,SALMONN 框架采用了双编码器结构,该结构由 BEATs 音频编码器和源自 Whisper 语音模型的语音编码器组成。 此外,SALMONN框架还使用窗口级Q-Former或查询Transformer作为连接模块,有效地将可变长度编码器的输出序列转换为可变数量的增强音频令牌,最终实现音频的高时间分辨率。文本对齐。 这 LoRA 或低秩适应 方法被用作 Vicuna 框架的跨模式适配器,以将其输出空间与其增强的输入空间对齐,以进一步提高其性能。 在SALMONN框架中,执行训练阶段未见的跨模态任务的能力在指令训练期间作为跨模态涌现能力而丢失,这是SALMONN框架实施额外的几次激活阶段以重新获得LLM的主要原因框架的一般涌现能力。 

此外,该框架利用广泛的音频事件、音乐基准和语音基准来评估其认知听力能力,并将基准分为三个级别。 在第一个基准级别,该框架在教学训练中训练了八项任务,包括翻译、音频字幕和语音识别。 另外两个基准级别是未经训练的任务,第二级基准由 5 个基于语音的自然语言处理任务组成,例如槽填充和翻译为未经训练的语言,依赖于文本和语音标记之间的高质量多语言对齐。 最终级别的基准任务试图理解语音和非语音听觉信息,以进行语音协同推理和基于音频的故事讲述。 

综上所述,SALMONN框架是

  1. 第一个多模态大语言模型能够最大限度地理解和感知一般音频输入,包括音频事件、语音和音乐。 
  2. 尝试分析通过实施 LoRA 缩放因子提供的跨模式应急能力,并在训练期间使用额外的预算友好激活阶段来激活框架的跨模式应急能力。 

SALMONN:架构和方法论

在本节中,我们将了解 SALMONN 框架的架构、训练方法和实验设置。 

模型架构

在其架构的核心,SALMONN 框架同步并组合两个听觉编码器的输出,随后框架在帧级别实现 Q-Former 作为连接模块。 Q-Former 生成的输出序列与文本指令提示合并,然后作为 LoRA 适应方法的输入提供,以生成所需的响应。 

听觉编码器

SALMONN 框架使用两个听觉编码器:一个非语音 BEATs 音频编码器和一个来自 OpenAI 的 Whisper 框架的语音编码器。 BEATs 音频编码器经过训练,使用自监督迭代学习方法来尝试提取非语音高级音频语义,而语音编码器则接受大量弱监督数据的训练,用于语音识别和语音翻译任务,其中编码器的输出特征适合包括背景噪声和语音信息。 该模型首先对输入音频进行标记,然后在训练中对其进行掩蔽和预测。 这两个编码器产生的听觉特征相互补充,并且适用于语音和非语音信息。 

窗位 Q-Former

实现 Q-Former 结构是 LLM 框架中将图像编码器的输出转换为文本输入标记的常用方法,并且在处理不同长度的音频标记时需要进行一些修改。 更具体地说,该框架将输入图像的编码器输出视为串联的编码器输出序列,并且 Q-Former 部署固定数量的可训练查询,以使用 Q-Former 的堆叠块将编码器输出序列转换为文本标记。 堆叠式 Q-Former 块类似于 Transformer 解码器块,不同之处在于删除了自注意力层中的临时掩码,以及在初始块中使用固定数量的可训练静态查询。 

LoRA 和法学硕士

SALMONN 框架还部署了 Vicuna LLM,这是一个 LLaMA 大型语言模型框架,经过微调,可以更准确、更有效地遵循指令。 LoRA 框架是用于参数高效微调的常用方法,它包含在 SALMONN 框架中,用于评估权重矩阵并调整自注意力层中的查询。 

训练方法

SALMONN 框架采用三阶段跨模式训练方法。 训练阶段包括预训练阶段和指令调整阶段,大多数情况下都包含这样的阶段: 视觉法学硕士框架,并实施额外的激活调整阶段来解决音频字幕和语音识别任务期间遇到的过度拟合问题。 

预训练阶段

为了限制编码器和 LLM 等预训练参数与适配器和连接模块等随机初始化参数之间观察到的差距,SALMONN 框架使用大量音频字幕和语音识别数据来预训练 LoRA 和 Q-Former 组件。 这些任务包含有关语音和非语音音频事件关键内容的重要听觉信息,并且它们都不需要复杂的理解或推理来学习文本和听觉信息之间的对齐。 

指令微调阶段

SALMONN 框架中实现的指令微调阶段类似于 NLP 和视觉 LLM 框架中实现的指令微调阶段,通过使用音频事件、音乐任务和语音事件列表来微调音频文本指令。 这些任务根据其在不同测试中的重要性进行优先级排序,包括电话识别、重叠语音识别和音乐字幕。 此外,文本信息与音频数据配对构成了生成指令提示的基础。 

任务过拟合

即使只实现前两个训练阶段,SALMONN 框架在指令调优任务上也能提供有竞争力的结果,尽管在执行跨模态任务时,尤其是需要跨模态协同推理能力的任务时,性能并没有达到标准。 具体来说,模型偶尔会违反指令提示,导致生成不相关或不正确的响应,这种现象在SALMONN框架中被称为任务过拟合,而激活调优阶段就是为了解决这些过拟合问题而实现的。 

激活调整阶段

解决过度拟合问题的有效方法是使用更长、更多样化的响应(例如讲故事或基于听觉信息的问答)来规范内在条件语言模型。 然后,该框架使用与音频或语音或音乐字幕配对的文本生成此类任务的配对训练数据。 

任务规格

为了评估 SALMONN 的零样本跨模式涌现能力,开发人员纳入了 15 个语音、音频和音乐任务,分为三个级别。 

等级1

在第一级中,任务用于指令调整,因此,它们是 SALMONN 框架必须执行的最简单的一组任务。 

等级2

第二级由未经训练的任务组成,与第一级任务相比,复杂程度更高。 在级别 1 中,任务是基于自然语言处理的任务,包括语音关键字提取,用于在使用语音提取某些关键字时评估框架的准确性。 其他任务包括 SQQA(基于口语查询的问答),用于评估框架使用语音问题提取的常识知识;SF 或基于语音的槽填充任务,用于评估槽值的准确性;最后,有两个 AST 任务英语到德语、英语到日语的转换。 

等级3

与其他两个级别相比,第 3 级任务的复杂性是最大的,它包括 SAC 或语音音频协同推理以及基于音频的讲故事任务。 SAC 任务要求 SALMONN 框架理解输入到模型的音频剪辑中包含的问题,使用背景中的音频事件或音乐找到支持证据,最后生成回答问题的适当理由。 基于音频的讲故事任务要求模型根据来自一般音频输入的听觉信息生成有意义的故事。

成果

1 级任务

下表展示了 1 级任务的结果,可以看出,SALMONN 框架在有或没有激活调整的情况下在 1 级任务上返回有竞争力的结果。 

2 级和 3 级任务

尽管即使没有微调,SALMONN 框架也能在 1 级任务上返回有竞争力的结果,但对于 2 级和 3 级任务却不能说同样的结果,因为没有激活,SALMONN 框架严重受到任务过度拟合的影响。 SQQA、SAC 和讲故事任务的性能进一步下降,重点是 多模态交互,并且 SALMONN 框架在没有激活调整的情况下很难遵循指令。 然而,通过激活调整,结果显着改善,结果包含在下图中。 

折扣 LoRA 缩放因子

LoRA 缩放因子折扣评估使用 LoRA 缩放因子的时间测试折扣的影响,以最大限度地减少任务的过度拟合问题。 如下图所示,LoRA 缩放因子降低至 2.0 分别提升了 SALMONN 框架在 ASR & PR 任务、SQQA 任务、Storytelling 任务和 SAC 任务上的跨模态推理能力。 

评估任务-过度拟合

为了强调激活调整,SALMONN 框架分析了三个训练阶段中困惑度的变化,如下图所示,AAC 和 ASR 任务的困惑度变化在第一个训练阶段后最终值较小,表明模型对跨模态对齐的学习。 

此外,PR 任务的复杂性也降低了指令后调整,因为它依赖 LoRA 组件来学习输出标记。 还观察到,尽管指令调整有助于减少讲故事和 SAC 任务的复杂性,但差距仍然足够大,无法成功执行任务,除非添加额外的激活阶段或删除 LoRA 组件。 

激活调整

SALMONN 框架深入研究了不同的激活方法,包括在具有长答案的基于文本的 QA 任务对上训练模型,或使用基于音频的长书面故事,同时对 ASR 任务使用长语音转录。 Q-Former 和 LoRA 组件都是使用这三种方法进行微调的。 此外,该框架忽略了音频和 Q-Former 输入,试图将 LoRA 和 Vicuna 组件微调为基于自适应文本的大语言模型,结果如下图所示,可以看出,该模型无法通过 ASR(使用长标签训练 ASR)来激活,也不能通过使用文本提示输入训练 LoRA 组件来激活故事或基于文本的模型。 

最后的思考

在本文中,我们讨论了 SALMONN 或语音音频语言音乐开放神经网络,这是一个单一音频文本多模态大语言模型框架,能够感知和理解包括语音、音频事件和音乐在内的三种基本音频或声音类型。 SALMONN 模型使大型语言模型能够直接理解和处理通用音频输入,并在各种音频和语音任务上提供具有竞争力的性能。 

SALMONN 框架在各种经过训练的任务(包括音频字幕、语音翻译和识别等)上提供了具有竞争力的性能,同时推广到许多未经训练的理解任务,包括用于关键字提取和未经训练的语言的语音翻译。 由于其能力,SALMONN 框架可以被视为增强大型语言模型通用听力能力的下一步。

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。