存根 Zephyr-7B:HuggingFace 的超优化 LLM 建立在 Mistral 7B 之上 - Unite.AI
关注我们.

人工智能

Zephyr-7B:HuggingFace 的超优化 LLM 建立在 Mistral 7B 之上

mm
更新 on
赛弗7B

介绍

开放大语言模型 (LLM) 的发展对人工智能研究社区产生了重大影响,特别是在开发聊天机器人和类似应用程序方面。 随着 LLaMA 等模型的发布,关于高效微调、扩展提示处理、检索增强生成 (RAG) 和量化的研究激增。

例如,LLaMA 模型标志着微调和快速情境化的新时代,为后续模型(如 MosaicML 的 MPT、Together AI 的 RedPajama-INCITE、TII 的 Falcon 和 Meta 的 Llama 2)铺平了道路。这些模型中的每一个都贡献了独特的功能,增强法学硕士的整体功能和范围。

Mistral AI 是一家来自巴黎的初创公司,由前 Google DeepMind 和 Meta 员工创立,凭借其首款产品 Mistral 7B 而名声大噪。

Mistral 7B 的优势在于其效率,与 Llama 2 等同类产品相比,提供类似或增强的功能,但计算需求较少。

Mistral 7B Instruct 专门针对教学任务进行了调整,在 Hugging Face 等平台上表现出色,超越了同尺寸的其他模型,并与参数几乎翻倍的模型展开了激烈的竞争。

在此基础上,推出了 Hugging Face 西风 7B 阿尔法,展示了经过微调的 Mistral 7B 确实可以超越更大的聊天模型的能力,在某些任务中甚至可以与 GPT-4 相媲美。 “Alpha”只是一个开始,因为 和风7B 贝塔紧随其后。

本文将探讨 Zephyr 7B 如何利用更大模型的力量来提高其响应能力并与人类指令保持一致,这一过程通过知识蒸馏技术得以实现。 这种方法涉及根据较大模型学到的复杂模式来训练较小模型,从而在不牺牲语言建模能力的情况下减少训练需求。 我们将深入研究 Hugging Face 知识蒸馏方法的细节。

知识升华

开发模型的关键创新,例如 Zephyr-7B 是蒸馏监督微调(dSFT)。 该方法涉及使用更大、能力更强的“教师”模型的输出来训练较小的“学生”模型,从而提高其准确性。 虽然蒸馏改进了各种任务的开放模型,但与教师模型相比,性能差距仍然存在。

知识蒸馏是机器学习中的一种方法,其中一个紧凑的模型,称为“学生,”被教导复制更大、更复杂的“的性能老师“ 模型。 这项技术使学生能够通过转移老师学到的复杂模式来执行以前超出其能力的任务。

知识蒸馏,| 师生模式

知识蒸馏| 师生模式

学生模型根据教师模型生成的输出概率或特征进行训练,重点是匹配这些输出而不仅仅是最终预测。 这使得学生能够学习老师细致入微的决策过程,通常会比仅使用真实数据进行训练提高表现。

从历史上看,知识蒸馏已被用于 Hinton 的原始蒸馏网络等模型中,最近又被用于 NLP 中的 DistilBERT 等模型,它将 BERT 模型蒸馏为更小、更快的版本,保留了大部分原始语言理解能力。 另一个例子是 TinyBERT,它进一步优化了移动或边缘设备的尺寸和速度。

就 Zephyr-7B 而言,知识蒸馏用于为较小的 7B 参数模型注入较大模型的功能。 通过这样做,Zephyr-7B 实现了性能和效率之间的平衡,使其适用于计算资源有限的环境,同时又不牺牲交互和理解的质量。

在开发 Zephyr-7B 的过程中,研究人员解决了完全通过蒸馏调整小型开放式法学硕士的挑战。 他们引入了一种称为蒸馏直接偏好优化(dDPO)的方法,该方法使用来自教师模型集合的人工智能反馈作为偏好数据。 这种方法不需要人工注释,显着减少了模型训练所需的时间和资源。

建造 ZEPHYR-7B

为了验证 dDPO,研究人员构建了 ZEPHYR-7B,这是 Mistral-7B 模型。 该过程涉及三个步骤:

  1. 使用 UltraChat 数据集的 dSFT:蒸馏监督微调 (dSFT) 是一种通过利用更大、更强大的“教师”模型的输出来训练大型语言模型 (LLM) 的先进方法。 它从一个原始的法学硕士开始,经过训练可以响应用户提示。 与使用固定数据集的传统监督微调 (SFT) 不同,dSFT 采用动态方法,模型本身生成指令和响应。 这种方法称为自我指导,涉及使用教师模型来回答并根据响应完善指令。该过程从一组代表不同主题的种子提示(x₀₁,x₀₂,...,x₀_J)开始。 每个提示都被迭代地细化:对于给定的提示x₀,教师模型生成响应y₀,然后根据x₀和y₀采样新的指令x₁。 最终数据集 C = {(x₁, y₁), …, (x_J, y_J)} 用于微调模型。
  2. 合并来自 UltraFeedback 的 AI 反馈数据:这些数据对于完善模型的响应至关重要。 在此步骤中,模型会生成对各种提示的响应(例如描述如何制作巧克力布朗尼),然后按更高级的模型(例如 GPT-4)对这些响应进行排名。 最高得分响应 (yw) 和随机选择的较低得分响应 (yl) 形成反馈数据集 D。
  3. 应用 dDPO:最后一个阶段,蒸馏直接偏好优化 (dDPO),涉及通过最大化将偏好响应排名较高的概率来完善 dSFT 模型。 这是通过在偏好模型中使用奖励函数 rθ(x, y) 来实现的,该函数基于最优 LLM 策略 π* 和原始策略 πdSFT。 优化目标公式为 πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)),它通过从模型的 dSFT 版本开始并迭代每个 AIF 三元组来简化训练过程。
Zephyr-7B 中使用的方法反映了 InstructGPT 中使用的过程。

Zephyr-7B 中使用的方法反映了 InstructGPT 中使用的过程。

值得注意的是,Zephyr-7B 的性能可与更大的 70B 参数模型相媲美,并且符合人类反馈。 它在学术基准和会话能力方面都表现出色,凸显了偏好学习在模型开发中的有效性。 如需进一步探索,可在以下位置获取模型、代码和说明: Hugging Face 的 GitHub 存储库.

应对意图一致性的挑战

法学硕士的一个值得注意的问题是它们与人类意图的一致性。 以前的模型通常无法产生符合用户偏好的响应,从而导致答案不准确或不相关。 然而,最近的 MT-Bench 和 AlpacaEval 等基准测试提供了量化和改进这方面的工具,突显了经过人类反馈训练的专有模型比仅通过蒸馏训练的模型具有优越的性能。

评估方法

Zephyr 7B 的评估涉及跨基准的严格测试,评估模型在单轮和多轮环境中的对话能力:

  • MT 工作台:这个多轮基准测试需要一个模型来解决跨越 160 个领域的 4 个问题。 每个回答均按 GPT-XNUMX 进行评分,模型的最终得分反映了两轮问题的平均值。
  • 羊驼毛评估:在此单轮基准测试中,模型提出了涉及不同主题的 805 个问题。 这里的重点是模型的有用性,GPT-4 对响应进行评分以确定相对胜率。

此外,Zephyr 7B 在 Open LLM Leaderboard 上进行了测试,虽然不是对对话技能的直接评估,但提供了对模型推理和微调后真实性的见解。

Zephyr 7B 与各种开放和专有模型进行了比较,包括具有不同尺寸和对齐方法的模型。 它在 MT-Bench 和 AlpacaEval 上为 7B 模型建立了新的基准,并展示了与更大模型的竞争性能,验证了直接偏好优化 (dDPO) 在训练中的有效性。

SFT 和 DPO 训练阶段经过精心配置,跨越多个时期,并微调学习率和批量大小以获得最佳性能。 最终的 Zephyr 模型不仅能够抵抗过度拟合,而且在处理实际任务和学术基准方面也得到了增强。

数据集和结果

使用的数据集

在 Zephyr-7B 的开发过程中,使用了两个关键数据集来训练和完善模型,每个数据集解决对话生成的不同方面:

UltraChat 数据集

  • 来源:根据 GPT-3.5-TURBO 生成的对话开发。
  • 内容:包含 1.47 万条多轮对话,涉及 30 个主题和 20 种文本材料。
  • 精致:数据集经过真实案例启发法来纠正语法问题,并应用过滤器来增加响应的有用性并消除无用的前言短语。

UltraFeedback数据集

  • 来源:包含由 GPT-4 评估的提示,该提示根据指令遵循性、诚实性和帮助性对响应进行评级。
  • 内容:包括 64,000 个提示,每个提示有四个响应,按 GPT-4 评级。
  • 二元偏好:通过选择平均得分最高的响应作为“已选择”,并从其余响应中随机选择一个响应作为“拒绝”来生成,以增强多样性并挑战直接偏好优化 (DPO) 流程。

这两个数据集对于训练 Zephyr-7B 理解和生成遵循指令、诚实且有帮助的类人对话至关重要。 这些数据集已在 Hugging Face Hub 上提供,您可以访问 此处.

绩效和成果

下图展示了 Zephyr 7B 在各种任务类别中相对于其他模型(例如 GPT-3.5-turbo、Claude 1、GPT-4 和 Llama-2-70b-chat)的性能。 类别可能包括写作、人文、角色扮演、推理、STEM、提取、编码和数学。

从图表中,我们可以推断出Zephyr 7B在哪些领域表现出色,以及哪些领域可能需要进一步改进。 例如,如果 Zephyr 的线条在写作轴上比其他线条延伸得更远,则表明 Zephyr 在生成书面内容方面特别强。 相反,如果该线更靠近数学轴的中心,则可能表明解决数学问题的能力相对较弱。

雷达图有助于识别 Zephyr 7B 的优势和劣势,直观地展示其与 GPT-4 等大型模型和 Llama-2-70b-chat 等专业模型的对比情况。

 

模型性能雷达图

模型性能雷达图

在两个基准测试上比较各种语言模型:MT-Bench 和 AlpacaEval。 模型根据其大小、对齐方法(例如用于蒸馏监督微调的 dSFT 或用于蒸馏直接偏好优化的 dDPO)和性能分数进行评估。 Zephyr 在两个基准测试中均获得高分,表明其在生成一致响应方面的有效性。

MT-Bench 和 AlpacaEval

MT-Bench 和 AlpacaEval

结论

总之,Zephyr-7B 的开发表明,可以在不依赖基于采样的方法的情况下实现从大型语言模型 (LLM) 到较小模型的对话功能的对齐和提炼。 通过采用带有 AI 反馈的直接偏好优化 (DPO),Zephyr-7B 充分利用 Mistral-7B 的强大基础,为 7B 参数聊天模型设定了新基准,展示了较小的开源模型理解和响应用户的能力有效地意图。

然而,这项研究并非没有局限性。 对 GPT-4 作为基准评估器的依赖引入了对从中提取的模型的偏见,可能更倾向于准确的响应。 此外,这种方法对更大模型(例如 LLAMA2-70B)的可扩展性及其对性能增益的影响仍然是进一步研究的领域。 这些局限性凸显了人工智能社区持续创新和开发公正评估方法的必要性。

超越这项研究,很明显,较小的模型有可能达到较大模型的水平,从而使人工智能民主化,从而在各种应用中更容易访问和更有效地使用。 Zephyr-7B 的成功鼓励了对开源模型的进一步探索,这可以通过促进协作研究和开发来加速人工智能的进步。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。