人工智能
Mistral AI:在开源领域超越 Llama2 的新基准

大型语言模型(LLMs)最近占据了中心舞台,多亏了像 ChatGPT 这样的杰出表现者。当 Meta 推出他们的 Llama 模型时,它重新激发了人们对开源 LLMs 的兴趣。目标是创建价格合理、开源的 LLMs,它们的性能与顶级模型如 GPT-4 相同,但没有高昂的价格或复杂性。
这种可负担性和效率的结合不仅为研究人员和开发人员开辟了新的途径,也为自然语言处理领域的技术进步奠定了新的时代。
最近,生成式 AI 初创公司正在筹集资金。Together 筹集了 2000 万美元,旨在构建开源生成式 AI 模型。Anthropic 也筹集了 4.5 亿美元,Cohere 与 Google Cloud 合作,今年 6 月份筹集了 2.7 亿美元。
Mistral 7B 介绍:大小和可用性
Mistral AI 是一家位于巴黎的公司,由 Google DeepMind 和 Meta 的校友共同创立,宣布推出他们的第一个大型语言模型:Mistral 7B。这款模型可以从 GitHub 下载,甚至可以通过 13.4GB 的 torrent 下载。
这家初创公司在产品发布之前就获得了创纪录的种子资金。Mistral AI 的第一个 7 亿参数模型在所有测试中超越了 Llama 2 13B,并在许多指标中超过了 Llama 1 34B。
与其他模型相比,Mistral 7B 提供了相似的或更好的功能,但计算开销较小。虽然基础模型如 GPT-4 可以实现更多,但它们的成本更高,使用起来不太方便,因为它们主要通过 API 访问。
在编码任务中,Mistral 7B 与 CodeLlama 7B 不相上下。另外,它的体积为 13.4GB,足够紧凑,可以在标准机器上运行。
此外,Mistral 7B Instruct 在 Hugging Face 的指令数据集上表现出色。它在 MT-Bench 上超过了其他 7B 模型,并且在 13B 聊天模型中表现出色。
性能基准测试
在详细的性能分析中,Mistral 7B 被测量与 Llama 2 家族模型相比。结果很明确:Mistral 7B 在所有基准测试中都明显超过了 Llama 2 13B。事实上,它与 Llama 34B 的性能相匹配,尤其是在代码和推理基准测试中表现出色。
基准测试分为几个类别,例如常识推理、世界知识、阅读理解、数学和代码等。一个值得注意的观察结果是 Mistral 7B 的成本性能指标,被称为“等效模型大小”。在推理和理解等领域,Mistral 7B 表现出与 Llama 2 模型三倍大小的性能,表明它可以节省内存并提高吞吐量。然而,在知识基准测试中,Mistral 7B 与 Llama 2 13B 紧密对齐,这可能是由于其参数限制影响知识压缩所致。
什么使得 Mistral 7B 模型比其他语言模型更好?
简化注意力机制
虽然注意力机制的细微差别是技术性的,但其基本思想相对简单。想象一下读一本书并突出重要的句子;这类似于注意力机制如何“突出”或给予特定数据点在序列中的重要性。
在语言模型的背景下,这些机制使得模型能够专注于输入数据中最相关的部分,确保输出是连贯和上下文准确的。
在标准变换器中,注意力评分是使用以下公式计算的:
这些评分的公式涉及一个关键步骤 – Q 和 K 的矩阵乘法。这里的挑战是,当序列长度增长时,两个矩阵也会相应增长,导致计算密集的过程。这是标准变换器可能较慢的主要原因,尤其是在处理长序列时。

多查询注意力(MQA)可以加快速度,但有时会牺牲质量。现在,你可能会想,为什么不将 MQA 的速度与多头注意力的质量结合起来?这就是分组查询注意力(GQA)的作用。
分组查询注意力(GQA)
GQA 是一种折衷的解决方案。它不是使用一个或多个“键值”头,而是将它们分组。这样,GQA 实现了接近详细的多头注意力的性能,但具有 MQA 的速度。对于像 Mistral 这样的模型,这意味着在不损害太多质量的情况下实现高效的性能。
滑动窗口注意力(SWA)
滑动窗口是处理注意力序列的另一种方法。这种方法使用每个令牌周围的固定大小的注意力窗口。随着多层堆叠这种窗口注意力,顶层最终获得了更广泛的视野,涵盖了整个输入的信息。这种机制类似于卷积神经网络(CNN)中的感受野。
另一方面,Longformer 模型的“扩张滑动窗口注意力”概念上与滑动窗口方法类似,计算 矩阵的对角线。这种变化导致内存使用量随着序列长度的增长而线性增加,而不是二次增加,从而使其成为处理长序列的更高效的方法。
Mistral AI 的透明度与去中心化的安全问题
在他们的公告中,Mistral AI 强调了透明度,声明:“没有技巧,没有专有数据。”但同时,他们目前唯一可用的模型“Mistral-7B-v0.1”是一个预训练的基础模型,因此它可以对任何查询做出响应,而无需审查,这引发了潜在的安全问题。虽然像 GPT 和 Llama 这样的模型具有区分何时响应的机制,但 Mistral 的完全去中心化性质可能会被不良行为者利用。
然而,大型语言模型的去中心化具有其优点。虽然有些人可能会滥用它,但人们可以利用其力量为社会做好事,并使智能技术惠及所有人。
部署灵活性
一个亮点是 Mistral 7B 根据 Apache 2.0 许可证提供。这意味着没有任何真正的使用障碍 – 无论您是个人使用、巨型企业,还是政府实体,您只需要合适的系统来运行它,或者您可能需要投资云资源。
虽然还有其他许可证,如更简单的 MIT 许可证和合作共享许可证 CC BY-SA-4.0,它要求对衍生作品进行署名和相同许可,但 Apache 2.0 为大规模项目提供了坚实的基础。
最后的想法
像 Mistral 7B 这样的开源大型语言模型的崛起标志着人工智能行业的重要转变,使高质量的语言模型能够被更广泛的受众所使用。Mistral AI 的创新方法,如分组查询注意力和滑动窗口注意力,承诺在不损害质量的情况下实现高效的性能。
虽然 Mistral 的去中心化性质带来了一些挑战,但其灵活性和开源许可证凸显了民主化人工智能的潜力。随着格局的演变,重点将不可避免地转向平衡这些模型的力量与道德考虑和安全机制。
Mistral 的下一步是什么?7B 模型只是开始。该团队计划推出更大的模型。如果这些新模型的性能与 7B 相同,Mistral 可能会在一年内迅速崛起为行业顶级玩家。


















