人工智能

Mistral AI：在开源领域超越Llama2设立新基准

Published October 3, 2023

Updated April 4, 2026

Aayush Mittal Mittal

大型语言模型（LLMs）最近占据了中心舞台，多亏了像ChatGPT这样的杰出表现者。当Meta推出他们的Llama模型时，它重新激发了人们对开源LLMs的兴趣。目标是什么？创建价格合理、开源的LLMs，其质量与顶级模型如GPT-4相当，但没有高昂的价格标签或复杂性。这种可负担性和效率的结合不仅为研究人员和开发人员开辟了新的途径，也为自然语言处理领域的技术进步奠定了新的时代。最近，生成式AI初创公司一直在获得资金。Together一起筹集了2000万美元，旨在建立开源生成式AI模型。Anthropic也筹集了令人印象深刻的4.5亿美元，Cohere与Google Cloud合作，今年六月份筹集了2.7亿美元。

介绍Mistral 7B：大小和可用性

总部位于巴黎、由谷歌DeepMind和Meta的校友共同创立的Mistral AI宣布推出其首个大型语言模型：Mistral 7B。该模型可以从GitHub轻松下载，甚至可以通过13.4 GB的torrent下载。该初创公司在产品发布之前就获得了创纪录的种子资金。Mistral AI的第一个7亿参数模型在所有测试中超越了Llama 2 13B，并在许多指标中超越了Llama 1 34B。与其他模型如Llama 2相比，Mistral 7B提供了类似或更好的功能，但计算开销较小。虽然基础模型如GPT-4可以实现更多，但它们的成本更高，用户体验也不如API提供的体验好，因为它们主要通过API访问。在编码任务中，Mistral 7B给CodeLlama 7B带来了挑战。另外，它的体积足够小（13.4 GB），可以在标准机器上运行。另外，Mistral 7B Instruct针对Hugging Face上的指令数据集进行了调整，在MT-Bench上表现出色，与13B聊天模型不相上下。

Hugging Face Mistral 7B 示例

性能基准测试

在详细的性能分析中，Mistral 7B与Llama 2家族模型进行了比较。结果很明确：Mistral 7B在所有基准测试中都明显超过了Llama 2 13B。事实上，它与Llama 34B的性能相匹配，尤其是在代码和推理基准测试中表现出色。基准测试分为几个类别，例如常识推理、世界知识、阅读理解、数学和代码等。一个值得注意的观察结果是Mistral 7B的成本性能指标，被称为“等效模型大小”。在推理和理解等领域，Mistral 7B表现出与Llama 2模型三倍大小的性能，这意味着内存和吞吐量的潜在节省。然而，在知识基准测试中，Mistral 7B与Llama 2 13B的性能相似，这可能是由于其参数限制影响知识压缩所致。

什么使Mistral 7B模型比其他语言模型更好？

简化注意力机制虽然注意力机制的细微差别是技术性的，但其基本思想相对简单。想象一下读一本书并突出重要的句子；这类似于注意力机制如何“突出”或给序列中的特定数据点赋予重要性。在语言模型的背景下，这些机制使模型能够专注于输入数据中最相关的部分，确保输出是连贯和上下文准确的。标准变换器中，注意力评分是使用以下公式计算的：

Transformers Attention Formula

评分公式涉及一个关键步骤，即Q和K的矩阵乘法。挑战在于，当序列长度增加时，两个矩阵都会相应地扩大，导致计算过程非常耗时。这是一个可扩展性问题，是标准变换器较慢的主要原因，尤其是在处理长序列时。 transformer 注意力机制帮助模型专注于输入数据的特定部分。通常，这些机制使用“头”来管理这种注意力。头越多，注意力越具体，但也变得更加复杂和缓慢。可以更深入地了解变换器和注意力机制这里。多查询注意力（MQA）通过使用一组“键值”头来加快速度，但有时会牺牲质量。现在，您可能会想，为什么不将MQA的速度与多头注意力的质量结合起来？这就是分组查询注意力（GQA）的作用。

分组查询注意力（GQA）

分组查询注意力

GQA是一种中间解决方案。它不是使用一个或多个“键值”头，而是将它们分组。这样，GQA实现了接近详细多头注意力的性能，但具有MQA的速度。对于像Mistral这样的模型，这意味着在不牺牲太多质量的情况下实现高效的性能。

滑动窗口注意力（SWA）

滑动窗口是另一种用于处理注意力序列的方法。这种方法使用序列中每个标记周围的固定大小的注意力窗口。随着多层堆叠这种窗口注意力，顶层最终获得了更广泛的视野，涵盖了整个输入的信息。这一机制类似于卷积神经网络（CNN）中看到的感受野。另一方面，Longformer模型的“膨胀滑动窗口注意力”在概念上与滑动窗口方法类似，它仅计算 $Q K T$ 矩阵的几个对角线。这种变化导致内存使用量线性增加，而不是二次增加，使其成为处理长序列的更高效方法。

Mistral AI的透明度与去中心化的安全问题

在他们的公告中，Mistral AI还强调了透明度，声明：“没有技巧，没有专有数据。”但是，他们目前唯一可用的模型‘Mistral-7B-v0.1’是一个预训练的基础模型，因此它可以对任何查询做出响应，而无需审查，这引发了潜在的安全问题。虽然像GPT和Llama这样的模型具有区分何时响应的机制，但Mistral的完全去中心化性质可能会被恶意行为者利用。然而，大型语言模型的去中心化具有其优点。虽然有些人可能会滥用它，但人们可以利用其力量为社会做好事并使智能技术惠及所有人。

部署灵活性

一个亮点是Mistral 7B在Apache 2.0许可下提供。这意味着没有真正的障碍来使用它——无论您是个人使用、巨型企业还是政府实体，您只需要合适的系统来运行它，或者您可能需要投资云资源。虽然还有其他许可证，如更简单的MIT许可证和合作性的CC BY-SA-4.0，它要求对派生作品进行相同的许可，但Apache 2.0为大规模项目提供了坚实的基础。

最后的想法

开源大型语言模型的崛起，如Mistral 7B，标志着人工智能行业的重大转变，使高质量的语言模型更容易被更广泛的受众所接受。Mistral AI的创新方法，如分组查询注意力和滑动窗口注意力，承诺在不牺牲质量的情况下实现高效的性能。虽然Mistral的去中心化性质带来了一些挑战，但其灵活性和开源许可证凸显了民主化人工智能的潜力。随着这个领域的不断发展，人们将不可避免地关注平衡这些模型的力量与道德考虑和安全机制。对于Mistral来说，下一步是什么？7B模型只是开始。该团队计划推出更大的模型。如果这些新模型的性能与7B模型相当，Mistral可能会迅速崛起为行业中的顶级玩家，所有这一切都发生在他们的第一年。

Related Topics:chatgpt generative ai Large Language Models Mistral AI open source

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI