人工智能

Gemma：谷歌通过开源实现高级AI能力

发布于 2024年2月29日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

近年来，人工智能（AI）领域取得了巨大的进步，主要由深度学习和自然语言处理（NLP）的进步驱动。在这些进步的前沿是大型语言模型（LLM）- 在大量文本数据上训练的AI系统，可以生成类似人类的文本并参与对话任务。

像谷歌的PaLM、Anthropic的Claude和DeepMind的Gopher这样的LLM已经展示了令人惊叹的能力，从编码到常识推理。然而，大多数这些模型尚未公开发布，限制了它们用于研究、开发和有益应用的机会。

这随着最近开源的Gemma而改变 – 来自谷歌DeepMind的基于其强大的专有Gemini模型的LLM家族。在这篇博客文章中，我们将深入探讨Gemma，分析其架构、训练过程、性能和负责任的发布。

Gemma概述

2023年2月，DeepMind 开源两个大小的Gemma模型 – 一个优化为设备部署的20亿参数版本和一个设计用于GPU/TPU使用的70亿参数版本。

Gemma利用了与DeepMind领先的Gemini模型类似的基于变压器的架构和训练方法。它是在最多6万亿个文本标记上训练的，包括来自网络文档、数学和代码的文本。

DeepMind发布了Gemma的原始预训练检查点以及使用有监督学习和人类反馈对其进行微调的版本，以增强其在对话、指令跟随和编码等领域的能力。

开始使用Gemma

Gemma的开放发布使其先进的AI能力对开发人员、研究人员和爱好者来说是可访问的。以下是快速入门指南：

平台无关部署

Gemma的一个关键优势是其灵活性 – 您可以在CPU、GPU或TPU上运行它。对于CPU，利用TensorFlow Lite或HuggingFace Transformers。对于GPU/TPU上的加速性能，使用TensorFlow。像谷歌云的Vertex AI这样的云服务也提供了无缝的扩展。

访问预训练模型

Gemma根据您的需求提供不同预训练变体。2B和7B模型提供了出色的生成能力。对于自定义微调，2B-FT和7B-FT模型是理想的起点。

构建令人兴奋的应用程序

您可以使用Gemma构建广泛的应用程序，例如故事生成、语言翻译、问答和创意内容生产。关键是通过在您自己的数据集上对Gemma进行微调来利用其优势。

架构

Gemma采用了仅解码器的变压器架构，建立在多查询注意力和旋转位置嵌入等进展之上：

变压器： 2017年引入的仅基于注意力机制的变压器架构已成为NLP中无处不在的技术。Gemma继承了变压器模拟文本中长距离依赖的能力。
仅解码器： Gemma仅使用变压器解码器堆栈，不像BART或T5这样的编码器-解码器模型。这种设计提供了强大的生成能力，适用于文本生成等任务。
多查询注意力： Gemma在其更大的模型中采用了多查询注意力，使每个注意力头能够并行处理多个查询以实现更快的推理。
旋转位置嵌入： Gemma使用旋转嵌入来表示位置信息，而不是绝对位置编码。这种技术减少了模型大小，同时保留了位置信息。

使用多查询注意力和旋转位置嵌入等技术使Gemma模型能够在性能、推理速度和模型大小之间达到最佳平衡。

数据和训练过程

Gemma是在最多6万亿个文本标记上训练的，主要是英文文本。这些文本包括网络文档、数学文本和源代码。DeepMind在数据过滤方面投入了大量精力，使用分类器和启发式方法从训练数据中删除有毒或有害的内容。

训练是在谷歌的TPUv5基础设施上进行的，使用了最多4096个TPU来训练Gemma-7B。高效的模型和数据并行技术使得使用普通硬件训练大型模型成为可能。

采用分阶段训练，持续调整数据分布以关注高质量、相关的文本。最终的微调阶段使用了人类生成的和合成的指令跟随示例来增强能力。

模型性能

DeepMind在超过25个基准测试中严格评估了Gemma模型，涵盖了问答、推理、数学、编码、常识和对话能力等方面。

Gemma在大多数基准测试中实现了与同等规模的开源模型相似的最先进结果。一些亮点：

数学： Gemma在数学推理测试（如GSM8K和MATH）中表现出色，超过Codex和Anthropic的Claude 10多个百分点。
编码： Gemma在编码基准测试（如MBPP）中与Codex的性能相匹配或超过，尽管它没有专门针对代码进行训练。
对话： Gemma在人类偏好测试中展示了强大的对话能力，51.7%的胜率超过了Anthropic的Mistral-7B。
推理： 在需要推理的任务中，如ARC和Winogrande，Gemma超过其他7B模型5-10个百分点。

Gemma在各个领域的多才多艺展示了其强大的通用智能能力。虽然与人类水平性能仍然存在差距，但Gemma代表了开源NLP的一个飞跃。

安全和责任

发布大型模型的开源权重引入了有关故意滥用和固有模型偏见的挑战。DeepMind采取了措施来减轻这些风险：

数据过滤： 使用分类器和启发式方法从训练数据中删除可能有毒、非法或有偏见的文本。
评估： Gemma在30多个基准测试中进行了评估，以评估其安全性、公平性和鲁棒性。它的性能与其他模型相匹配或超过其他模型。
微调： 模型微调专注于提高安全能力，例如信息过滤和适当的犹豫/拒绝行为。
使用条款： 使用条款禁止使用Gemma模型进行攻击性、非法或不道德的应用。然而，执行这些条款仍然具有挑战性。
模型卡： 发布了详细介绍模型能力、局限性和偏见的模型卡，以促进透明度。

虽然开源存在风险，但DeepMind认为Gemma的发布带来了净社会利益，基于其安全性特征和促进研究的能力。然而，需要持续监测潜在的危害。

激发下一波AI创新

作为开源模型家族，Gemma的发布有望在AI社区中解锁进步：

可访问性： Gemma降低了组织使用尖端NLP技术的门槛，这些组织以前面临着训练自己LLM的高计算/数据成本。
新应用： 通过开源预训练和微调后的检查点，DeepMind使得在教育、科学和可访问性等领域开发有益的应用程序变得更加容易。
自定义： 开发人员可以通过在专有数据上继续训练Gemma来进一步自定义它以适应行业或特定领域的应用。
研究： 像Gemma这样的开源模型促进了当前NLP系统的透明度和审计，照亮了未来的研究方向。
创新： 像Gemma这样的强大基线模型的可用性将加速偏见缓解、事实性和AI安全等领域的进展。

通过开源Gemma的能力，DeepMind希望促进AI的负责任开发，以造福社会。

前路

随着AI的每一步进展，我们都越来越接近于模型，它们可以媲美或超过人类在所有领域的智慧。像Gemma这样的系统凸显了自监督模型的快速进展如何解锁越来越先进的认知能力。

然而，仍需要改进可靠性、可解释性和可控性 – 这些领域的人类智慧仍然至高无上。数学等领域凸显了这些持续的差距，Gemma在MMLU上获得了64%的成绩，而人类的表现估计为89%。

在未来，弥合这些差距的同时，确保AI系统的安全性和伦理性将是主要挑战。DeepMind旨在民主化AI的益处，同时管理新出现的风险。促进AI安全的举措 – 如Dario Amodei的ANC、DeepMind的伦理与社会团队和Anthropic的宪法AI – 表明了对细致入微的需求的日益增长的认识。有意义的进展将需要研究人员、开发人员、政策制定者和公众之间的开放、基于证据的对话。

如果被负责任地驾驭，Gemma代表着不仅仅是AI的巅峰，而是一个新的起点，未来AI研究人员将在DeepMind的基础上继续前进，朝着公平、有益的通用AI迈进。

结论

DeepMind发布Gemma模型标志着开源AI的新时代 – 这是一个超越狭隘基准的时代，进入了普遍智能能力的领域。经过广泛的安全性测试和广泛的可访问性，Gemma为AI的负责任开源设立了新的标准。

在竞争精神和合作价值观的驱动下，像Gemma这样的突破性成果的分享提高了整个AI生态系统的水位。整个社区现在都可以访问一个多功能的LLM家族来推动或支持他们的计划。

虽然风险仍然存在，但DeepMind的技术和伦理勤勉提供了信心，表明Gemma的益处超过了其潜在的危害。随着AI能力的不断进步，保持开放和谨慎之间的微妙平衡将至关重要。

Gemma让我们更接近于造福全人类的AI。但是，通往仁慈的通用AI之路上仍然有许多重大挑战。如果AI研究人员、开发人员和整个社会能够保持合作的进步，Gemma可能有一天会被视为一个历史性的基地，而不是最终的顶峰。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI