人工智能

Gemma：谷歌通过开源实现高级AI能力

Published February 29, 2024

Updated April 4, 2026

Aayush Mittal Mittal

近年来，人工智能（AI）领域取得了巨大的进步，主要是由于深度学习和自然语言处理（NLP）的进展。这些进展的前沿是大型语言模型（LLM）- 在大量文本数据上训练的AI系统，可以生成类似人类的文本并执行对话任务。

像Google的PaLM、Anthropic的Claude和DeepMind的Gopher这样的LLM已经展示了令人惊叹的能力，从编码到常识推理。然而，大多数这些模型尚未公开发布，限制了它们用于研究、开发和有益应用的机会。

这随着最近Google的DeepMind开源了Gemma而改变 – 一个基于其强大的专有Gemini模型的LLM家族。在这篇博客文章中，我们将深入探讨Gemma，分析其架构、训练过程、性能和负责任的发布。

Gemma概述

2023年2月，DeepMind 开源了两个大小的Gemma模型 – 一个优化为设备部署的20亿参数版本和一个为GPU/TPU使用而设计的70亿参数版本。

Gemma利用了与DeepMind领先的Gemini模型类似的变换器架构和训练方法。它是在最多6万亿个文本标记的基础上训练的，包括网页文档、数学和代码。

DeepMind发布了Gemma的原始预训练检查点，以及使用有监督学习和人类反馈对其进行微调的版本，以增强其在对话、指令跟随和编码等领域的能力。

开始使用Gemma

Gemma的开源发布使其高级AI能力对开发人员、研究人员和爱好者来说是可访问的。以下是快速入门指南：

平台无关部署

Gemma的一个关键优势是其灵活性 – 您可以在CPU、GPU或TPU上运行它。对于CPU，使用TensorFlow Lite或HuggingFace Transformers。对于GPU/TPU上的加速性能，使用TensorFlow。像Google Cloud的Vertex AI这样的云服务也提供无缝的扩展。

访问预训练模型

Gemma根据您的需求提供不同版本的预训练模型。2B和7B模型提供了出色的生成能力。对于自定义微调，2B-FT和7B-FT模型是理想的起点。

构建令人兴奋的应用程序

您可以使用Gemma构建多种应用程序，例如故事生成、语言翻译、问答和创意内容制作。关键是通过在您自己的数据集上对Gemma进行微调来利用其优势。

架构

Gemma采用了仅解码器的变换器架构，建立在多查询注意力和旋转位置嵌入等进展之上：

变换器： 2017年引入的变换器架构仅基于注意力机制，已成为NLP中的一个基本组件。Gemma继承了变换器模拟文本中长距离依赖关系的能力。
仅解码器： Gemma仅使用变换器解码器堆栈，不像BART或T5这样的编码器-解码器模型。这种设计提供了强大的生成能力，适用于文本生成等任务。
多查询注意力： Gemma在其较大的模型中采用了多查询注意力，每个注意力头可以并行处理多个查询，从而实现更快的推理。
旋转位置嵌入： Gemma使用旋转嵌入来表示位置信息，而不是使用绝对位置编码。这种技术在保留位置信息的同时减少了模型大小。

使用多查询注意力和旋转位置嵌入等技术使Gemma模型能够在性能、推理速度和模型大小之间实现最佳平衡。

数据和训练过程

Gemma是在最多6万亿个文本标记的基础上训练的，主要是英语，包括网页文档、数学文本和源代码。DeepMind在数据过滤方面投入了大量精力，使用分类器和启发式方法删除了可能有毒或有害的内容。

训练是在Google的TPUv5基础设施上进行的，使用了最多4096个TPU来训练Gemma-7B。高效的模型和数据并行技术使得能够使用大型模型和商品硬件进行训练。

使用了分阶段训练，连续调整数据分布以关注高质量、相关的文本。最终的微调阶段使用了人类生成和合成的指令跟随示例来增强能力。

模型性能

DeepMind在超过25个基准测试中对Gemma模型进行了严格的评估，涵盖了问答、推理、数学、编码、常识和对话能力等方面。

Gemma在大多数基准测试中实现了与类似规模的开源模型相似的最先进的结果。一些亮点：

数学： Gemma在数学推理测试（如GSM8K和MATH）中表现出色，超过Codex和Anthropic的Claude 10多个点。
编码： Gemma在编程基准测试（如MBPP）上与Codex的性能相匹配或超过，尽管它没有专门针对代码进行训练。
对话： Gemma在人类偏好测试中展示了强大的对话能力，51.7%的胜率超过了Anthropic的Mistral-7B。
推理： 在需要推理的任务（如ARC和Winogrande）中，Gemma超过其他7B模型5-10个点。

Gemma在各个领域的多功能性展示了其强大的通用智能能力。虽然与人类水平性能仍然存在差距，但Gemma代表了开源NLP的一个飞跃。

安全和责任

发布大型模型的开源权重引入了故意滥用和固有模型偏差的挑战。DeepMind采取了措施来减轻这些风险：

数据过滤： 使用分类器和启发式方法从训练数据中删除了可能有毒、非法或有偏见的文本。
评估： Gemma在30多个基准测试中进行了评估，以评估安全性、公平性和鲁棒性。它与其他模型相匹配或超过了其他模型。
微调： 模型微调专注于提高安全能力，例如信息过滤和适当的拒绝/犹豫行为。
使用条款： 使用条款禁止使用Gemma模型进行攻击性、非法或不道德的应用。然而，执行仍然具有挑战性。
模型卡： 发布了详细介绍模型能力、限制和偏差的模型卡，以促进透明度。

虽然开源存在风险，但DeepMind认为Gemma的发布提供了净社会利益，基于其安全性特征和促进研究的能力。然而，监测潜在危害仍将至关重要。

激发下一波AI创新

发布Gemma作为开源模型家族将在AI社区中带来进步：

可访问性： Gemma降低了组织使用尖端NLP构建的门槛，之前他们面临着训练自己的LLM的高计算/数据成本。
新应用： 通过开源预训练和微调检查点，DeepMind使得在教育、科学和可访问性等领域开发有益应用变得更加容易。
自定义： 开发人员可以通过在专有数据上继续训练来进一步自定义Gemma以适应行业或特定领域的应用。
研究： 像Gemma这样的开源模型促进了当前NLP系统的透明度和审计，照亮了未来的研究方向。
创新： 像Gemma这样的强基线模型的可用性将加速偏差减轻、事实性和AI安全等领域的进展。

通过为所有人提供Gemma的能力，DeepMind希望促进AI的负责任开发，造福社会。

前路

随着AI的每一步进展，我们都更接近于模拟或超过人类在所有领域的智能水平。像Gemma这样的系统凸显了自监督模型的快速进展如何解锁日益先进的认知能力。

然而，仍需要改进AI的可靠性、可解释性和可控性 – 这些领域的人类智能仍然占据主导地位。数学等领域凸显了这些持续的差距，Gemma在MMLU上获得了64%的分数，而人类的表现估计为89%。

弥补这些差距的同时，确保日益强大的AI系统的安全性和道德性将是未来的核心挑战。平衡开放性和谨慎性将至关重要，因为DeepMind旨在民主化AI的益处，同时管理新出现的风险。

促进AI安全的举措 – 像Dario Amodei的ANC、DeepMind的伦理与社会团队和Anthropic的宪法AI – 表明了对这一需求的日益认识。有意义的进展将需要研究人员、开发人员、政策制定者和公众之间的开放、基于证据的对话。

如果被负责任地处理，Gemma代表的不是AI的顶峰，而是下一代AI研究人员在DeepMind的脚步中迈向公平、有益的通用人工智能的基石。

结论

DeepMind发布Gemma模型标志着开源AI的新时代 – 这个时代超越了狭隘的基准，实现了通用智能能力。经过广泛的安全性测试和广泛的可访问性，Gemma为AI的负责任开源设定了新的标准。

由竞争精神和合作价值驱动，像Gemma这样的突破性进展提高了整个AI生态系统的水平。整个社区现在可以使用一个多功能的LLM家族来推动或支持他们的计划。

虽然风险仍然存在，但DeepMind的技术和道德勤勉提供了信心，表明Gemma的益处超过了其潜在的危害。随着AI能力的不断增长，保持开放性和谨慎性之间的微妙平衡将至关重要。

Gemma使我们更接近于造福整个人类的AI。但是，仍有许多重大挑战等待在通往仁慈通用人工智能的道路上。如果AI研究人员、开发人员和整个社会能够保持合作的进展，Gemma可能有一天会被视为一个历史性的基石，而不是最终的顶峰。

Unite.AI