人工智能

掌握大型语言模型指南

更新 on 2024 年 1 月 24 日

大型语言模型 (LLM) 在过去几年中迅速普及，彻底改变了自然语言处理和人工智能。从聊天机器人到搜索引擎再到创意写作辅助工具，法学硕士正在为跨行业的尖端应用程序提供动力。然而，构建有用的基于法学硕士的产品需要专门的技能和知识。本指南将为您提供全面且易于理解的关键概念、架构模式和有效利用法学硕士巨大潜力所需的实践技能的概述。

什么是大型语言模型以及它们为何重要？

LLM 是一类在海量文本语料库上进行预训练的深度学习模型，使它们能够生成类似人类的文本并以前所未有的水平理解自然语言。与依赖规则和注释的传统 NLP 模型不同，GPT-3 等法学硕士通过预测句子中的屏蔽词以无监督、自我监督的方式学习语言技能。它们的基础性质使它们能够针对各种下游 NLP 任务进行微调。

法学硕士代表了人工智能的范式转变，并启用了聊天机器人、搜索引擎和文本生成器等以前无法实现的应用程序。例如，聊天机器人现在可以使用像 Anthropic 的 Claude 这样的法学硕士进行自由形式的对话，而不是依赖脆弱的手工编码规则。法学硕士的强大能力源于三项关键创新：

数据规模：法学硕士接受了包含数十亿单词的互联网规模语料库的培训，例如 GPT-3 包含 45TB 的文本数据。这提供了广泛的语言覆盖范围。
�ͺųߴ�：像 GPT-3 这样的 LLM 拥有 175 亿个参数，使它们能够吸收所有这些数据。大模型容量是泛化的关键。
自我监督：法学硕士不是通过昂贵的人工标记进行培训，而是通过自我监督目标进行培训，这些目标从原始文本创建“伪标记”数据。这使得大规模预训练成为可能。

掌握正确调整和部署法学硕士的知识和技能将使您能够创新新的 NLP 解决方案和产品。

申请法学硕士的关键概念

虽然法学硕士具有开箱即用的令人难以置信的功能，但有效地将它们用于下游任务需要理解提示、嵌入、注意力和语义检索等关键概念。

提示法学硕士不是通过输入和输出来控制的，而是通过提示来控制的——提示是构成任务的上下文指令。例如，为了总结文本段落，我们将提供如下示例：

“段落：摘要：”

然后，模型在其输出中生成摘要。及时的工程设计对于有效指导法学硕士至关重要。

的嵌入

词嵌入将单词表示为编码语义的密集向量，允许数学运算。法学硕士利用嵌入来理解单词上下文。

Word2Vec 和 BERT 等技术创建了可以重复使用的嵌入模型。 Word2Vec 率先使用浅层神经网络通过预测相邻单词来学习嵌入。 BERT 通过屏蔽单词并根据双向上下文进行预测来生成深层上下文嵌入。

最近的研究已经发展了嵌入来捕获更多语义关系。 Google 的 MUM 模型使用 VATT 转换器来生成实体感知的 BERT 嵌入。 Anthropic 的宪法人工智能学习对社会环境敏感的嵌入。 mT5 等多语言模型通过同时对 100 多种语言进行预训练来生成跨语言嵌入。

注意

注意力层允许法学硕士在生成文本时关注相关上下文。多头自注意力是 Transformer 分析长文本中单词关系的关键。

例如，问答模型可以学习为与寻找答案相关的输入单词分配更高的注意力权重。视觉注意机制关注图像的相关区域。

最近的变体（例如稀疏注意力）通过减少冗余注意力计算来提高效率。像 GShard 这样的模型使用混合专家注意力来提高参数效率。通用变压器引入了深度递归，可以对长期依赖关系进行建模。

了解注意力创新可以深入了解扩展模型功能。

恢复

称为语义索引的大型向量数据库存储嵌入，以便对文档进行高效的相似性搜索。检索通过允许巨大的外部背景来增强法学硕士。

强大的近似最近邻算法，例如 新南威尔士州, 低烟无卤 和 PQ 即使有数十亿个文档也能实现快速语义搜索。例如，Anthropic 的 Claude LLM 使用 HNSW 检索超过 500 亿个文档索引。

混合检索结合了密集嵌入和稀疏关键字元数据，以提高召回率。像 REALM 这样的模型通过双编码器直接优化检索目标的嵌入。

最近的工作还探索了使用共享多模态向量空间在文本、图像和视频之间进行跨模态检索。掌握语义检索可以解锁多媒体搜索引擎等新应用。

这些概念将在接下来介绍的架构模式和技能中重复出现。

架构模式

虽然模型训练仍然很复杂，但使用经过尝试和测试的架构模式可以更轻松地应用预训练的法学硕士：

文本生成管道

通过以下方式利用法学硕士进行生成文本应用程序：

提示工程部门制定任务
LLM生成原始文本
用于发现问题的安全过滤器
格式化后处理

例如，论文写作辅助工具将使用提示定义论文主题，从法学硕士生成文本，过滤合理性，然后对输出进行拼写检查。

搜索和检索

通过以下方式构建语义搜索系统：

将文档语料库索引到向量数据库中以查找相似性
接受搜索查询并通过近似最近邻查找查找相关命中
将点击作为上下文提供给法学硕士来总结和综合答案

这利用了大规模文档检索，而不是仅仅依赖于法学硕士有限的背景。

多任务学习

多任务模型不是培训单个法学硕士专家，而是允许通过以下方式教授一个模型多种技能：

提示框架每项任务
跨任务联合微调
在 LLM 编码器上添加分类器以进行预测

这提高了模型的整体性能并降低了训练成本。

混合人工智能系统

通过以下方式结合法学硕士和更具象征意义的人工智能的优势：

处理开放式语言任务的法学硕士
基于规则的逻辑提供约束
KG 中表示的结构化知识
LLM和结构化数据在“良性循环”中相互丰富

这结合了神经方法的灵活性和符号方法的鲁棒性。

申请法学硕士的关键技能

考虑到这些架构模式，现在让我们深入研究让法学硕士投入工作的实用技能：

即时工程

能够有效地促进法学硕士的申请成败。关键技能包括：

将任务构建为自然语言指令和示例
控制提示的长度、特异性和声音
根据模型输出迭代地细化提示
围绕客户支持等领域策划提示集合
研究人机交互原理

提示一半是艺术，一半是科学——期望通过经验逐步提高。

编排框架

使用 LangChain、Cohere 等框架简化 LLM 应用程序开发，这些框架可以轻松地将模型链接到管道中、与数据源集成并抽象基础设施。

LangChain 提供了一个模块化架构，用于将提示、模型、前/后处理器和数据连接器组合到可定制的工作流程中。 Cohere 提供了一个工作室，用于通过 GUI、REST API 和 Python SDK 自动化 LLM 工作流程。

这些框架利用以下技术：

Transformer 分片可在 GPU 之间分割长序列的上下文
异步模型查询以实现高吞吐量
缓存策略（例如最近最少使用）可优化内存使用
分布式跟踪以监控管道瓶颈
用于运行比较评估的 A/B 测试框架
用于实验的模型版本控制和发布管理
扩展到 AWS SageMaker 等云平台以获得弹性容量

Spell 等 AutoML 工具提供提示、hparams 和模型架构的优化。 AI Economist 调整 API 消费的定价模型。

评估与监测

在部署之前评估 LLM 性能至关重要：

通过准确性、流畅性、连贯性指标衡量总体输出质量
使用包含 NLU/NLG 数据集的 GLUE、SuperGLUE 等基准测试
通过scale.com和LionBridge等框架实现人工评估
使用权重和偏差等工具监控训练动态
使用 LDA 主题建模等技术分析模型行为
使用 FairLearn 和 WhatIfTools 等库检查偏差
根据关键提示持续运行单元测试
使用 WhyLabs 等工具跟踪现实世界的模型日志和漂移
通过 TextAttack 和 Robustness Gym 等库应用对抗性测试

最近的研究通过平衡配对和子集选择算法提高了人类评估的效率。像 DELPHI 这样的模型使用因果关系图和梯度掩蔽来对抗对抗性攻击。负责任的人工智能工具仍然是一个活跃的创新领域。

多式联运应用

除了文本之外，法学硕士还开辟了多模式智能的新领域：

培养法学硕士在图像、视频、语音和其他模式上的条件
统一的多模态变压器架构
跨媒体类型的跨模式检索
生成标题、视觉描述和摘要
多模式连贯性和常识

这将法学硕士从语言扩展到对物理世界的推理。

综上所述

大型语言模型代表了人工智能能力的新时代。掌握他们的关键概念、架构模式和实践技能将使您能够创新新的智能产品和服务。法学硕士降低了创建强大的自然语言系统的障碍——凭借正确的专业知识，您可以利用这些强大的模型来解决现实世界的问题。

相关话题：注意 GPT 浪链 LLM 快速工程

下一步

AlphaGeometry：DeepMind 的 AI 掌握奥林匹克级别的几何问题

不要错过

Paint3D：用于图像生成的无光照扩散模型

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能

掌握大型语言模型指南

人工智能

掌握大型语言模型指南

目录

什么是大型语言模型以及它们为何重要？

申请法学硕士的关键概念

的嵌入

注意

恢复