人工智能

大型语言模型与商业的桥梁：LLMOps

发布于 2023年10月16日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

像OpenAI的GPT-3或其后继者GPT-4这样的LLM的基础在于深度学习，这是一种人工智能的子集，它利用具有三个或更多层的神经网络。这些模型是在大量数据上训练的，涵盖了互联网文本的广泛范围。通过训练，LLM学习预测序列中的下一个单词，给定之前的单词。这种能力，在其本质上是简单的，支撑着LLM生成连贯、上下文相关的文本的能力，跨越了长序列。

潜在的应用是无限的——从撰写电子邮件、创建代码、回答查询，到甚至创造性地写作。然而，随着巨大的力量而来的是巨大的责任，在生产环境中管理这些庞大的模型并非易事。这就是LLMOps的用武之地，它体现了一套最佳实践、工具和流程，以确保LLM的可靠、安全和高效运行。

大型语言模型集成的路线图有三条主要路线：

通用LLM的提示：
- 像ChatGPT和Bard这样的模型提供了低门槛的采用，具有最小的前期成本，尽管长期来看可能会有潜在的价格标签。
- 然而，数据隐私和安全的阴影尤其是在金融科技和医疗保健等行业中，监管框架非常严格。
对通用LLM的微调：
- 有了像Llama、Falcon和Mistral这样的开源模型，组织可以通过仅微调模型来使这些LLM与其特定的用例产生共鸣，仅需模型微调资源作为费用。
- 这条途径虽然解决了隐私和安全问题，但需要更深入的模型选择、数据准备、微调、部署和监控。
- 这条路的循环性质需要持续的参与，然而最近的创新，如LoRA（低秩适应）和Q（量化）-LoRA，已经简化了微调过程，使其成为一种越来越流行的选择。
自定义LLM训练：
- 从头开始开发一个LLM，承诺了对任务的无与伦比的准确性。然而，要求在AI专业知识、计算资源、数据和时间投资方面都很高，构成了重大的障碍。

在这三种选择中，对通用LLM进行微调是公司最有利的选择。创建一个新的基础模型可能需要花费高达1000万美元，而微调现有的模型则在10万美元到100万美元之间。这些数字源自计算费用、数据采集和标注，以及工程和研发支出。

LLMOps与MLOps

机器学习运维（MLOps）已经被广泛应用，提供了一条结构化的路径，将机器学习（ML）模型从开发转移到生产。然而，随着大型语言模型（LLM）的兴起，一个新的运维范式，即LLMOps，出现了，以解决部署和管理LLM的独特挑战。LLMOps和MLOps之间的区别在于几个因素：

计算资源：
- LLM需要大量的计算能力用于训练和微调，通常需要专用硬件，如GPU来加速数据并行操作。
- 推理的成本进一步强调了模型压缩和蒸馏技术的重要性，以降低计算费用。
迁移学习：
- 与通常从头开始训练的传统ML模型不同，LLM严重依赖迁移学习，从预训练模型开始，然后微调它以适应特定领域任务。
- 这种方法在实现最先进的性能的同时，节省了数据和计算资源。
人工反馈循环：
- LLM的迭代增强在很大程度上由来自人类的反馈的强化学习（RLHF）驱动。
- 将反馈循环集成到LLMOps管道中不仅简化了评估，还为微调过程提供了动力。
超参数调优：
- 虽然经典的ML强调通过超参数调优来提高准确率，在LLM领域，焦点也扩展到了降低计算需求。
- 调整批大小和学习率等参数可以显著改变训练速度和成本。
性能指标：
- 传统的ML模型遵循明确定义的性能指标，如准确率、AUC或F1分数，而LLM则具有不同的指标集，如BLEU和ROUGE。
- BLEU和ROUGE是用于评估机器生成的翻译和摘要质量的指标。BLEU主要用于机器翻译任务，而ROUGE用于文本摘要任务。
- BLEU衡量精度，即机器生成的摘要中出现的单词在人工参考摘要中出现的频率。ROUGE衡量召回率，即人工参考摘要中出现的单词在机器生成的摘要中出现的频率。
提示工程：
- 精确的提示对于从LLM中获取准确可靠的响应至关重要，减轻了模型幻觉和提示黑客攻击等风险。
LLM管道构建：
- 像LangChain或LlamaIndex这样的工具使得LLM管道的组装成为可能，这些管道将多个LLM调用或外部系统交互结合起来，用于知识库问答等复杂任务。

https://www.fiddler.ai/llmops

了解LLMOps工作流：深入分析

语言模型运维（LLMOps）是大型语言模型的运营骨干，确保在各个应用中无缝运行和集成。虽然看起来像是MLOps或DevOps的变体，但LLMOps具有满足大型语言模型需求的独特细微差别。让我们深入探讨图中所示的LLMOps工作流，每个阶段都进行了全面分析。

训练数据：
- 语言模型的本质在于其训练数据。这个步骤包括收集数据集，确保它们被清理、平衡和适当注释。数据的质量和多样性显著影响模型的准确性和多功能性。在LLMOps中，重点不仅在于数量，还在于与模型预期用例的对齐。
开源基础模型：
- 图中提到了“开源基础模型”，这通常是由领先的AI实体发布的预训练模型。这些模型在大型数据集上训练，作为一个很好的起点，节省了时间和资源，使得微调可以针对特定任务进行，而不是从头开始训练。
训练/微调：
- 拥有基础模型和特定的训练数据后，微调开始。这个步骤将模型完善为专门用于特定目的，例如使用医疗文献对一般文本模型进行微调以应用于医疗保健应用。在LLMOps中，严格的微调伴随着持续的检查对于防止过拟合和确保良好的泛化到未见数据是至关重要的。
训练模型：
- 微调后，一个训练好的模型就准备好部署了。这个模型是基础模型的增强版本，现已专门用于特定应用。它可以是开源的，具有公开可访问的权重和架构，也可以是专有的，由组织保密。
部署：
- 部署涉及将模型集成到一个真实环境中，以处理实际查询。它涉及关于托管的决定，无论是本地还是云平台。在LLMOps中，延迟、计算成本和可访问性的考虑，以及确保模型能够很好地扩展以处理多个同时请求都是至关重要的。
提示：
- 在语言模型中，提示是一个输入查询或语句。精心设计的提示，通常需要理解模型的行为，对于产生期望的输出至关重要，当模型处理这些提示时。
嵌入存储或向量数据库：
- 后处理后，模型可能会返回超出简单文本响应的内容。高级应用可能需要嵌入——代表语义内容的高维向量。这些嵌入可以被存储或作为服务提供，允许快速检索或比较语义信息，丰富了模型的能力，超出了简单的文本生成。
部署模型（自托管或API）：
- 一旦处理完成，模型的输出就准备好了。根据策略，输出可以通过自托管界面或API访问，前者为托管组织提供了更多控制权，后者为第三方开发者提供了可扩展性和易于集成。
输出：
- 这个阶段产生了工作流的有形结果。模型接受一个提示，处理它，并返回一个输出，这取决于应用，可以是文本块、答案、生成的故事，甚至是之前讨论的嵌入。

顶级LLM初创公司

LLMOps（大型语言模型运维）领域见证了专门平台和初创公司的出现。以下是两个初创公司/平台及其在LLMOps领域的描述：

Comet

Comet简化了机器学习的生命周期，特别是针对大型语言模型的开发。它提供了跟踪实验和管理生产模型的功能。该平台适合大型企业团队，提供了包括私有云、混合和本地设置在内的各种部署策略。

Dify

Dify是一个开源的LLMOps平台，帮助开发使用GPT-4等大型语言模型的AI应用。它具有用户友好的界面，提供无缝的模型访问、上下文嵌入、成本控制和数据注释功能。用户可以轻松地以视觉方式管理其模型，并利用文档、网页内容或Notion笔记作为AI上下文，Dify将处理预处理和其他操作。

Portkey.ai

Portkey.ai是一家专门从事语言模型运维（LLMOps）的印度初创公司。凭借Lightspeed Venture Partners领投的300万美元种子资金，Portkey.ai提供了与OpenAI和Anthropic等公司的大型语言模型的集成。他们的服务面向生成AI公司，专注于增强其LLM运维栈，包括实时金丝雀测试和模型微调能力。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI

大型语言模型与商业的桥梁：LLMOps

LLMOps与MLOps

顶级LLM初创公司

You may like