人工智能

Vertex AI 简介

mm

鉴于人工智能领域的快速发展,技术领导者经常面临的一个重大挑战是从“实验性”转变为“企业级”。虽然消费者聊天机器人和交互式平台有助于提高公众的想象力,但仅凭聊天界面,企业无法成功。在竞争日益激烈的时代,企业需要一个强大、可扩展和安全的生态系统,这就是谷歌试图通过 Vertex AI 提供的,谷歌云的统一人工智能和机器学习平台。

Vertex AI 尝试巩固自己作为现代云基础设施中生成式人工智能集成的骨干,提供了一套全面功能,弥合了原始基础模型和生产级应用之间的差距。Vertex AI 不仅仅是一个大型语言模型的包装,而是一个统一的机器学习和人工智能(ML/AI)生态系统,它将生成式人工智能视为现代云基础设施的第一类公民。

在 Vertex AI 的核心是 模型花园,一个提供了 200 多个精选基础模型的中央市场,包括具有 2 百万令牌上下文窗口的多模态强大模型 Gemini 2.5 Pro。在本文中,我们将解析 Vertex AI 的架构,探索模型花园如何作为行业的“应用商店”为智能提供服务,并研究使该平台成为下一代企业软件骨干的技术支柱。

核心架构:统一平台

Vertex AI 不是一个松散耦合的工具集合,而是一个设计用于弥合机器学习中至今仍存在的数据、工具和团队碎片化的统一数据和人工智能生态系统。传统上,人工智能开发发生在孤立的环境中,有时数据会分散在多个存储库中。例如,组织可能将客户数据存储在 SQL 仓库中,而未结构化的文档则被转储到数据湖中。当数据被隔离时,人工智能只能看到“部分真相”,导致偏差结果或高幻觉率,因为它缺乏对企业的完整上下文。

Vertex AI 尝试将整个生命周期从原始数据摄取到生产监控进行整合,基本上作为数据、基础设施和模型编排之间的“连接组织”。Vertex AI 与云存储和 BigQuery 原生集成,允许人工智能模型在不需要复杂的提取、转换和加载管道的情况下检索数据。

基础:谷歌的人工智能超级计算机

Vertex AI 的 GenAI 层位于谷歌的人工智能超级计算机架构之上,这是一个集成的超级计算系统,包括:

TPU v5p 和 v5e(张量处理单元)

谷歌的张量处理单元 是专门为深度学习中定义的矩阵乘法而设计的定制 ASIC(应用特定集成电路)。

  • TPU v5p(性能):这是大规模训练的旗舰加速器。每个 TPU v5p 节点可以扩展到 8,960 个芯片,通过谷歌最高带宽的芯片间互连(ICI)以 4,800 Gbps 进行交互。对于技术领导者来说,这意味着与前一代相比,GPT-3 大小的模型(175B 参数)训练速度快 2.8 倍,大大减少了上市时间。
  • TPU v5e(效率):为“成本优化”性能而设计,v5e 是中规模训练和高吞吐量推理的工作马。它提供了最高 2.5 倍的价格性能,使其成为需要 24/7 推理但没有大量预算的企业的理想选择。

NVIDIA H100/A100 GPU 用于灵活性

虽然 TPU 是专用的,但许多开发团队依赖于 NVIDIA CUDA 生态系统。Vertex AI 为 NVIDIA 的最新硬件提供了一流支持:

  • NVIDIA H100(Hopper):适合微调最大的开源模型(如 Llama 3.1 405B),这些模型需要大量内存带宽。
  • Jupiter 网络:为了防止“网络瓶颈”,谷歌使用其 Jupiter 数据中心网络结构。这确保数据在 GPU 之间以闪电般的速度移动,支持 RDMA(远程直接内存访问)以绕过 CPU 开销并提供近本地性能的分布式节点。

动态编排

Vertex AI 中最关键的技术转变是 动态编排。在传统环境中,如果 GPU 节点在 3 周的训练运行期间失败,整个作业可能会崩溃。

  • 自动恢复:Vertex AI,通常由 谷歌 Kubernetes 引擎(GKE) 提供支持,具有“自愈”节点。如果检测到硬件故障,平台会自动将工作负载迁移到健康节点。
  • 动态工作负载调度器:该工具允许团队根据紧急程度请求容量。您可以选择 Flex Start(更便宜,当容量可用时启动)或保证容量用于关键任务发布。
  • 无服务器训练:对于希望零基础设施管理的团队,Vertex AI 无服务器训练允许您提交代码和数据;平台提供集群,运行作业,并在使用的计算秒数上收费。

三个入口点:发现、实验和自动化

为了适应不同技术人员,从数据科学家到应用开发人员,Vertex AI 提供三个主要入口点:

模型花园:发现的市场

谷歌云的 Vertex AI 模型花园是一个集中式平台,用于发现、测试、自定义和部署各种人工智能模型,包括多模态模型(视觉、文本、代码)用于不同业务需求,提供了与 Vertex AI 工具的无缝集成,用于简化 MLOps。它作为一个综合库,帮助开发人员和企业选择合适的模型(从大型基础模型到专用模型)用于其任务,无论是文本生成、图像分析还是代码完成,并在其谷歌云环境中高效部署它们。

模型花园将其 200 多个模型分为三个不同的层次,允许架构师平衡性能、成本和控制:

  1. 第一方(谷歌)模型:这些是 Vertex AI 中可用的多模态旗舰模型,谷歌以各种大小提供它们,从具有复杂推理的 Pro 到具有低延迟和高容量的 Flash,因此允许开发人员根据其使用案例优化其模型。
  2. 第三方(专有)模型:通过战略合作伙伴关系,Vertex AI 提供“模型即服务”(MaaS)访问巨头,如 Anthropic(Claude 3.5)和 Mistral AI。与其为五个不同的 AI 提供商管理单独的计费和安全凭证,技术团队可以通过其现有的谷歌云项目访问所有这些,使用统一的 API 格式。
  3. 开源和开源权重模型:此层包括 Meta 的 Llama 3.2Mistral 和谷歌自己的 Gemma。这些对于希望在其自己的虚拟私有云(VPC)中自行部署模型以确保最大数据隔离的组织来说是理想的。

在非统一环境中,部署开源模型(如 Llama)需要设置 PyTorch 环境,配置 CUDA 驱动程序,并管理 Flask 或 FastAPI 包装器。

模型花园通过 统一托管端点 消除了此“Munging”阶段:

  • 一键部署:对于许多模型,单击“部署”会自动预配必要的 TPU/GPU 资源,将模型包装在生产就绪的容器中,并提供 REST API 端点。
  • Hugging Face 集成:Vertex AI 现在允许开发人员直接从 Hugging Face Hub 将模型部署到 Vertex 端点,提供几乎无限的智能扩展。
  • 私有服务连接(PSC):对于高度监管的行业,模型可以使用 私有服务连接 进行部署,确保模型端点永远不会暴露在公共互联网上,保持数据流量严格在企业网络内。

Vertex AI Studio:实验的游乐场

虽然 模型花园 是关于选择,Vertex AI Studio 是关于 精度。Vertex AI Studio 可以与传统软件世界中的编译器和调试器相比。Vertex AI Studio 是工作空间,其中原始模型通过提示工程、多模态测试和高级超参数调整的组合被塑造成特定的业务工具。

多模态原型:超越文本

Studio 的一个突出功能是其对 多模态 的本地支持。虽然其他平台需要复杂的编码来处理非文本数据,但 Vertex AI Studio 允许您直接将文件拖入界面以测试 Gemini 2.5 的推理能力。

  • 视频智能:您可以上传一段 45 分钟的技术演讲,并要求模型“识别每次提到特定 API 并提供时间戳摘要”。
  • 文档分析:与其仅读取文本,模型可以分析 1,000 页 PDF 的 视觉布局,理解图表、表格和周围散文之间的关系。
  • 代码执行:Studio 现在支持 代码执行在游乐场中。如果您要求模型解决一个复杂的数学问题或分析 CSV,模型可以在安全的沙盒环境中编写和执行 Python 代码以提供一个经过验证的答案。

高级自定义:调优路径

当提示工程(零次或少次)达到极限时,Vertex AI Studio 提供了重型机械:模型调优

  1. 有监督的微调(SFT):开发人员提供一组“提示/响应”对(理想情况下 100+ 示例)。这教会模型采用特定的品牌声音、输出格式(如专用 JSON)或领域特定术语。
  2. 上下文缓存:对于处理大量静态数据集(如法律库或代码库)的企业,Studio 允许 上下文缓存。这使您可以将 100 万个令牌的数据“预加载”到模型的内存中,大大减少后续查询的延迟和成本。
  3. 蒸馏(教师-学生):这是一个高级架构举动。您可以使用一个大型模型(Gemini 2.5 Pro)来“教”一个较小、更快的模型(Gemini 2.0 Flash)。结果是一个在“Pro”级别运行但以“Flash”速度和成本运行的轻量级模型。

Vertex AI Agent Builder:自动化的工厂

Vertex AI Agent Builder 是一个高级编排框架,允许开发人员通过将基础模型与企业数据和外部 API 结合来创建这些代理。

“真相”架构:接地和 RAG

企业 AI 的主要技术障碍是 幻觉。Agent Builder 通过一个复杂的 接地 引擎来解决这个问题。

  • 使用谷歌搜索进行接地:对于需要实时世界知识的查询(例如“纽约当前的抵押贷款利率是多少?”),代理可以执行谷歌搜索,提取事实并引用其来源。
  • Vertex AI 搜索(RAG 即服务):开发人员可以使用 Vertex AI 搜索 来索引自己的文档(PDF、HTML、BigQuery)。它自动处理“分块”、“嵌入”和“检索”步骤,确保代理仅基于其内部“真相来源”回答。
  • Vertex AI RAG 引擎:对于大规模的自定义实现,这项托管服务允许混合搜索(将基于向量的结果与基于关键字的结果相结合),从而提高准确率,最高可达 30% 的标准 LLM 输出

多代理编排(A2A 协议)

高级企业工作流通常需要多个专用代理合作。Vertex AI 引入了 代理到代理(A2A)协议,一个开放标准,允许:

  • 旅行代理财务代理交谈,以确保航班预订在企业预算之内。
  • 互操作性:由于它使用开放协议,Vertex 上构建的代理可以与 LangChain 或 CrewAI 等其他框架构建的代理进行通信。

开发者堆栈:ADK 和代理引擎

对于“技术平台”受众,Agent Builder 提供了两条不同的路径:

  1. 无代码控制台:用于快速原型设计和业务用户配置的视觉拖放界面。
  2. 代理开发工具包(ADK):用于工程师的代码优先 Python 工具包。它允许“提示作为代码”,版本控制集成,并将其部署到 Vertex AI 代理引擎,一个托管的运行时环境,自动处理会话持久性、缩放和状态管理。

结论:从“如果怎么样”到“接下来是什么”

从令人印象深刻的人工智能演示到生产级企业应用的转变,长期以来一直是数字化转型项目的“死亡谷”。正如我们所探索的,Vertex AI 专门设计用于弥合这一差距。通过统一数据、基础设施和模型编排的碎片化部分,谷歌云将对话从大型语言模型的原始力量转移到人工智能生命周期的 运营成熟度

专业为工程师,心为作家。 Kunal是一名技术作家,对AI和ML有着深厚的热爱和理解,致力于通过其引人入胜和信息丰富的文档来简化这些领域中的复杂概念。