存根 生成式 AI 的未来是边缘 - Unite.AI
关注我们.

思想领袖

生成式人工智能的未来是边缘

mm

发布时间

 on

ChatGPT 的出现,以及 生成式人工智能 总的来说,这是技术史上的一个分水岭时刻,被比作互联网和智能手机的黎明。 生成式人工智能在进行智能对话、通过考试、生成复杂的程序/代码以及创建引人注目的图像和视频方面显示出了无限的潜力。 虽然 GPU 在云端运行大多数 Gen AI 模型(无论是用于训练还是推理),但由于成本、功耗、延迟、隐私和安全性等因素,这并不是一个长期可扩展的解决方案,尤其是对于推理而言。 本文讨论了这些因素中的每一个,并提供了将 Gen AI 计算工作负载转移到边缘的激励示例。

大多数应用程序都在高性能处理器上运行——无论是在设备上(例如智能手机、台式机、笔记本电脑)还是在数据中心。 随着利用人工智能的应用程序份额的扩大,这些仅具有 CPU 的处理器已经不够用了。 此外,生成式人工智能工作负载的快速增长正在推动对配备昂贵且耗电的 GPU 的人工智能服务器的需求呈指数级增长,这反过来又推高了基础设施成本。 这些支持 AI 的服务器的成本可能是普通服务器价格的 7 倍以上,而 GPU 占了这一增加成本的 80%。

此外,基于云的服务器功耗为 500W 至 2000W,而支持 AI 的服务器功耗在 2000W 至 8000W 之间,是后者的 4 倍! 为了支持这些服务器,数据中心需要额外的冷却模块和基础设施升级——这甚至可能高于计算投资。 数据中心每年已消耗 300 TWH, 几乎占全球总能耗的 1% 如果人工智能采用的趋势持续下去,那么到 5 年,数据中心将使用全球多达 2030% 的电力。此外,对生成式人工智能数据中心的投资也前所未有。 据估计,数据中心将消耗高达 到 500 年资本支出将达到 2027 亿美元,主要是由人工智能基础设施需求推动的。

随着生成式人工智能的采用,数据中心的电力消耗已经达到 300 TwH,将大幅增加。

人工智能计算成本和能源消耗将阻碍生成式人工智能的大规模采用。 通过将 AI 计算移至边缘并使用针对 AI 工作负载优化的处理解决方案,可以克服扩展挑战。 通过这种方法,客户还可以获得其他好处,包括延迟、隐私、可靠性以及增强的功能。

计算跟随数据到达边缘

自从十年前人工智能从学术界兴起以来,人工智能模型的训练和推理就发生在云端/数据中心。 由于大部分数据是在边缘生成和消耗的(尤其是视频),只有将数据推理转移到边缘才有意义,从而由于网络和计算成本降低而提高企业的总拥有成本 (TCO)。 虽然云上的人工智能推理成本是经常性的,但边缘的推理成本是一次性的硬件费用。 从本质上讲,使用边缘人工智能处理器增强系统可以降低总体运营成本。 就像传统人工智能工作负载迁移到边缘(例如,设备、设备)一样,生成式人工智能工作负载也将随之迁移。 这将为企业和消费者带来可观的节省。

向边缘的迁移加上高效的人工智能加速器来执行推理功能还带来了其他好处。 其中最重要的是延迟。 例如,在游戏应用中,可以使用生成式 AI 来控制和增强非玩家角色 (NPC)。 使用在游戏机或 PC 的边缘 AI 加速器上运行的 LLM 模型,游戏玩家可以为这些角色设定特定的目标,以便他们能够有意义地参与故事。 本地边缘推理的低延迟将使 NPC 的语音和动作能够实时响应玩家的命令和动作。 这将以经济高效且节能的方式提供高度沉浸式的游戏体验。

在医疗保健等应用中,隐私和可靠性极其重要(例如患者评估、药物推荐)。 数据和相关的 Gen AI 模型必须在本地部署,以保护患者数据(隐私),任何阻止访问云中 AI 模型的网络中断都可能造成灾难性的后果。 运行专为每个企业客户(在本例中为医疗保健提供商)构建的 Gen AI 模型的 Edge AI 设备可以无缝解决隐私和可靠性问题,同时降低延迟和成本。

边缘设备上的生成​​式人工智能将确保游戏的低延迟、保存患者数据并提高医疗保健的可靠性。

许多在云上运行的 Gen AI 模型可以接近一万亿个参数——这些模型可以有效地解决通用查询。 然而,企业特定的应用程序要求模型提供与用例相关的结果。 以基于 Gen AI 的助手为例,该助手用于在快餐店接受订单 - 为了使该系统实现无缝的客户交互,底层的 Gen AI 模型必须接受餐厅菜单项的训练,同时了解过敏原和成分。 可以通过使用超集大型语言模型 (LLM) 来优化模型大小,以训练相对较小的 10-30 亿参数 LLM,然后对客户特定数据进行额外的微调。 这样的模型可以提供更高的准确性和能力的结果。 由于该模型尺寸较小,因此可以有效地部署在边缘的人工智能加速器上。

人工智能世代 将在边缘获胜

始终需要在云中运行 Gen AI,特别是对于 ChatGPT 和 Claude 等通用应用程序。 但当谈到企业特定应用程序时,例如 Adob​​e Photoshop 的生成填充或 Github copilot,Edge 的生成 AI 不仅是未来,也是现在。 专用人工智能加速器是实现这一目标的关键。

作为硅谷资深人士、 基纳拉公司Ravi Annavajjhala 带来了 20 多年的业务开发、营销和工程经验,致力于打造领先的技术产品和
将它们推向市场。 Ravi 目前担任 Deep Vision 首席执行官,任职于
董事会并筹集了 50 万美元,使该公司的 Ara-1 处理器从流片前阶段发展到了
全面生产并提高第二代处理器 Ara-2 的产量。 加入之前
Deep Vision 拉维曾在英特尔和 SanDisk 担任执行领导职务,并在其中发挥了关键作用
推动收入增长、发展战略合作伙伴关系以及制定产品路线图
凭借尖端的特性和功能引领行业。