人工智能

神经处理单元的崛起：增强设备上的生成式 AI 的速度和可持续性

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

生成式 AI 的演变不仅重塑了我们与计算设备的交互和体验，也重新定义了核心计算。这种转变的关键驱动因素之一是需要在计算资源有限的设备上运行生成式 AI。这篇文章讨论了这带来的挑战以及如何通过神经处理单元（NPUs）来解决这些问题。另外，这篇文章介绍了一些最新的 NPU 处理器，它们正在该领域领先。

设备上生成式 AI 基础设施的挑战

生成式 AI 是图像合成、文本生成和音乐组成的强大引擎，它需要大量的计算资源。传统上，这些需求是通过利用云平台的巨大能力来满足的。虽然这种方法有效，但对于设备上的生成式 AI 来说，它带来了自己的挑战，包括对不断的互联网连接和集中式基础设施的依赖。这一依赖引入了延迟、安全漏洞和更高的能耗。
云基础的 AI 基础设施在很大程度上依赖于中央处理单元（CPUs）和图形处理单元（GPUs）来处理生成式 AI 的计算需求。然而，当应用于设备上的生成式 AI 时，这些处理器会遇到重大的障碍。CPUs 是为通用任务设计的，缺乏高效和低功耗执行生成式 AI 工作负载所需的专用架构。它们有限的并行处理能力导致吞吐量降低、延迟增加和功耗提高，使其不太适合设备上的 AI。另一方面，虽然 GPUs 可以在并行处理方面表现出色，但它们主要是为图形处理任务设计的。为了有效地执行生成式 AI 任务，GPUs 需要专用集成电路，这些电路会消耗大量功率并产生大量热量。此外，它们的大尺寸会为紧凑的设备应用带来障碍。

神经处理单元（NPUs）的出现

为了应对上述挑战，神经处理单元（NPUs）正在作为一种变革性技术出现，用于在设备上实现生成式 AI。NPUs 的架构主要受人类大脑结构和功能的启发，特别是神经元和突触如何协同工作来处理信息。在 NPUs 中，人工神经元作为基本单元，模仿生物神经元，接收输入、处理它们并产生输出。这些神经元通过人工突触相互连接，人工突触在学习过程中会调整信号的强度。这种机制模仿了大脑中突触权重的变化。NPUs 以层次结构组织，包括输入层、隐藏层和输出层。这种层次结构反映了大脑的多阶段和并行信息处理能力。由于生成式 AI 也使用类似的结构，即人工神经网络，NPUs 非常适合管理生成式 AI 工作负载。这种结构上的对齐减少了对专用集成电路的需求，导致更紧凑、更节能、更快、更可持续的解决方案。

满足生成式 AI 的多样化计算需求

生成式 AI 涵盖了广泛的任务，包括图像合成、文本生成和音乐组成，每个任务都有其独特的计算需求。例如，图像合成严重依赖于矩阵运算，而文本生成涉及序列处理。为了有效地满足这些多样化的计算需求，神经处理单元（NPUs）通常与系统芯片（SoC）技术一起集成，除了 CPUs 和 GPUs 之外。
每个处理器都具有不同的计算优势。CPUs 特别擅长于顺序控制和即时性，GPUs 擅长于流式并行数据，而 NPUs 则针对核心 AI 操作进行了优化，处理标量、向量和张量数学。通过利用异构计算架构，可以根据处理器的优势和任务的具体需求来分配任务。
NPUs 由于针对 AI 工作负载进行了优化，可以高效地从主 CPU 中卸载生成式 AI 任务。这种卸载不仅可以确保快速和节能的操作，还可以加速 AI 推理任务，使生成式 AI 模型在设备上运行得更加顺畅。当 NPUs 处理 AI 相关任务时，CPUs 和 GPUs 可以将资源分配给其他功能，从而提高整体应用性能，同时保持热效率。

NPUs 的实际例子

NPUs 的发展正在取得进展。以下是一些 NPUs 的实际例子：

Hexagon NPUs 由 Qualcomm 设计，用于在低功耗和低资源设备上加速 AI 推理任务。它旨在处理生成式 AI 任务，例如文本生成、图像合成和音频处理。Hexagon NPU 集成在 Qualcomm 的 Snapdragon 平台中，提供高效的神经网络模型执行，适用于具有 Qualcomm AI 产品的设备。
Apple 的神经引擎是 A 系列和 M 系列芯片的关键组件，驱动各种 AI 驱动的功能，例如 Face ID、Siri 和增强现实（AR）。神经引擎加速任务，如面部识别用于安全的 Face ID，自然语言处理（NLP）用于 Siri，以及增强的对象跟踪和场景理解用于 AR 应用。它显著提高了 Apple 设备上 AI 相关任务的性能，提供了无缝和高效的用户体验。
Samsung 的 NPU 是一种专用处理器，用于 AI 计算，能够同时处理成千上万的计算。集成在最新的 Samsung Exynos SoCs 中，这些 SoCs 为许多 Samsung 手机提供动力，这种 NPU 技术使得低功耗、高速度的生成式 AI 计算成为可能。Samsung 的 NPU 技术还集成在旗舰电视中，实现了 AI 驱动的音频创新，并增强了用户体验。
Huawei 的达芬奇架构是他们的 Ascend AI 处理器的核心，旨在增强 AI 计算能力。这种架构利用了高性能的 3D 立方体计算引擎，使其对 AI 工作负载有很强的处理能力。

结论

生成式 AI 正在改变我们与设备的交互和体验，并重新定义计算。运行生成式 AI 在计算资源有限的设备上的挑战是显著的，传统的 CPUs 和 GPUs 通常无法满足这些需求。神经处理单元（NPUs）提供了一个有前途的解决方案，其专用架构旨在满足生成式 AI 的需求。通过将 NPUs 集成到系统芯片（SoC）技术中，除了 CPUs 和 GPUs 之外，我们可以利用每个处理器的优势，导致设备上的 AI 性能更快、更高效、更可持续。随着 NPUs 的不断发展，它们将增强设备上的 AI 能力，使应用程序更加响应迅速和节能。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。

Unite.AI

神经处理单元的崛起：增强设备上的生成式 AI 的速度和可持续性

设备上生成式 AI 基础设施的挑战

神经处理单元（NPUs）的出现

满足生成式 AI 的多样化计算需求

NPUs 的实际例子

结论

You may like