Trí tuệ nhân tạo

Sự trỗi dậy của các đơn vị xử lý thần kinh: Tăng cường trí tuệ nhân tạo tạo ra trên thiết bị cho tốc độ và tính bền vững

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Sự tiến hóa của trí tuệ nhân tạo tạo ra không chỉ đang thay đổi cách chúng ta tương tác và trải nghiệm với các thiết bị tính toán, mà còn đang định nghĩa lại cốt lõi của tính toán. Một trong những yếu tố chính thúc đẩy sự chuyển đổi này là nhu cầu vận hành trí tuệ nhân tạo tạo ra trên các thiết bị có tài nguyên tính toán hạn chế. Bài viết này thảo luận về những thách thức mà điều này đặt ra và cách các đơn vị xử lý thần kinh (NPUs) đang xuất hiện để giải quyết chúng. Ngoài ra, bài viết giới thiệu một số bộ xử lý NPU mới nhất đang dẫn đầu trong lĩnh vực này.

Thách thức của Cơ sở hạ tầng Trí tuệ nhân tạo tạo ra trên thiết bị

Trí tuệ nhân tạo tạo ra, động lực đằng sau tổng hợp hình ảnh, tạo văn bản và sáng tác âm nhạc, đòi hỏi tài nguyên tính toán đáng kể. Thông thường, những nhu cầu này đã được đáp ứng bằng cách tận dụng khả năng rộng lớn của các nền tảng đám mây. Mặc dù hiệu quả, nhưng cách tiếp cận này đi kèm với một loạt thách thức riêng cho trí tuệ nhân tạo tạo ra trên thiết bị, bao gồm sự phụ thuộc vào kết nối internet liên tục và cơ sở hạ tầng tập trung. Sự phụ thuộc này giới thiệu độ trễ, lỗ hổng bảo mật và tiêu thụ năng lượng tăng cao.

Cơ sở hạ tầng AI dựa trên đám mây chủ yếu dựa trên các đơn vị xử lý trung tâm (CPUs) và đơn vị xử lý đồ họa (GPUs) để xử lý nhu cầu tính toán của trí tuệ nhân tạo tạo ra. Tuy nhiên, khi áp dụng cho trí tuệ nhân tạo tạo ra trên thiết bị, những bộ xử lý này gặp phải những khó khăn đáng kể. CPUs được thiết kế cho các nhiệm vụ chung và thiếu kiến trúc chuyên dụng cần thiết cho việc thực hiện hiệu quả và tiết kiệm năng lượng của các nhiệm vụ trí tuệ nhân tạo tạo ra. Khả năng xử lý song song hạn chế của chúng dẫn đến giảm thông lượng, độ trễ tăng và tiêu thụ năng lượng cao hơn, khiến chúng ít lý tưởng hơn cho trí tuệ nhân tạo trên thiết bị. Mặt khác, mặc dù GPUs có thể vượt trội trong xử lý song song, nhưng chúng chủ yếu được thiết kế cho các nhiệm vụ xử lý đồ họa. Để thực hiện hiệu quả các nhiệm vụ trí tuệ nhân tạo tạo ra, GPUs cần các mạch tích hợp chuyên dụng, tiêu thụ nhiều năng lượng và tạo ra nhiệt đáng kể. Hơn nữa, kích thước vật lý lớn của chúng tạo ra障 ngại cho việc sử dụng trong các ứng dụng trên thiết bị compact.

Sự xuất hiện của các đơn vị xử lý thần kinh (NPUs)

Để đáp ứng những thách thức trên, các đơn vị xử lý thần kinh (NPUs) đang xuất hiện như một công nghệ chuyển đổi cho việc thực hiện trí tuệ nhân tạo tạo ra trên thiết bị. Kiến trúc của NPU chủ yếu được lấy cảm hứng từ cấu trúc và chức năng của não bộ, đặc biệt là cách các nơ-ron và synap tương tác để xử lý thông tin. Trong NPU, các nơ-ron nhân tạo hoạt động như các đơn vị cơ bản, phản ánh nơ-ron sinh học bằng cách nhận đầu vào, xử lý chúng và tạo ra đầu ra. Những nơ-ron này được kết nối thông qua các synap nhân tạo, truyền tín hiệu giữa các nơ-ron với các cường độ khác nhau điều chỉnh trong quá trình học. Điều này mô phỏng quá trình thay đổi trọng số synap trong não. NPU được tổ chức thành các lớp; lớp đầu vào nhận dữ liệu thô, lớp ẩn thực hiện xử lý trung gian và lớp đầu ra tạo ra kết quả. Cấu trúc phân lớp này phản ánh khả năng xử lý thông tin song song và đa giai đoạn của não. Vì trí tuệ nhân tạo tạo ra cũng được xây dựng bằng cách sử dụng một cấu trúc tương tự của mạng nơ-ron nhân tạo, NPU rất phù hợp để quản lý các nhiệm vụ trí tuệ nhân tạo tạo ra. Sự sắp xếp cấu trúc này giảm nhu cầu về các mạch tích hợp chuyên dụng, dẫn đến các giải pháp compact, tiết kiệm năng lượng, nhanh chóng và bền vững hơn.

Đáp ứng nhu cầu tính toán đa dạng của Trí tuệ nhân tạo tạo ra

Trí tuệ nhân tạo tạo ra bao gồm một loạt các nhiệm vụ, bao gồm tổng hợp hình ảnh, tạo văn bản và sáng tác âm nhạc, mỗi nhiệm vụ có một tập hợp nhu cầu tính toán độc đáo. Ví dụ, tổng hợp hình ảnh phụ thuộc nặng vào các phép toán ma trận, trong khi tạo văn bản liên quan đến xử lý tuần tự. Để đáp ứng hiệu quả các nhu cầu tính toán đa dạng này, công nghệ System-on-Chip (SoC) thường được tích hợp cùng với CPUs và GPUs.

Mỗi bộ xử lý này cung cấp các điểm mạnh tính toán riêng biệt. CPUs đặc biệt giỏi trong kiểm soát tuần tự và tức thời, GPUs vượt trội trong xử lý dữ liệu song song và NPU được tinh chỉnh cho các hoạt động cốt lõi của AI, bao gồm toán học scalar, vector và tensor. Bằng cách tận dụng kiến trúc tính toán dị thể, các nhiệm vụ có thể được phân配 cho các bộ xử lý dựa trên điểm mạnh và nhu cầu của từng nhiệm vụ cụ thể.

NPU, được tối ưu hóa cho các nhiệm vụ AI, có thể hiệu quả offload các nhiệm vụ trí tuệ nhân tạo tạo ra từ CPU chính. Việc offload này không chỉ đảm bảo hoạt động nhanh chóng và tiết kiệm năng lượng mà còn tăng tốc các nhiệm vụ suy luận AI, cho phép các mô hình trí tuệ nhân tạo tạo ra chạy mượt mà hơn trên thiết bị. Với NPU xử lý các nhiệm vụ AI, CPUs và GPUs có thể phân bổ tài nguyên cho các chức năng khác, do đó nâng cao hiệu suất ứng dụng tổng thể trong khi duy trì hiệu quả nhiệt.

Ví dụ thực tế về NPU

Sự tiến bộ của NPU đang thu được động lực. Dưới đây là một số ví dụ thực tế về NPU:

Hexagon NPU của Qualcomm được thiết kế đặc biệt để tăng tốc các nhiệm vụ suy luận AI tại các thiết bị có công suất thấp và tài nguyên hạn chế. Nó được xây dựng để xử lý các nhiệm vụ trí tuệ nhân tạo tạo ra như tạo văn bản, tổng hợp hình ảnh và xử lý âm thanh. Hexagon NPU được tích hợp vào các nền tảng Snapdragon của Qualcomm, cung cấp việc thực hiện hiệu quả các mô hình mạng nơ-ron trên các thiết bị có sản phẩm AI của Qualcomm.
Động cơ thần kinh của Apple là một thành phần chính của chip A-series và M-series, cung cấp năng lượng cho các tính năng AI như Face ID, Siri và thực tế ảo tăng cường (AR). Động cơ thần kinh tăng tốc các nhiệm vụ như nhận dạng khuôn mặt cho Face ID, xử lý ngôn ngữ tự nhiên (NLP) cho Siri và theo dõi đối tượng và hiểu cảnh tăng cường cho các ứng dụng AR. Nó nâng cao đáng kể hiệu suất của các nhiệm vụ AI trên thiết bị Apple, cung cấp trải nghiệm người dùng mượt mà và hiệu quả.
NPU của Samsung là một bộ xử lý chuyên dụng được thiết kế cho tính toán AI, có khả năng xử lý hàng nghìn phép tính đồng thời. Được tích hợp vào các SoC Exynos mới nhất của Samsung, cung cấp năng lượng cho nhiều điện thoại Samsung, công nghệ NPU này cho phép tính toán AI tạo ra tốc độ thấp, tiêu thụ năng lượng thấp. Công nghệ NPU của Samsung cũng được tích hợp vào các TV hàng đầu, cho phép đổi mới âm thanh AI và nâng cao trải nghiệm người dùng.
Kiến trúc Da Vinci của Huawei đóng vai trò là cốt lõi của bộ xử lý AI Ascend của họ, được thiết kế để tăng cường sức mạnh tính toán AI. Kiến trúc này tận dụng một động cơ tính toán 3D hình lập phương hiệu suất cao, khiến nó mạnh mẽ cho các nhiệm vụ AI.

Kết luận

Trí tuệ nhân tạo tạo ra đang thay đổi cách chúng ta tương tác với thiết bị và định nghĩa lại tính toán. Thách thức của việc chạy trí tuệ nhân tạo tạo ra trên các thiết bị có tài nguyên tính toán hạn chế là đáng kể, và các CPU và GPU truyền thống thường không đủ. Các đơn vị xử lý thần kinh (NPUs) cung cấp một giải pháp hứa hẹn với kiến trúc chuyên dụng được thiết kế để đáp ứng nhu cầu của trí tuệ nhân tạo tạo ra. Bằng cách tích hợp NPU vào công nghệ System-on-Chip (SoC) cùng với CPUs và GPUs, chúng ta có thể tận dụng điểm mạnh của mỗi bộ xử lý, dẫn đến hiệu suất AI nhanh hơn, hiệu quả hơn và bền vững hơn trên thiết bị. Khi NPU tiếp tục phát triển, chúng sẽ nâng cao khả năng AI trên thiết bị, làm cho các ứng dụng trở nên phản hồi và tiết kiệm năng lượng hơn.