Artificiell intelligens

Uppkomsten av neurala bearbetningsenheter: Förbättring av generativ AI på enheter för hastighet och hållbarhet

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Utvecklingen av generativ AI förändrar inte bara vår interaktion och upplevelser med datorer, utan också omdefinierar kärnan i datorer. En av de viktigaste drivkrafterna bakom denna transformation är behovet av att köra generativ AI på enheter med begränsade beräkningsresurser. Den här artikeln diskuterar de utmaningar som detta medför och hur neurala bearbetningsenheter (NPUs) växer fram för att lösa dem. Dessutom presenterar artikeln några av de senaste NPU-processorer som leder vägen inom detta område.

Utmaningar för generativ AI-infrastruktur på enheter

Generativ AI, som är hjärnan bakom bildsyntes, textgenerering och musikkomposition, kräver betydande beräkningsresurser. Traditionellt har dessa krav tillgodosetts genom att utnyttja de omfattande möjligheterna hos molnplattformar. Medan denna metod är effektiv, medför den sin egen uppsättning utmaningar för generativ AI på enheter, inklusive beroende av konstant internetanslutning och central infrastruktur. Detta beroende introducerar latency, säkerhetsrisker och ökad energiförbrukning.
Den centrala AI-infrastrukturen i molnet bygger i stor utsträckning på centrala processorer (CPUs) och grafikprocessorer (GPUs) för att hantera de beräkningskrav som generativ AI ställer. När dessa processorer tillämpas på generativ AI på enheter, möter de dock betydande hinder. CPUs är utformade för allmänna uppgifter och saknar den specialiserade arkitektur som behövs för effektiv och lågeffektiva körningar av generativa AI-arbetsbelastningar. Deras begränsade parallella bearbetningsförmåga resulterar i minskad genomströmning, ökad latency och högre energiförbrukning, vilket gör dem mindre lämpliga för AI på enheter. Å andra sidan kan GPUs utmärka sig i parallell bearbetning, men de är främst utformade för grafikbearbetningsuppgifter. För att effektivt utföra generativa AI-uppgifter kräver GPUs specialiserade integrerade kretsar, som förbrukar hög effekt och genererar betydande värme. Dessutom skapar deras stora fysiska storlek hinder för deras användning i kompakta, enhetsbaserade applikationer.

Uppkomsten av neurala bearbetningsenheter (NPUs)

Som svar på ovanstående utmaningar växer neurala bearbetningsenheter (NPUs) fram som en revolutionerande teknik för implementering av generativ AI på enheter. Arkitekturen för NPUs är främst inspirerad av hjärnans struktur och funktion, särskilt hur neuroner och synapser samarbetar för att bearbeta information. I NPUs fungerar artificiella neuroner som de grundläggande enheterna, som speglar biologiska neuroner genom att ta emot indata, bearbeta dem och producera utdata. Dessa neuroner är sammanlänkade genom artificiella synapser, som överför signaler mellan neuroner med varierande styrka som justeras under inlärningsprocessen. Detta efterliknar processen med synaptisk viktändring i hjärnan. NPUs är organiserade i lager; inmatningslager som tar emot rådata, dolda lager som utför mellanliggande bearbetning och utmatningslager som genererar resultaten. Denna lagerstruktur speglar hjärnans flerstegs- och parallella informationsbearbetningsförmåga. Eftersom generativ AI också konstrueras med en liknande struktur av artificiella neurala nätverk, är NPUs väl lämpade för att hantera generativa AI-arbetsbelastningar. Denna strukturella anpassning minskar behovet av specialiserade integrerade kretsar, vilket leder till mer kompakta, energisnåla, snabba och hållbara lösningar.

Beskrivning av de olika beräkningsbehoven för generativ AI

Generativ AI omfattar en mängd olika uppgifter, inklusive bildsyntes, textgenerering och musikkomposition, var och en med sina egna unika beräkningskrav. Till exempel är bildsyntes starkt beroende av matrisoperationer, medan textgenerering innefattar sekventiell bearbetning. För att effektivt tillgodose dessa olika beräkningsbehov integreras neurala bearbetningsenheter (NPUs) ofta i System-on-Chip (SoC)-teknik tillsammans med CPUs och GPUs.
Var och en av dessa processorer erbjuder distinkta beräkningsstyrkor. CPUs är särskilt lämpade för sekventiell kontroll och omedelbarhet, GPUs utmärker sig i parallell dataström, och NPUs är finjusterade för kärn-AI-operationer, som hanterar skalär-, vektor- och tensorberäkningar. Genom att utnyttja en heterogen beräkningsarkitektur kan uppgifter tilldelas processorer baserat på deras styrkor och de specifika kraven för uppgiften i fråga.
NPUs, som är optimerade för AI-arbetsbelastningar, kan effektivt avlasta generativa AI-uppgifter från den primära CPU. Denna avlastning säkerställer inte bara snabba och energisnåla operationer, utan accelererar också AI-inferenstyper, vilket gör att generativa AI-modeller kan köras smidigare på enheten. När NPUs hanterar AI-relaterade uppgifter kan CPUs och GPUs allokeras för att utföra andra funktioner, vilket förbättrar den övergripande applikationsprestandan samtidigt som termisk effektivitet upprätthålls.

Verkliga exempel på NPUs

Utvecklingen av NPUs växer i styrka. Här är några verkliga exempel på NPUs:

Hexagon NPUs från Qualcomm är särskilt utformade för att accelerera AI-inferenstyper på enheter med låg effekt och begränsade resurser. De är byggda för att hantera generativa AI-uppgifter som textgenerering, bildsyntes och ljudbearbetning. Hexagon NPU är integrerad i Qualcomms Snapdragon-plattformar, vilket möjliggör effektiv körning av neurala nätverksmodeller på enheter med Qualcomm AI-produkter.
Apples Neural Engine är en nyckelkomponent i A-serien och M-serien chips, som driver olika AI-drivna funktioner som Face ID, Siri och förstärkt verklighet (AR). Neural Engine accelererar uppgifter som ansiktsigenkänning för säker Face ID, naturlig språkbehandling (NLP) för Siri och förbättrad objekttspårning och scenförståelse för AR-applikationer. Det förbättrar betydligt prestandan för AI-relaterade uppgifter på Apple-enheter, vilket ger en sömlös och effektiv användarupplevelse.
Samsungs NPU är en specialiserad processor utformad för AI-beräkningar, som kan hantera tusentals beräkningar samtidigt. Integrerad i de senaste Samsung Exynos SoCs, som driver många Samsung-telefoner, möjliggör denna NPU-teknik lågeffektiva och höghastighetsgenerativa AI-beräkningar. Samsungs NPU-teknik är också integrerad i flaggskeppsteve, vilket möjliggör AI-driven ljudinnovation och förbättrar användarupplevelsen.
Huaweis Da Vinci-arkitektur fungerar som kärnan i deras Ascend AI-processor, som är utformad för att förbättra AI-beräkningskraften. Arkitekturen utnyttjar en högpresterande 3D-kub-beräkningsmotor, vilket gör den kraftfull för AI-arbetsbelastningar.

Sammanfattning

Generativ AI förändrar vår interaktion med enheter och omdefinierar datorer. Utmaningen att köra generativ AI på enheter med begränsade beräkningsresurser är betydande, och traditionella CPUs och GPUs är ofta otillräckliga. Neurala bearbetningsenheter (NPUs) erbjuder ett lovande svar med sin specialiserade arkitektur, utformad för att möta kraven från generativ AI. Genom att integrera NPUs i System-on-Chip (SoC)-teknik tillsammans med CPUs och GPUs kan vi utnyttja varje processors styrkor, vilket leder till snabbare, effektivare och mer hållbara AI-prestanda på enheter. När NPUs fortsätter att utvecklas är de på väg att förbättra AI-förmågor på enheter, vilket gör applikationer mer responsiva och energisnåla.