Kunstig intelligens

Oppblømingen av neurale prosesseringsenheter: Forbedring av On-Device Generative AI for Hastighet og Bærekraft

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Utviklingen av generative AI endrer ikke bare vår interaksjon og erfaringer med datamaskiner, men definerer også om kjernecomputing. En av de viktigste drivkreftene bak transformasjonen er behovet for å operere generative AI på enheter med begrensede beregningsressurser. Denne artikkelen diskuterer utfordringene dette presenterer og hvordan neurale prosesseringsenheter (NPUs) oppstår for å løse dem. I tillegg introduserer artikkelen noen av de siste NPU-prosessorer som leder veien i dette feltet.

Utfordringer for On-Device Generative AI-infrastruktur

Generative AI, kraftkilden bak bilde-syntese, tekst-generering og musikk-komposisjon, krever betydelige beregningsressurser. Vanligvis er disse kravene møtt ved å utnytte de omfattende mulighetene i sky-plattformer. Mens dette er effektivt, kommer dette tilnærmingen med sin egen sett av utfordringer for On-Device generative AI, inkludert avhengighet av konstant internett-tilkobling og sentralisert infrastruktur. Denne avhengigheten introduserer forsinkelse, sikkerhets-sårbarheter og økt energiforbruk.

Ryggmargen til sky-basert AI-infrastruktur hviler hovedsakelig på sentral prosesseringsenheter (CPUs) og grafikk-prosesseringsenheter (GPUs) for å håndtere de beregningsmessige kravene til generative AI. Men når de brukes til On-Device generative AI, møter disse prosessorer betydelige hindringer. CPUs er designet for generelle oppgaver og mangler den spesialiserte arkitekturen som er nødvendig for effektiv og lav-strøm-utførelse av generative AI-arbeidsbelastninger. Deres begrensede parallell-prosesserings-evner resulterer i redusert gjennomstrømming, økt forsinkelse og høyere strømforbruk, noe som gjør dem mindre ideelle for On-Device AI. På den andre siden, mens GPUs kan utmerke seg i parallell-prosesseringsoppgaver, er de hovedsakelig designet for grafikk-behandling. For å utføre generative AI-oppgaver effektivt, krever GPUs spesialiserte integrerte kretser, som forbruker høy strøm og genererer betydelig varme. I tillegg skaper deres store fysiske størrelse hindringer for deres bruk i kompakte, On-Device-applikasjoner.

Oppblømingen av neurale prosesseringsenheter (NPUs)

Som svar på ovennevnte utfordringer, oppstår neurale prosesseringsenheter (NPUs) som en transformasjonsteknologi for implementering av generative AI på enheter. Arkitekturen til NPUs er hovedsakelig inspirert av hjernens struktur og funksjon, særlig hvordan neuroner og synapser samarbeider for å prosessere informasjon. I NPUs fungerer kunstige neuroner som de grunnleggende enhetene, som speiler biologiske neuroner ved å motta inndata, prosessere dem og produsere utdata. Disse neuronene er koblet sammen gjennom kunstige synapser, som overfører signaler mellom neuronene med varierende styrke som justeres under læringen. Dette etterligner prosessen med synaptisk vektendring i hjernen. NPUs er organisert i lag; inndata-lag som mottar rådata, skjulte lag som utfører mellomliggende prosessering og utdata-lag som genererer resultater. Denne lagdelte strukturen reflekterer hjernens fler-stegs- og parallell informasjons-prosesserings-evne. Siden generative AI også er konstruert ved hjelp av en lignende struktur av kunstige neurale nettverk, er NPUs godt egnet for å håndtere generative AI-arbeidsbelastninger. Denne strukturelle sammenstillingen reduserer behovet for spesialiserte integrerte kretser, noe som leder til mer kompakte, energi-effektive, raske og bærekraftige løsninger.

Besvarelse av diverse beregningsmessige behov for generative AI

Generative AI omfatter en rekke oppgaver, inkludert bilde-syntese, tekst-generering og musikk-komposisjon, hver med sine unike beregningsmessige krav. For eksempel, hviler bilde-syntese tungt på matrise-operasjoner, mens tekst-generering innebærer sekvensiell prosessering. For å effektivt møte disse diverse beregningsmessige behovene, integreres neurale prosesseringsenheter (NPUs) ofte i System-on-Chip (SoC)-teknologi sammen med CPUs og GPUs.

Hver av disse prosessorer tilbyr distinkte beregningsmessige styrker. CPUs er særlig dyktige i sekvensiell kontroll og umiddelbarhet, GPUs utmerker seg i strømmende parallell data, og NPUs er fint stemt for kjerne-AI-operasjoner, som omhandler skalar-, vektor- og tensor-matematikk. Ved å utnytte en heterogen beregningsarkitektur, kan oppgaver tildeles prosessorer basert på deres styrker og kravene til den spesifikke oppgaven.
NPUs, som er optimert for AI-arbeidsbelastninger, kan effektivt avlaste generative AI-oppgaver fra hoved-CPU. Denne avlastningen sikrer ikke bare raske og energi-effektive operasjoner, men akselerer også AI-inferens-oppgaver, noe som tillater generative AI-modeller å kjøre mer jevnt på enheten. Med NPUs som håndterer AI-relaterte oppgaver, er CPUs og GPUs frie til å allokere ressurser til andre funksjoner, og dermed forbedre hele applikasjonsytelsen samtidig som termisk effektivitet opprettholdes.

Reelle eksempler på NPUs

Fremgangen av NPUs er i ferd med å få økt momentum. Her er noen reelle eksempler på NPUs:

Hexagon NPUs av Qualcomm er spesifikt designet for å akselerere AI-inferens-oppgaver på lav strøm og lav ressurs-enheter. Det er bygget for å håndtere generative AI-oppgaver som tekst-generering, bilde-syntese og audio-prosessering. Hexagon NPU er integrert i Qualcomms Snapdragon-plattformer, og gir effektiv utførelse av neurale nettverksmodeller på enheter med Qualcomm AI-produkter.
Apples Neural Engine er en nøkkelkomponent i A-serie og M-serie-chip, som driver forskjellige AI-drevne funksjoner som Face ID, Siri og augmentert virkelighet (AR). Neural Engine akselererer oppgaver som ansiktsgjenkjenning for sikker Face ID, naturlig språk-prosessering (NLP) for Siri og forbedret objekt-sporing og scen-forståelse for AR-applikasjoner. Det forbedrer betydelig ytelsen av AI-relaterte oppgaver på Apple-enheter, og gir en jevn og effektiv bruker-erfaring.
Samsungs NPU er en spesialisert prosessor designet for AI-beregning, som kan håndtere tusenvis av beregninger samtidig. Integrert i de siste Samsung Exynos SoCs, som driver mange Samsung-telefoner, muliggjør denne NPU-teknologien lav-strøm, høy-hastighet generative AI-beregninger. Samsungs NPU-teknologi er også integrert i flaggskip-TV, og muliggjør AI-drevne lyd-innovasjoner og forbedrer bruker-erfaringer.
Huaweis Da Vinci-arkitektur fungerer som kjerne i deres Ascend AI-prosessor, designet for å forbedre AI-beregningseffekten. Arkitekturen utnytter en høy-ytelses 3D-kube-beregning-motor, som gjør den kraftfull for AI-arbeidsbelastninger.

Bunnen av saken

Generative AI endrer vår interaksjon med enheter og definerer om computing. Utfordringen med å kjøre generative AI på enheter med begrensede beregningsressurser er betydelig, og tradisjonelle CPUs og GPUs møter ofte begrensninger. Neurale prosesseringsenheter (NPUs) tilbyr et løftende løsning med sin spesialiserte arkitektur designet for å møte kravene til generative AI. Ved å integrere NPUs i System-on-Chip (SoC)-teknologi sammen med CPUs og GPUs, kan vi utnytte hver prosessors styrker, noe som leder til raskere, mer effektive og bærekraftige AI-ytelse på enheter. Ettersom NPUs fortsetter å utvikle seg, er de satt til å forbedre On-Device AI-egenskaper, og gjøre applikasjoner mer responsive og energi-effektive.