Kunstmatige intelligentie

De opkomst van neurale verwerkingseenheden: het verbeteren van generatieve AI op apparaten voor snelheid en duurzaamheid

Published June 20, 2024

Updated April 27, 2026

Dr. Tehseen Zia

De evolutie van generatieve AI verandert niet alleen onze interactie en ervaringen met computers, maar definieert ook de kern van de computertechnologie opnieuw. Een van de belangrijkste drijvende krachten achter deze transformatie is de noodzaak om generatieve AI te laten werken op apparaten met beperkte rekenbronnen. Dit artikel bespreekt de uitdagingen die dit met zich meebrengt en hoe neurale verwerkingseenheden (NPUs) ontstaan om deze uitdagingen aan te pakken. Bovendien introduceert het artikel enkele van de nieuwste NPU-processoren die het voortouw nemen in dit veld.

Uitdagingen van generatieve AI-infrastructuur op apparaten

Generatieve AI, de kracht achter beeldsynthese, tekstgeneratie en muzieksamenstelling, vraagt om aanzienlijke rekenbronnen. Traditioneel zijn deze eisen ingevuld door de uitgebreide mogelijkheden van cloudplatforms te benutten. Hoewel effectief, brengt deze aanpak zijn eigen set uitdagingen met zich mee voor generatieve AI op apparaten, waaronder afhankelijkheid van constante internetverbinding en centrale infrastructuur. Deze afhankelijkheid introduceert latentie, beveiligingskwetsbaarheden en verhoogde energieverbruik.

De ruggengraat van cloudgebaseerde AI-infrastructuur steunt grotendeels op centrale verwerkingseenheden (CPUs) en grafische verwerkingseenheden (GPUs) om de rekenbehoeften van generatieve AI te verwerken. Echter, wanneer deze verwerkingseenheden worden toegepast op generatieve AI op apparaten, ondervinden ze aanzienlijke hindernissen. CPUs zijn ontworpen voor algemene taken en ontbreken de gespecialiseerde architectuur die nodig is voor efficiënte en laagvermogende uitvoering van generatieve AI-werklasten. Hun beperkte parallelle verwerking-capaciteiten resulteren in gereduceerde doorvoer, verhoogde latentie en hoger energieverbruik, waardoor ze minder ideaal zijn voor AI op apparaten. Aan de andere kant kunnen GPUs uitstekend presteren bij parallelle verwerking, maar zijn voornamelijk ontworpen voor grafische verwerkingstaken. Om generatieve AI-taken effectief uit te voeren, hebben GPUs gespecialiseerde geïntegreerde schakelingen nodig, die veel vermogen verbruiken en significante warmte genereren. Bovendien creëert hun grote fysieke omvang obstakels voor hun gebruik in compacte, op-apparaat-toepassingen.

De opkomst van neurale verwerkingseenheden (NPUs)

Als reactie op de bovenstaande uitdagingen ontstaan neurale verwerkingseenheden (NPUs) als transformatieve technologie voor het implementeren van generatieve AI op apparaten. De architectuur van NPUs is voornamelijk geïnspireerd door de structuur en functie van de menselijke hersenen, met name hoe neuronen en synapsen samenwerken om informatie te verwerken. In NPUs fungeren kunstmatige neuronen als de basiseenheden, die biologische neuronen nabootsen door invoer te ontvangen, deze te verwerken en uitvoer te produceren. Deze neuronen zijn verbonden door kunstmatige synapsen, die signalen tussen neuronen overdragen met variabele sterkte die tijdens het leerproces worden aangepast. Dit imiteert het proces van synaptische gewichtsveranderingen in de hersenen. NPUs zijn georganiseerd in lagen; invoerlagen die ruwe gegevens ontvangen, verborgen lagen die tussenliggende verwerking uitvoeren en uitvoerlagen die de resultaten genereren. Deze laagstructuur weerspiegelt de multi-stadium- en parallelle informatieverwerking-capaciteit van de hersenen. Aangezien generatieve AI ook is opgebouwd met een soortgelijke structuur van kunstmatige neurale netwerken, zijn NPUs goed geschikt voor het beheren van generatieve AI-werklasten. Deze structurele overeenstemming reduceert de noodzaak voor gespecialiseerde geïntegreerde schakelingen, wat leidt tot compactere, energie-efficiëntere, snellere en duurzamere oplossingen.

Het aanpakken van diverse rekenbehoeften van generatieve AI

Generatieve AI omvat een breed scala aan taken, waaronder beeldsynthese, tekstgeneratie en muzieksamenstelling, elk met hun eigen unieke rekenbehoeften. Om bijvoorbeeld beeldsynthese te laten slagen, is het zwaar afhankelijk van matrixoperaties, terwijl tekstgeneratie sequentiële verwerking vereist. Om deze diverse rekenbehoeften effectief te kunnen verwerken, worden neurale verwerkingseenheden (NPUs) vaak geïntegreerd in System-on-Chip (SoC)-technologie naast CPUs en GPUs.

Elk van deze verwerkingseenheden biedt distincte rekensterktes. CPUs zijn bijzonder geschikt voor sequentiële controle en onmiddellijkheid, GPUs excelleren in het verwerken van parallelle gegevensstromen en NPUs zijn fijn afgestemd op core AI-bewerkingen, waaronder scalar, vector en tensor-wiskunde. Door een heterogene rekenarchitectuur te benutten, kunnen taken worden toegewezen aan verwerkingseenheden op basis van hun sterktes en de eisen van de specifieke taak.
NPUs, die geoptimaliseerd zijn voor AI-werklasten, kunnen generatieve AI-taken efficiënt afhandelen van de hoofd-CPU. Deze afhandeling zorgt niet alleen voor snelle en energie-efficiënte bewerkingen, maar versnelt ook AI-inferentietaken, waardoor generatieve AI-modellen soepeler op het apparaat kunnen draaien. Met NPUs die AI-gerelateerde taken afhandelen, zijn CPUs en GPUs vrij om middelen toe te wijzen aan andere functionaliteiten, waardoor de algehele prestatie van de toepassing wordt verbeterd en thermische efficiëntie wordt behouden.

Reële voorbeelden van NPUs

De vooruitgang van NPUs wint aan momentum. Hier zijn enkele reële voorbeelden van NPUs:

Hexagon NPUs van Qualcomm zijn specifiek ontworpen voor het versnellen van AI-inferentietaken op apparaten met lage vermogen en beperkte middelen. Het is gebouwd om generatieve AI-taken zoals tekstgeneratie, beeldsynthese en audiobewerking te verwerken. De Hexagon NPU is geïntegreerd in Qualcomm’s Snapdragon-platforms, waardoor efficiënte uitvoering van neurale netwerkmodellen op apparaten met Qualcomm AI-producten mogelijk wordt gemaakt.
Apple’s Neural Engine is een sleutelcomponent van de A-series en M-series chips, die verschillende AI-gedreven functies zoals Face ID, Siri en augmented reality (AR) aandrijft. De Neural Engine versnelt taken zoals gezichtsherkenning voor beveiligde Face ID, natuurlijke taalverwerking (NLP) voor Siri en verbeterde objectvolging en scènebegrip voor AR-toepassingen. Het verbetert aanzienlijk de prestatie van AI-gerelateerde taken op Apple-apparaten, waardoor een naadloze en efficiënte gebruikerservaring ontstaat.
Samsung’s NPU is een gespecialiseerde verwerkingseenheid ontworpen voor AI-berekeningen, die duizenden berekeningen tegelijk kan uitvoeren. Geïntegreerd in de nieuwste Samsung Exynos SoCs, die veel Samsung-telefoons aandrijven, maakt deze NPU-technologie lage-vermogen, hoge-snelheid generatieve AI-berekeningen mogelijk. Samsung’s NPU-technologie is ook geïntegreerd in vlaggenschip-tv’s, waardoor AI-gedreven geluidinnovaties en verbeterde gebruikerservaringen mogelijk worden.
Huawei’s Da Vinci-architectuur dient als de kern van hun Ascend AI-processor, ontworpen om de AI-rekenkracht te verhogen. De architectuur maakt gebruik van een high-performance 3D-cube-computing-engine, waardoor het krachtig is voor AI-werklasten.

De conclusie

Generatieve AI verandert onze interactie met apparaten en definieert de computertechnologie opnieuw. De uitdaging om generatieve AI te laten draaien op apparaten met beperkte rekenbronnen is aanzienlijk, en traditionele CPUs en GPUs voldoen vaak niet aan deze eisen. Neurale verwerkingseenheden (NPUs) bieden een veelbelovende oplossing met hun gespecialiseerde architectuur, ontworpen om aan de eisen van generatieve AI te voldoen. Door NPUs te integreren in System-on-Chip (SoC)-technologie naast CPUs en GPUs, kunnen we elke verwerkingseenheid gebruiken waarin ze het sterkst zijn, wat leidt tot snellere, efficiëntere en duurzamere AI-prestaties op apparaten. Naarmate NPUs verder evolueren, zijn ze klaar om de AI-mogelijkheden op apparaten te verbeteren, waardoor toepassingen responsiever en energie-efficiënter worden.