AI 101

Neurale Verwerkingsunits (NPUs): De Drijvende Kracht Achter de Volgende Generatie AI en Computing

Published January 18, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Net zoals GPUs ooit de CPU voorbijgestreefd hebben voor AI-werklasten, zijn Neurale Verwerkingsunits (NPUs) klaar om GPUs uit te dagen door nog snellere, efficiëntere prestaties te leveren – vooral voor generatieve AI, waarbij massive realtime-verwerking moet plaatsvinden met bliksemsnelheid en tegen lagere kosten.

De vraag is hoe NPUs werken, en waarom ze hun GPU-voorgangers inhalen voor moderne AI-taken, en wat hen onmisbaar maakt voor alles, van robuuste datacenter-infrastructuur tot alledaagse consumentenapparaten. Of u nu uw volgende grote AI-implementatie strategiseert of gewoon benieuwd bent naar de cutting edge van technologie, het is belangrijk om te begrijpen waarom NPUs de doorbraak kunnen zijn die AI en de volgende generatie computing herdefinieert.

Wat is een Neurale Verwerkingsunit (NPU)?

Een Neurale Verwerkingsunit (NPU) is een gespecialiseerde microprocessor die van de grond af opgebouwd is om de unieke vereisten van moderne AI- en machine learning-werklasten te verwerken. Terwijl Centrale Verwerkingsunits (CPUs) en Grafische Verwerkingsunits (GPUs) historisch gezien traditionele computertaken en grafische rendering hebben aangedreven, waren ze oorspronkelijk niet ontworpen om de computationele intensiteit van diepe neurale netwerken aan te pakken. NPUs vullen deze lacune door zich specifiek te richten op parallelle, hoge-doorvoeroperaties zoals matrixvermenigvuldiging en tensorwiskunde – de onderbouwing van AI-modellen.

Belangrijke aspecten die NPUs onderscheiden van algemene CPUs en GPUs zijn:

Geoptimaliseerde AI-aritmetica: NPUs gebruiken vaak lage precisietypen (bijv. 8-bits integerwiskunde, of nog lager) om verwerkingskracht en energoefficiëntie in balans te brengen, terwijl CPUs en GPUs doorgaans vertrouwen op hogere precisie drijvende puntberekeningen.
Parallelle architectuur: NPUs kunnen AI-taken opdelen in duizenden (of zelfs miljoenen) kleinere berekeningen die gelijktijdig worden uitgevoerd, waardoor de doorvoer aanzienlijk toeneemt.
Energie-efficiëntie: Door overbodige instructies te elimineren en specifiek te optimaliseren voor neurale netwerktaken, kunnen NPUs een hogere prestatie bereiken bij lagere vermogen in vergelijking met GPUs of CPUs die dezelfde AI-werklasten uitvoeren.

Ook bekend als AI-accelerators, verschijnen NPUs vaak als discrete hardware die is bevestigd aan servermoederborden, of als onderdeel van een systeem-op-een-chip (SoC) in smartphones, laptops of edge-apparaten.

Waarom NPUs ertoe doen voor Generatieve AI

De explosieve toename van generatieve AI – die grote taalmodellen (LLM’s) zoals ChatGPT, afbeelding-generatiehulpmiddelen zoals DALL·E en video-synthesemodellen omvat – vraagt om computationele platforms die enorme hoeveelheden gegevens kunnen verwerken, deze in realtime kunnen verwerken en er efficiënt van kunnen leren. Traditionele processors kunnen worstelen met deze vereisten, waardoor er een hoog energieverbruik, verhoogde latentie en doorvoerbottlenecks ontstaan.

Belangrijke NPU-voordelen voor Generatieve AI

Realtime-verwerking: Generatieve AI-modellen zoals transformatoren, diffusiemodellen en generatieve tegenstellingen (GAN’s) omvatten uitgebreide matrix- en tensoroperaties. NPUs excelleren in het vermenigvuldigen van matrices en het toevoegen van vectoren in parallel, waardoor generatieve modellen lage latentieprestaties kunnen bereiken.
Schaalbaarheid: NPUs zijn specifiek ontworpen voor parallelle schaalbaarheid, waardoor ze een sterke fit zijn voor de grote schaalarchitecturen die worden gebruikt in generatieve AI. Het toevoegen van meer NPU-cores of NPUs aan een datacentercluster kan de AI-prestaties lineair verhogen zonder de energiekosten aanzienlijk te verhogen.
Energie-efficiëntie: Naarmate de complexiteit van generatieve modellen toeneemt, neemt ook hun stroomverbruik toe. NPUs helpen het energieverbruik in de hand te houden door zich te richten op precies het soort wiskunde dat generatieve AI vereist, waardoor overhead van andere berekeningen wordt geëlimineerd.

Belangrijke kenmerken van NPUs

Parallelle verwerking: Door computationele taken op te delen in veel kleinere taken, kunnen NPUs uitgebreide matrixoperaties veel sneller verwerken dan CPUs, die doorgaans instructies in een meer lineaire of seriële manier uitvoeren. Deze parallelle verwerking is kritisch voor diepe leer-taken, waarbij training en inferentie grote batches gegevens omvatten.
Lage precisiearithmetica: De meeste neurale netwerkberekeningen vereisen niet de precisie van 32-bits of 64-bits drijvende puntoperaties. Lage precisietypen, zoals 8-bits integers, reduceren aanzienlijk het aantal bits dat per operatie wordt verwerkt, waardoor snellere en energoefficiëntere uitvoering mogelijk wordt, terwijl de nauwkeurigheid van het model behouden blijft.
Hoge bandbreedte on-chip geheugen: De mogelijkheid om grote hoeveelheden trainings- of inferentiegegevens dicht bij de processor te houden, is cruciaal voor AI-taken. Veel NPUs hebben on-chip hoge bandbreedte geheugen (HBM) of geavanceerde geheugensubsystemen die specifiek zijn ontworpen voor neurale netwerken, waardoor de noodzaak om constant te communiceren met extern geheugen wordt verminderd.
Hardwareversnellingstechnieken: Moderne NPU-architecturen omvatten vaak gespecialiseerde hardware-eenheden zoals systolische arrays of tensorcores, waardoor ze matrixvermenigvuldiging en andere AI-gerichte operaties kunnen uitvoeren met minimale overhead.

Hoe NPUs werken: het simuleren van de hersenen

NPUs putten inspiratie uit de neurale netwerken van de menselijke hersenen. Net zoals miljarden neuronen en synapsen informatie verwerken in parallel, bestaat een NPU uit talloze verwerkingselementen die grote datasets gelijktijdig kunnen verwerken. Dit ontwerp is bijzonder effectief voor taken zoals:

Afbeeldingherkenning en -verwerking
Natuurlijke taalverwerking (NLP) en spraakherkenning
Objectdetectie en autonome navigatie
Generatieve AI (bijv. afbeeldingengeneratie en tekstgeneratie)

Synaptische gewichten en leren

Een hoeksteen van neurale netwerkcomputatie is het concept van gewichten, die de “sterkte” of “belang” van elke neuronverbinding in het netwerk vertegenwoordigen. NPUs integreren deze gewichten rechtstreeks in de hardware, waardoor snellere en energoefficiëntere updates mogelijk worden terwijl een model leert.

Vereenvoudigde hoge capaciteitskernen

Terwijl CPUs traditioneel meerdere, uiteenlopende operaties (varierend van webbrowsen tot spreadsheetberekeningen) hebben afgehandeld, stroomlijnen NPUs het ontwerp om zich te richten op slechts een paar kernoperaties – zoals matrixvermenigvuldiging, activeringsfuncties en convolutie – die herhaaldelijk in parallel worden uitgevoerd.

NPUs vs. GPUs vs. CPUs

Elk type processor speelt een unieke rol in de moderne computing, hoewel er enige overlap is bij het afhandelen van AI-taken. Hier is een korte samenvatting:

Functie	CPU	GPU	NPU
Primaire gebruik	Algemene taken, logica en controle	Grafische rendering, parallelle verwerking voor HPC-taken	Gespecialiseerde parallelle verwerking voor AI, ML en diepe leer
Aantal kernen	Weinig (vaak 2-16 in consumentenchips)	Honderden tot duizenden kleinere kernen	Hoog parallele array van gespecialiseerde kernen
Precisie	Doorgaans hoge precisie (32-bits of 64-bits)	Mengsel van hogere en lagere precisie (FP32, FP16, etc.)	Focussen op lage precisie (8-bits of lager)
Energie-efficiëntie (AI)	Gemiddeld wanneer geschaald voor grote AI	Goed, maar kan stroomvretend zijn bij schaal	Hoog geoptimaliseerd, lager vermogen per operatie
Fysieke voetafdruk	Geïntegreerd in moederbord of SoC	Vaak losse kaarten (discrete GPUs) of SoC-gebaseerd	Kan losstaand zijn of geïntegreerd in SoC (smartphones, etc.)

Conclusie: Terwijl CPUs nog steeds cruciaal zijn voor algemene systeembeheer en traditionele workflows, en GPUs robuuste parallelle verwerkingskracht bieden (vooral voor zware grafische taken), zijn NPUs specifiek ontworpen voor AI-versnelling en werken vaak op hogere prestaties per watt voor machine learning-werklasten.

Praktische NPU-toepassingen

Datacenters en Cloud AI

Grote datacenters huisvesten losse NPUs die rechtstreeks aan servermoederborden kunnen worden bevestigd. Deze versnellen alles, van aanbevelingsmotoren (zoals die van Netflix en Amazon) tot generatieve AI zoals realtime tekst- en afbeeldingengeneratie.

Smartphones en consumentenelektronica

Veel van de huidige premium smartphones, laptops en tablets integreren een NPU of AI-engine rechtstreeks in de SoC. Apple’s Neural Engine, Qualcomm’s Hexagon NPU en Samsung’s Neural Processing Engine zijn voorbeelden van geïntegreerde oplossingen. Deze benadering stelt gebruikers in staat om:

Realtime afbeelding- en videoverwerking (bijv. achtergrondvervaging op video-oproepen)
On-device spraakassistenten (met spraakherkenning)
Intelligente cameramogelijkheden zoals scènedetectie, gezichtsherkenning en geavanceerde beeldstabilisatie

Edge-apparaten en IoT

NPUs zijn een cruciale rol gaan spelen in edge computing, waar apparaten lokale gegevens moeten verwerken in plaats van deze naar de cloud te sturen. Dit is vooral waardevol voor toepassingen die lage latentie, gegevensprivacy of realtime feedback vereisen – denk aan slimme thuisapparaten, industrie 4.0-sensoren, drones, autonome voertuigen en meer.

Robotica

Van geautomatiseerde magazijnrobots tot robotische chirurgische assistenten, kunnen NPUs beslissingen nemen in een fractie van een seconde op basis van sensorinvoer. Hun vermogen om videofeeds (objectdetectie en patroonherkenning) en andere sensorgegevens snel te verwerken, is transformatief voor de volgende generatie autonome en semi-autonome robots.

NPUs voor Edge Computing en On-Device AI

Waarom Edge Computing ertoe doet

Naarmate AI zich uitbreidt naar wearables, externe sensoren en andere Internet of Things (IoT)-apparaten, kan de mogelijkheid om gegevens dicht bij de bron (in plaats van in de cloud) te verwerken, nog kritischer worden. Edge AI vermindert gegevensoverdrachtskosten, mitigeert latentieproblemen en houdt gevoelige informatie op het apparaat – verbetering van zowel beveiliging als privacy.

De rol van NPUs in Edge AI

Laag stroomverbruik: Vaak op batterijen of energielimiet, hebben edge-apparaten een AI-processor nodig die zonder bronnen te verbruiken kan functioneren. NPUs, geoptimaliseerd voor efficiënte matrixoperaties, zijn de perfecte fit.
Realtime inzichten: Of het nu gaat om het detecteren van afwijkingen in een fabriek of het omleiden van een drone in vlucht, beslissingen over inferentie in een fractie van een seconde kunnen een toepassing maken of breken. NPUs bieden deze mogelijkheid met minimale overhead.
Smarthphone-toepassingen: Met de opkomst van on-device generatieve AI, versterken NPUs in smartphones al geavanceerde cameramogelijkheden, realtime taalvertaling en contextueel spraakassistentie.

De Toekomst van NPUs en AI

Naarmate generatieve AI exponentieel in capaciteit toeneemt, zullen ook de eisen voor hoge prestaties, ultragefficiënte computing toenemen. Reeds zijn hardwarefabrikanten zoals Intel, AMD, Nvidia, Apple, Qualcomm en Samsung in een wedloop verwikkeld om hun eigen NPU-architecturen te integreren of te verfijnen. Evenzo zijn datacenters aan het verschuiven naar heterogene computing-modellen – waarbij CPUs, GPUs en NPUs samenwerken – om steeds gespecialiseerdere werklasten op grote schaal aan te pakken.

NPUs voor de Volgende Generatie Generatieve AI

Lagere latentie: Toekomstige NPUs zouden bijna onmiddellijke realtime-inferentie kunnen bereiken, waardoor virtuele persoonlijke assistenten en realtime inhoudsgeneratie een naadloze onderdeel van het dagelijks leven kunnen worden.
Aanpassing van modellen op de vlucht: Naarmate modellen dynamischer worden – hun architectuur en gewichten aanpassend op de vlucht – zullen NPUs evolueren om continue, online leer scenario’s aan te kunnen.
Verder dan visie en taal: Generatieve AI zal zich binnenkort uitbreiden naar complexe multisensore uitvoer, waaronder realtime haptische feedback, 3D-objectgeneratie of zelfs audiovisuele immersieve ervaringen.

Samenwerking tussen meerdere processors

Heterogene computing houdt in dat de juiste processor voor de juiste taak wordt ingezet. De CPU behandelt gegeneraliseerde taken en orkestratie, de GPU behandelt grote parallelle operaties (zoals graphics of grote matrixberekeningen), en de NPU drijft gespecialiseerde AI-taken aan – vooral grote neurale netwerk inferentie.

In dit toekomstscenario worden toepassingen flexibeler en krachtiger:

Generatieve kunst kan lokaal draaien, met uw NPU die taken zoals stijltransfer of upscaling in realtime afhandelt.
Bedrijfssoftware die AI-gebaseerde natuurlijke taalverwerking vereist, kan grammaticacorrectie en contextbegrip delegeren aan NPUs, terwijl de CPU samenwerkt met de GPU voor gegevensvisualisatie.
Complexere simulaties in wetenschappelijk onderzoek kunnen worden opgesplitst tussen CPU, GPU en NPUs om efficiënt miljarden gegevenspunten te verwerken.

Snel hardware- en software-innovatie

Vanwege de noodzaak voor snelle schaalvergroting van AI, versnellen hardware- en software-innovaties:

Aangepaste instructiesets: Veel NPUs worden ontwikkeld met proprietiere instructiesets die zijn afgestemd op de evoluerende AI-algoritmen.
Unificatie van AI-frameworks: AI-frameworks (bijv. TensorFlow, PyTorch, ONNX) blijven optimaliseren voor NPU-backends, waardoor ontwikkelaarswerkstromen worden vereenvoudigd.
Convergentie van edge en cloud: Dezelfde AI-werklasten die eerder naar de cloud werden verwezen, kunnen nu worden verdeeld over cloud-GPUs en NPUs, of rechtstreeks op edge-apparaten.

Conclusie

Neurale Verwerkingsunits (NPUs) brengen een nieuwe era van specifiek ontworpen AI-hardware, rechtstreeks aansluitend bij de uitdagingen van diepe leer, generatieve AI en grote schaalgegevensverwerking. Door zich te richten op parallelle, lage precisie-werklasten, bieden NPUs ongekende prestaties, energoefficiëntie en schaalbaarheid – voordelen die niet alleen cruciaal zijn voor cutting-edge cloud AI, maar ook voor alledaagse consumentenapparaten en opkomende edge-toepassingen.

Hun belang in de toekomst van AI kan niet worden overschat. Naarmate de vraag naar on-device generatieve AI toeneemt en heterogene computing de standaard wordt, zullen NPUs waarschijnlijk even essentieel worden voor AI-gedreven systemen als de CPU dat is voor traditionele computing. Of het nu gaat om het mogelijk maken van realtime taalvertaling op uw smartphone of het orkestreren van grote taalmodellen in het datacenter, de NPU staat klaar om te transformeren hoe machines leren en interactie hebben met de wereld – een blik werpend in een toekomst van steeds slimmere, persoonlijkere en energoefficiëntere computing.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.

Unite.AI

Neurale Verwerkingsunits (NPUs): De Drijvende Kracht Achter de Volgende Generatie AI en Computing

Wat is een Neurale Verwerkingsunit (NPU)?

Waarom NPUs ertoe doen voor Generatieve AI

Belangrijke NPU-voordelen voor Generatieve AI

Belangrijke kenmerken van NPUs

Hoe NPUs werken: het simuleren van de hersenen

Synaptische gewichten en leren

Vereenvoudigde hoge capaciteitskernen

NPUs vs. GPUs vs. CPUs

Praktische NPU-toepassingen

Datacenters en Cloud AI

Smartphones en consumentenelektronica

Edge-apparaten en IoT

Robotica

NPUs voor Edge Computing en On-Device AI

Waarom Edge Computing ertoe doet

De rol van NPUs in Edge AI

De Toekomst van NPUs en AI

NPUs voor de Volgende Generatie Generatieve AI

Samenwerking tussen meerdere processors

Snel hardware- en software-innovatie

Conclusie

You may like