Thought leaders
De Heilige Graal van Rekenkracht in AI

Ondanks de ongelooflijke vooruitgang zijn de mogelijkheden van kunstmatige intelligentie nog steeds beperkt in vergelijking met de verwachtingen in de echte wereld. We bouwen complexe modellen, voeren neurale netwerken uit en testen algoritmes, maar de vooruitgang komt soms tot stilstand op de plaatsen waar we het het minst verwachten.
Het probleem ligt vaak niet in de algoritmes of de gegevens, maar in de rekenkracht, de middelen die modellen in staat stellen te leren en te functioneren op de noodzakelijke schaal. Wat ligt dus achter deze barrière? Laten we de kritieke bron onderzoeken zonder welke zelfs de meest veelbelovende AI-projecten de laboratoriumfase niet kunnen verlaten.
De rekenachterstand en de gevolgen
Om dit onderwerp te begrijpen, laten we beginnen met de geschiedenis van mobiele communicatie. Toen 3G- en later 4G-netwerken verschenen, was het internet al bijna wereldwijd. En toen 5G werd geïntroduceerd, vroegen veel mensen een volkomen redelijke vraag: “Het internet wordt sneller – maar wat dan nog?”
In werkelijkheid komt de toename van de internetsnelheid niet neer op gebruikersgemak. Het verandert het hele technologische landschap. Use cases ontstaan die eerder onmogelijk waren. 5G bleek veel sneller te zijn dan 4G, en deze sprong was niet geleidelijk, zoals de sprong van 1G naar 2G, maar exponentieel. Als gevolg daarvan kunnen nieuwe toepassingen, apparaten en hele klassen van technologie verschijnen.
Verkeerslichtcamera’s, real-time verkeersanalysesystemen en geautomatiseerde verkeersregulatiemechanismen – al dit wordt mogelijk gemaakt door nieuwe communicatietechnologieën. De politie krijgt nieuwe manieren om gegevens uit te wisselen, en in de ruimte kunnen telescopen en satellieten enorme hoeveelheden informatie naar de aarde verzenden. Een kwalitatieve sprong in een fundamentele technologie drijft de ontwikkeling van het hele ecosysteem aan.
Hetzelfde principe geldt voor rekenkracht. Stel je voor dat de totale rekenkracht van de mensheid in hypothetische eenheden wordt gemeten. Vandaag de dag hebben we misschien tien van dergelijke eenheden. Hiermee kunnen we afbeeldingen en video’s genereren, teksten schrijven, marketingmateriaal maken… Dit is al aanzienlijk, maar het bereik van toepassingen is voornamelijk beperkt.
Stel je nu voor dat we niet tien, maar duizend van dergelijke eenheden hadden. Plotseling worden technologieën die eerder te duur waren haalbaar, en startups die vanwege de hoge rekenkosten werden opgegeven, beginnen economisch gezien zin te hebben.
Neem bijvoorbeeld robotaxis. Vandaag de dag vertrouwen ze voornamelijk op relatief zwakke lokale computers die in het voertuig zijn geïnstalleerd. Maar als de videofeed naar de cloud met enorme rekenkracht zou worden verzonden, zouden de gegevens in real-time kunnen worden verwerkt en geretourneerd. En dit is kritiek: een auto die met 100 km/h rijdt, moet beslissingen nemen in fracties van een seconde – rechtuit gaan, afslaan, remmen of niet remmen.
Dat is wanneer een volledig functionerende robotaxi-industrie mogelijk wordt, niet alleen geïsoleerde oplossingen zoals we die vandaag zien. Elke lokale computer die in een auto is geïnstalleerd, is inherent beperkt op een manier die een verbonden systeem niet is. Hoe sneller we het kunnen opschalen, hoe sneller de wereld om ons heen zal veranderen.
Toegang tot chips en de “gouden ticket” in AI
In de context van rekenkracht rijst de vraag: wordt toegang tot moderne chips de “gouden ticket” om de AI-markt te betreden? Creëren grote spelers die contracten sluiten met chipfabrikanten of ze zelf produceren, een kloof tussen grote ondernemingen en iedereen anders?
Een dergelijke kloof ontstaat alleen in één geval: als een bedrijfsmodel uitsluitend gericht is op het verkopen van chips aan grote klanten. In de praktijk streven fabrikanten zoals NVIDIA ernaar om cloudoplossingen voor iedereen te bieden. Hun geoptimaliseerde chips zijn beschikbaar in de cloud voor zowel OpenAI als onafhankelijke ontwikkelaars.
Zelfs strategische allianties tussen bedrijven zoals Google, Anthropic, Microsoft, OpenAI, Amazon en NVIDIA zijn voornamelijk partnerschappen voor het delen van resources, in plaats van pogingen om de markt af te sluiten. Dit model maakt een efficiënte toewijzing van rekenkracht mogelijk, waardoor de technologische ontwikkeling wordt versneld.
Als we de keten van rekenbronnen volgen, begint deze bij de eindgebruiker. Bijvoorbeeld, wanneer je WhatsApp gebruikt voor videogesprekken en berichten, moet het bedrijf ervoor zorgen dat de service werkt: gegevens opslaan en verwerken, modellen uitvoeren voor videoreiniging, effecten toevoegen en de beeldkwaliteit verbeteren.
Het onderhoud van eigen servers is duur, ze worden verouderd en vereisen constant onderhoud. Daarom zijn cloudoplossingen, “de cloud”, ontstaan. De markt wordt gedomineerd door drie spelers: Google Cloud, AWS en Microsoft Azure. Andere bedrijven kunnen niet concurreren op dit niveau: de schaal van de infrastructuur is te groot.
Cloudservices zijn enorme datacenters met koeling, stroomvoorziening en onderhoud 24 uur per dag. Ze huisvesten servers en gespecialiseerde chips van fabrikanten zoals NVIDIA, AMD en anderen, waardoor grootschalige rekenprocessen mogelijk worden.
Hier komen we bij de sleutelvraag die ik in mijn vorige column over datacenters besprak en hier verder wil uitdiepen: wat is het belangrijkste knelpunt in dit systeem? Is het een tekort aan elektriciteit, of de moeilijkheid om datacenters in regio’s te koelen waar het klimaat het extra moeilijk maakt? In werkelijkheid ligt het geheim in de chips zelf…
De heilige graal
Waarom wordt NVIDIA vandaag gewaardeerd op ongeveer 5 biljoen dollar en gerekend tot de meest succesvolle beursgenoteerde bedrijven ter wereld? De reden is eenvoudig: NVIDIA produceert de chips waarop AI-modellen getraind en uitgevoerd worden.
Elk van deze chips verbruikt enorme hoeveelheden elektriciteit wanneer grote modellen getraind of grote volumes aan gegevens verwerkt worden. Maar hoe efficiënt wordt die energie gebruikt? Hier komen gespecialiseerde chips in beeld; ze behandelen specifieke taken veel efficiënter dan algemene GPU’s.
AI-modellen verschillen. OpenAI heeft bijvoorbeeld één familie van modellen, Anthropic een andere. De concepten kunnen vergelijkbaar zijn, maar de wiskundige structuren en rekenprocessen zijn verschillend. Een enkele algemene chip, wanneer deze OpenAI-modellen (zoals ChatGPT) traint versus Anthropic-modellen (zoals Claude), fungeert als een “one-size-fits-all-tool”, die bijvoorbeeld 100.000 uur rekenkracht verbruikt voor één model en 150.000 voor een ander. De efficiëntie varieert aanzienlijk en is zelden optimaal.
Bedrijven lossen dit probleem op door gespecialiseerde chips te produceren. Bijvoorbeeld, één chip kan worden geoptimaliseerd voor de ChatGPT-architectuur en deze trainen in, zeg, 20 minuten, terwijl een andere is aangepast aan de architectuur van Anthropic en deze eveneens in 20 minuten traint. Energieverbruik en trainingsduur worden meerdere keren verminderd in vergelijking met een algemene chip.
Wanneer deze chips aan grote bedrijven worden verkocht, zoals Google, Amazon, Microsoft of Azure, worden ze aangeboden als losse producten. Gebruikers kunnen kiezen, bijvoorbeeld, voor een chip geoptimaliseerd voor een YOLO-model of een eenvoudigere, goedkopere chip voor een Xen-architectuur. Op deze manier krijgen bedrijven toegang tot rekenbronnen die precies zijn afgestemd op hun taken, in plaats van algemene GPU’s te kopen. Als een gebruiker tien verschillende functies heeft, kan hij tien verschillende gespecialiseerde chips gebruiken.
De trend is duidelijk: gespecialiseerde chips vervangen langzaam algemene chips. Veel startups werken nu met ASIC’s (Application-Specific Integrated Circuits), chips die zijn ontworpen voor specifieke rekenkundige taken. De eerste ASIC’s verschenen voor Bitcoin-mijnbouw: aanvankelijk werd cryptocurrency gemined op NVIDIA-GPU’s, later werden chips specifiek voor Bitcoin gemaakt en waren ze niet in staat om andere taken uit te voeren.
Ik zie dit in de praktijk: dezelfde hardwareconfiguratie kan volledig verschillende resultaten produceren, afhankelijk van de taak. In mijn startup Introspector onderzoeken we deze processen in echte projecten, en als strategisch adviseur van Keymakr zie ik hoe klanten efficiëntie behalen met gespecialiseerde chips, waardoor modellen sneller kunnen worden uitgevoerd. Projecten die eerder vastliepen tijdens training of inferentie bereiken stabiele resultaten met deze aanpak.
Echter, smalle specialisatie draagt risico’s met zich mee. Een chip geoptimaliseerd voor de architectuur van Anthropic zal niet werken voor het trainen van OpenAI-modellen, en vice versa. Elke nieuwe architectuur vereist een nieuwe generatie hardware, waardoor een risico van grootschalige “veroudering” ontstaat. Als Anthropic morgen een nieuwe architectuur uitbrengt, worden alle vorige generaties chips ineffectief of nutteloos. Het produceren van nieuwe chips kost miljarden dollars en kan jaren duren.
Dit creëert een dilemma: moeten we gespecialiseerde chips maken die perfect werken in een smalle scenario, of moeten we doorgaan met het produceren van algemene chips die alle taken matig goed oplossen, maar niet volledig vervangen wanneer architectuur verandert?
Efficiëntie in deze context wordt gemeten door drie primaire parameters: runtime, elektriciteitsverbruik en warmteproductie. Deze parameters zijn rechtstreeks gerelateerd: hoe langer een systeem draait, hoe meer energie het verbruikt en hoe meer warmte het produceert. Het verlagen van één parameter verbetert automatisch de andere twee.
Hier ligt de “heilige graal” van AI-prestaties: als ten minste één van de fundamentele efficiëntieparameters kan worden geoptimaliseerd, verbeteren de andere parameters bijna automatisch ook.
Duurzaam proces
Met het groeiende gebruik van gespecialiseerde chips is het probleem van overproductie acuut geworden. Momenteel is het overschot aan apparatuur al aanzienlijk, en bedrijven lossen dit probleem op verschillende duurzame manieren op, waaronder het hergebruik van bestaande resources.
Het recyclen van apparatuur is een sleutelonderdeel van duurzame ontwikkeling in high-techindustrieën geworden. Chips bevatten aanzienlijke hoeveelheden edele en basismetalen, goud, koper, aluminium, palladium en zeldzame aardmetalen, evenals materialen die worden gebruikt in microchips en transistors. Zodra apparatuur verouderd is, kunnen deze waardevolle resources terug worden gebracht in de productie, waardoor de kosten van nieuwe componenten worden verlaagd en tegelijkertijd het milieubeeld van de industrie wordt verbeterd.
Sommige gespecialiseerde fabrieken en bedrijven richten zich op het recyclen en extraheren van edele metalen uit verouderde componenten. Bijvoorbeeld, sommige faciliteiten gebruiken hydrometallurgische processen en geavanceerde chemische methoden om goud en koper met een hoge graad van zuiverheid te extraheren, waardoor deze materialen kunnen worden hergebruikt in nieuwe chips.
Bovendien implementeren bedrijven gesloten-loopsmodellen, waarbij oude apparatuur wordt geüpgraded of geïntegreerd in nieuwe oplossingen, waardoor de behoefte aan primaire grondstofwinning wordt verminderd. Dergelijke benaderingen helpen niet alleen om afval te minimaliseren, maar verlagen ook de koolstofvoetafdruk van de productie, aangezien traditionele mijnbouw en metaalverwerking aanzienlijke hoeveelheden energie vereisen.
Duurzaam beheer van de levenscyclus van chips en apparatuur kan een industrienorm worden, waarbij technologische vooruitgang in overeenstemming is met milieurechtvaardigheid.












