Connect with us

De AI-infrastructuur is kapot. Tokens worden de nieuwe maatstaf voor waarde.

Thought leaders

De AI-infrastructuur is kapot. Tokens worden de nieuwe maatstaf voor waarde.

mm

De AI-industrie heeft een meetprobleem.

Jarenlang is succes gedefinieerd door toegang tot compute, zoals wie de meeste GPUs heeft, de grootste clusters of de snelste trainingsruns. Miljarden zijn geïnvesteerd in infrastructuur om deze race te winnen.

Maar nu AI van experimentatie naar productie gaat, begint dat model te breken.

Bedrijven kopen geen GPUs. Ze kopen geen inference-capaciteit. Ze kopen resultaten zoals samenvattingen, aanbevelingen, beslissingen, inhoud. Met andere woorden, ze kopen tokens.

Toch is de meeste AI-infrastructuur nog steeds ontworpen alsof compute het einddoel is. Dat is het niet.

De echte eenheid van waarde in AI is de token. En de bedrijven die deze verschuiving vroeg herkennen, zullen de volgende fase van de markt definiëren.

De opkomst van de AI-tokenfabriek

Als tokens het product zijn, moet de AI-infrastructuur zich gedragen als een productiesysteem, niet als een wetenschappelijk project. Daar komt het concept van de AI-tokenfabriek om de hoek kijken.

Een AI-tokenfabriek is niet zomaar een extra softwarelaag in de stack. Het is een heroverweging van de stack zelf. In plaats van te optimaliseren voor geïsoleerde modelprestaties of ruwe hardware-gebruik, richt het zich op één resultaat: efficiënte tokenproductie op grote schaal.

Dat betekent het abstract maken van infrastructuurscomplexiteit, het dynamisch toewijzen van workloads aan heterogene omgevingen en het continu optimaliseren voor doorvoer, latentie, gebruik en kosten per token.

Het huidige model is eigenlijk GPU-verhuur met extra stappen. Organisaties voorzien dure hardware, naaien gefragmenteerd gereedschap aan elkaar en hopen dat de bezetting uiteindelijk de investering rechtvaardigt.

Een tokenfabriek keert die vergelijking helemaal om. Het levert outputs, niet infrastructuur, en behandelt efficiëntie als het kernontwerpprincipe vanaf de eerste dag. Dit is geen incrementele vooruitgang. Het is een verschuiving van infrastructuur als capaciteit naar infrastructuur als productie.

Waarom het oude model niet kan standhouden

Het huidige AI-infrastructuurmodel is niet alleen inefficiënt. Het is steeds minder duurzaam.

GPU-schaarste heeft de eerste barst blootgelegd. De vraag blijft de aanbod overtreffen, waardoor organisaties in gefragmenteerde, multi-vendor-implementaties terechtkomen. Wat begon als een tijdelijke workaround is snel de norm geworden: heterogene omgevingen aan elkaar genaaid zonder een unificerende operationele laag.

Het probleem is dat de meeste bestaande stacks nooit zijn gebouwd voor deze realiteit. Ze optimaliseren niet effectief over architecturen, passen zich niet aan in real-time aan of bieden geen duidelijke zichtbaarheid in prestaties en kosten.

Als gevolg daarvan neemt de complexiteit sneller toe dan de schaal.

Elk nieuw model, framework, accelerator of cloudplatform introduceert een extra laag operationele overhead. Teams besteden enorme hoeveelheden tijd aan het beheren van orkestratie, compatibiliteit, routing, planning en observabiliteitsproblemen in plaats van het verbeteren van resultaten.

Wat een schaalvoordeel zou moeten zijn, wordt snel een coördinatieprobleem.

Tegelijkertijd worden de economieën moeilijker te negeren. Vroege AI-implementaties konden inefficiënties maskeren achter groei en experimentatie. Dat venster sluit zich.

Bestuurders stellen nu moeilijkere vragen: Waarom zijn inferentiekosten zo onvoorspelbaar? Waarom is GPU-gebruik nog steeds zo laag? Waarom betalen organisaties premiumprijzen voor hardware die vaak stil staat? Waarom is het zo moeilijk om infrastructuurspendingen te koppelen aan bedrijfsresultaten?

Het antwoord is eenvoudig: Het systeem was ontworpen voor toegang, niet voor efficiëntie.

Van compute-georiënteerd naar token-georiënteerde architectuur

De verschuiving naar tokenfabrieken is zowel filosofisch als architectonisch.

Ten eerste verplaatst de markt zich van GPU-as-a-service naar outcome-as-a-service. Klanten willen geen infrastructuur beheren; ze willen gegarandeerde resultaten. De logische eindtoestand is consumptie op basis van outputs, niet resources.

Ten tweede geven gefragmenteerde stacks plaats aan unificerende controlevlakken. In een heterogene omgeving zijn zichtbaarheid en controle alles. Tokenfabrieken bieden real-time inzicht in gebruik, kosten en prestaties, en de mogelijkheid om daarop te handelen. Organisaties moeten begrijpen: Wie genereert tokens? Met welke kosten? Op welke hardware? Onder welke workloads? En met welk niveau van efficiëntie? Zonder die antwoorden wordt optimalisatie giswerk.

Ten slotte verschuift de industriefocus van uitvoering naar continue optimalisatie. De uitdaging is niet langer alleen het uitvoeren van modellen, maar het uitvoeren ervan op intelligente wijze, terwijl organisaties bepalen: Welke workloads horen op welke hardware? Hoe maximaliseer je de doorvoer terwijl je de kosten controleert? Hoe voorkom je ongebreidelde tokengebruik?

Tokenfabrieken behandelen deze vragen als eerste-ordeproblemen, niet als bijzaak.

Waarom het huidige AI-leveringsmodel tekort schiet

De traditionele AI-stack (omvattende hardwareleveranciers, cloudplatforms, inference-diensten) is voornamelijk gebouwd voor snelle groei, niet voor systemische efficiëntie.

Elke laag voegt waarde toe, maar ook kosten, abstractie en operationele fragmentatie. Het resultaat is een systeem met gestapelde marges, beperkte transparantie en toenemende vendor-lock-in. Organisaties optimaliseren binnen silo’s in plaats van over het systeem.

Tokenfabrieken daagden dat model fundamenteel uit.

Door hardware los te koppelen van waardelevering, maken ze end-to-end-optimalisatie mogelijk. Workloads kunnen vloeiend over omgevingen heen bewegen. Architecturen kunnen evolueren zonder dat er massive herschrijvingen nodig zijn. Efficiëntie wordt meetbaar, beheersbaar en continu verbeterbaar.

Dit is hoe bedrijven en opkomende neo-clouds effectiever kunnen concurreren met hyperscalers. Niet door hun schaal te evenaren, maar door het te overtreffen in efficiëntie.

Wie wint

Misschien is het meest disruptieve aspect van deze overgang wie het empowerd. Je hoeft geen datacenter te bezitten of zelfs maar GPUs om een tokenfabriek te exploiteren.

Wat ertoe doet, is controle over orkestratie, optimalisatie en levering. Dat opent de deur voor een veel bredere set spelers:

  • Bedrijven met grote, persistente AI-workloads.
  • Neo-cloudproviders die optimaliseren voor specifieke verticale markten of use cases.
  • Infrastructuurleveranciers die hoger in de stack gaan.

In dit model komt concurrentievoordeel niet van het hamsteren van compute. Het komt van het beter, sneller en goedkoper produceren van tokens dan wie dan ook.

Het nieuwe slagveld: Kosten per token

De volgende fase van AI-concurrentie zal niet worden gewonnen op modelkwaliteit alleen. Het zal worden gewonnen op efficiëntie. Meer specifiek, kosten per token.

Wie kan equivalente of betere outputs leveren tegen een fractie van de kosten? Wie kan schalen zonder dat de infrastructuurspendingen uit de hand lopen? Wie kan AI omzetten in een voorspelbaar, winstgevend bedrijf?

Dit zijn geen infrastructuurvragen. Het zijn productievragen die een productiemindset vereisen.

De toekomst is niet gebouwd op GPUs

GPUs gaan niet weg, maar ze zijn niet langer het verhaal. Tokens zijn dat.

Organisaties die zich blijven focussen op compute, zien de kosten stijgen en de rendementen dalen. Diegenen die overstappen op token-georiënteerde systemen, zullen een fundamenteel ander model ontgrendelen, een model dat infrastructuur afstemt op resultaten en kosten op waarde.

AI-tokenfabrieken zijn geen verre concept. Ze zijn een onvermijdelijke evolutie van de markt. De enige echte vraag is wie ze het eerst bouwt en wie achterblijft.

Gaurav Shah is Vice President of Business Development and Strategy at NeuReality, waar hij klantinspanningen leidt om AI-inferentie te revolutioneren en de adoptie ervan te versnellen in sectoren zoals fintech, healthtech en de overheid. Gaurav heeft drie decennia ervaring in de technologiebranche, waar hij werkte in productmarketing- en managementfuncties bij NVIDIA, Marvell, Tenstorrent en GlobalFoundries. Hij is gevestigd in de San Francisco Bay Area.