Thought leaders
De echte kosten van het trainen van robots

In de eerste deel, hebben we besproken hoe robots evolueren van basis mechanica naar het begrijpen van hun omgeving. Bij het “laatste mijl” stadium – wanneer robots post-training ondergaan voor specifieke, aangepaste taken – verschijnt een onverwachte barrière. Het is verbonden met data: de verzameling, organisatie en schaalvergroting in real-world omstandigheden.
Het is precies op dit stadium dat de kloof tussen concept en implementatie het meest duidelijk wordt. Wat zijn de belangrijkste knelpunten, en hoe kunnen ze worden overwonnen met minimale wrijving?
Waarom duizenden uren aan data zich vertalen naar jaren van werk
Laten we ons voorstellen dat we al een getrainde robot hebben die pretraining heeft ondergaan. Het kan zijn omgeving navigeren, bewegen, obstakels vermijden en interactie hebben met objecten. Het is alsof een “tienjarig kind” dat over het algemeen in staat is om onafhankelijk te handelen. De volgende stap is om het te leren specifieke acties uit te voeren onder specifieke omstandigheden, bijvoorbeeld het installeren van glaspanelen en afdichtingsstrips op een automotive productielijn.
Op het eerste gezicht lijkt de taak eenvoudiger. Het gaat om het beheersen van één scenario, en het volume aan data dat nodig is, is aanzienlijk kleiner dan tijdens pretraining. Terwijl fundamentale training honderdduizenden uren kan vergen, kan post-training slechts duizenden uren vergen. Maar deze cijfers zijn misleidend.
Wanneer vertaald naar reële tijd, onthult het proces zijn ware complexiteit. Onder een standaard werkrooster werkt een persoon ongeveer 160 uur per maand. Echter, dit betekent niet dat al deze tijd kan worden gebruikt voor opname.
In de praktijk treden voortdurend onderbrekingen op: batterijen raken leeg, camera’s verschuiven, sensoren falen. Hoe complexer de apparatuurinstallatie, hoe groter de kans op problemen. Zelfs een eenvoudige storing zoals sensoren op een handschoen die stoppen met werken, kan het proces stoppen en leiden tot verloren tijd.
Als gevolg hiervan is de daadwerkelijke datasnelheid 2-3 keer lager. Één uur van hoge kwaliteit opname kan tot drie uur reële arbeid vergen. Dit verandert de berekening radicaal: 5.000 uur aan data vertaalt zich in ongeveer 15.000 uur arbeid.
Lagen van complexiteit
Tijdens pretraining kan het voldoende zijn om een persoon een camera te geven en te vragen om alledaagse activiteiten op te nemen. Op dit stadium is echter toegang tot een specifieke omgeving vereist, zoals een fabriek, een bouwplaats of een gespecialiseerde productiefaciliteit.
Dit introduceert onmiddellijk praktische beperkingen. Bijvoorbeeld, op een bouwplaats zijn werknemers verplicht veiligheidshelmen te dragen, wat betekent dat gespecialiseerde apparatuur moet worden ontwikkeld: helmen met geïntegreerde camera’s die bestand zijn tegen stof, vocht en impact.
Vervolgens komt de toegang tot de site zelf. Overeenkomsten moeten worden gesloten met site-eigenaren, toestemming moet worden verkregen en voorwaarden moeten worden onderhandeld. Dit houdt bijna altijd extra kosten in: bedrijven verwachten compensatie, en werknemers verwachten te worden betaald voor hun deelname.
Verzekering en veiligheidsconformiteit worden ook kritieke zorgen. Als de apparatuur niet voldoet aan de vereiste normen, kan de verzekering worden ingetrokken, waardoor het hele proces opnieuw moet worden opgezet.
Zelfs op het niveau van dagelijkse operaties blijven uitdagingen bestaan. Camera’s moeten worden ingeschakeld, gecontroleerd en onderhouden. Werknemers werken in handschoenen en onder harde omstandigheden. Apparatuur wordt vuil, slijt af en breekt. Een camera kan na een paar minuten uitschakelen, en de persoon merkt het misschien niet eens.
Dit creëert de noodzaak voor deelnemers om zichzelf te trainen – ze moeten leren hoe ze de apparatuur moeten gebruiken. Bovendien is voortdurend toezicht vereist – iemand moet ervoor zorgen dat de opname gaande is en dat apparaten goed functioneren.
Van ruwe video naar trainingsdata
Na de opname begint het volgende stadium: data verzamelen, uploaden, structureren, valideren van de kwaliteit en labelen.
Elke ruwe data bestaat uit video- en sensorsignalen. Om het te vertalen naar trainingsmateriaal, moet het worden gestructureerd: objecten moeten worden geïdentificeerd, acties moeten worden vastgelegd, en staten, bewegingen en interacties met de omgeving moeten worden beschreven. Dit is waar annotatie een rol speelt. Een logische vraag rijst – wat is de gouden standaard voor een dergelijke annotatieworkflow?
In sommige gevallen zijn eenvoudige begrenzingskaders voldoende om objecten in een kader te identificeren. In andere gevallen is tijdelijke annotatie vereist om sequenties van acties over tijd te beschrijven. In bepaalde scenario’s worden keypoints en skeletmodellen gebruikt om lichaamsbeweging te vastleggen. In complexere gevallen zijn 3D-meshes of handpose-tracking nodig om interactiemechanica nauwkeurig te representeren. Extra sensoren, zoals versnellingsmeters, worden vaak geïntegreerd om bewegingsdynamica en toegepaste kracht te vastleggen.
Projecten zoals deze vereisen vaak ook het opschalen van het team. Labelen is een grote en complexe taak die tijd, expertise en aanzienlijke menselijke hulpbronnen vergt. Dit is waar data-oplossingsproviders met in-house annotatieteams in beeld komen, zoals Keymakr, dat zich heeft bewezen als bijzonder effectief vanwege de mogelijkheid om teams op te schalen om elke gegevensvolume te matchen, van één specialist tot honderden annotators.
Er is nog geen juiste aanpak voor training
De industrie bevindt zich nog in een exploratiefase, aangezien er geen consensus is over welke combinatie van data het beste resultaat oplevert. Veel benaderingen worden empirisch gevalideerd omdat ze werken in specifieke experimenten. Als gevolg hiervan blijven verschillende teams vertrouwen op verschillende technologieën, gevormd door hun eigen ervaring, taken en beperkingen.
Zowel op academisch als op toegepast niveau leidt dit tot fragmentatie: laboratoria en bedrijven bewegen in verschillende richtingen. De situatie doet denken aan de vroege dagen van autonome rijden, toen Tesla inzet op een visie-only benadering zonder LiDAR, terwijl de meeste andere spelers LiDAR als een kernsensor kozen.
Vandaag de dag vertonen LiDAR-gebaseerde systemen over het algemeen stabielere prestaties, maar Tesla’s benadering blijft evolueren. Het verschil is dat in autonome rijden de markt grotendeels is gerijpt: stabiele architectuur is ontstaan, beperkingen zijn goed begrepen en aanzienlijke expertise is opgebouwd.
In tegenstelling tot Physical AI en soortgelijke modeltraining is dit niveau van volwassenheid nog niet bereikt. De markt is nog in ontwikkeling, er ontbreken standaarden en veel van de vooruitgang wordt gedreven door experimenten. Nieuwe methoden voor modeltraining, efficiëntieverbetering en aanpassing aan real-world scenario’s blijven ontstaan, wat suggereert dat de belangrijkste doorbraken in dit veld nog in de toekomst liggen.
De mens als versterkingssysteem
Labelen bestaat niet in isolatie, noch voor het model alleen. Het dient als een instrument voor de ingenieur die het model bouwt. Door middel van labelen formaliseert de ingenieur de realiteit, identificeert belangrijke parameters en definieert de systeemgedragsregels.
De taak van de ingenieur is om het systeem te leren om acties correct uit te voeren in real-world omstandigheden. Bijvoorbeeld, een basisscenario kan bestaan uit vier acties: een glas oppakken, de kraan aanzetten, het vullen en de kraan uitzetten. Maar in realiteit doet zich een afwijking voor – het glas loopt over.
Op dat moment wordt van het model verwacht dat het scenario voltooit en aanvullende acties uitvoert: de waterstroom stoppen, het waterpeil aanpassen en morsen voorkomen. Dit is gedragslogica op basis van contextuele begrip.
De ingenieur volgt een cyclus: annoteren van data, trainen van het model, testen. Als het systeem werkt, wordt de hypothese bevestigd. Als niet, begint de analyse.
Op een gegeven moment kan het duidelijk worden dat het model een belangrijk parameter mist, zoals het vulleniveau van het glas. Eerder kan de data annotaties hebben bevatten voor objecten (glas, kraan, handvat) en acties (openen, vullen, sluiten), maar ontbrak annotatie voor staat, zoals de mate van vollheid.
Een nieuwe laag wordt dan toegevoegd aan het proces: annoteren van het vulleniveau, gevolgd door formalisatie, bijvoorbeeld door te definiëren dat alles boven 85% een kritieke staat is.
Dit leidt tot de volgende iteratie van training. U kunt honderden van dergelijke iteraties hebben.
Niemand gaat ervan uit dat het systeem meteen correct zal werken. Integendeel, het proces is gebouwd rond successievelijke benaderingen: eerst wordt een basisversie gemaakt; vervolgens wordt het getest in reële of near-reële omstandigheden; hiaten worden geïdentificeerd; en het systeem wordt verfijnd. Dit is iets wat ik vaak bespreek met klanten bij Introspector, waarmee we de hele Physical AI-reis samen doorlopen.
Op een gegeven moment wordt het gewenste resultaat bereikt. Maar de waarde ervan ligt niet alleen in het feit dat het systeem begint te werken, maar in de opgebouwde ervaring die het resultaat toelaat om meer voorspelbaar te reproduceren.
De economie die iedereen vergeet
In de afgelopen jaar of zo heb ik gemerkt dat de grootste fout die bedrijven maken bij het werken met egocentrische data weinig te maken heeft met technologie.
Het kernprobleem is eigenlijk het onderschatten van projecteconomie.
In de ideeënfase staat technologie centraal – welke modellen te gebruiken, hoe ze te trainen en welke benaderingen toe te passen. U bestudeert, onderzoekt, bespreekt architectuur en test hypotheses. Dit is natuurlijk: technologie voelt als het meest tastbare en voor de hand liggende deel van het probleem.
Maar veel minder vaak op dit stadium vragen teams zich een directe en praktische vraag: hoeveel zal het kosten?
Wanneer een project van theorie naar implementatie gaat, wordt het duidelijk dat achter elk model tienduizenden uren aan data schuilgaan. Het verzamelen van deze data vergt tijd, toegang tot reële omgevingen en de betrokkenheid van specialisten. Labelen voegt nog een laag complexiteit en kosten toe. Als gevolg hiervan zijn de eindcijfers vaak vele malen hoger dan aanvankelijk verwacht.
Dit betekent niet dat dergelijke projecten niet moeten worden nagestreefd. Integendeel, ze zijn wat de industrie vooruit helpt.
Maar wat telt, is het begrijpen van de omvang van de uitdaging vanaf het allereerste begin. Het erkennen dat bij modeltraining achter elk geweldig algoritme complexe, resource-intensieve datawerk zit.
Zelfs sterke ideeën falen om tot volledige implementatie te komen wanneer de gegevenskosten beginnen te stijgen ver boven zeven cijfers.
En misschien is de belangrijkste verschuiving die vandaag de dag in de robotica plaatsvindt, verbonden met deze realisatie. De toekomst van deze systemen zal worden gedefinieerd door hoe “intelligent” ze zijn en hoe effectief en precies de hele datapipeline is opgebouwd – van gegevensverzameling tot finale interpretatie.












