Thought leaders

We hebben robots leren bewegen. Nu leren we ze leven.

mm

De moderne robotica heeft een punt bereikt waarop beweging niet langer de belangrijkste uitdaging is – machines kunnen al navigeren, grijpen en opereren in de ruimte met indrukwekkende precisie. Toch blijft het hen in staat stellen om echt “te leven” en te functioneren in de echte wereld een onopgelost probleem.

In dit proces speelt het “ruggenmerg” een sleutelrol: het systeem dat verantwoordelijk is voor basisreacties, gedrag en interactie met de omgeving.

Als je naar de evolutie van robots kijkt door deze lens, wordt het duidelijk dat deze reeks stadia – waarin het systeem iets nieuws leert bij elke stap, van eenvoudige beweging tot complexe, contextafhankelijke acties – sterk lijkt op de menselijke ontwikkeling.

En het is precies binnen deze evolutie – van “leeg” hardware naar betekenisvol gedrag – dat de belangrijkste verschuiving in fysieke AI vandaag plaatsvindt. Interessant om hier dieper in te duiken.

De basis van robotica: een zelden besproken stadium

Wat is een robot in praktische zin? Het is een fysiek apparaat dat oorspronkelijk is gemaakt als een universele platform. In wezen is het een “leeg” dat vervolgens moet worden aangepast aan specifieke taken, getraind om te werken in een bepaalde omgeving en geleerd om de vereiste acties uit te voeren.

Als we verder gaan dan alledaagse scenario’s en meer realistische toekomstige toepassingen overwegen, wordt het duidelijk dat de volledige adoptie van robots voornamelijk zal plaatsvinden in industriële en mogelijk gevaarlijke omgevingen. Dit impliceert op zijn beurt aanzienlijk hogere eisen voor hun gedrag, robuustheid en trainingskwaliteit.

Het proces begint met de meest basale stap – het apparaat zelf bouwen. Een robot wordt samengesteld uit meerdere componenten, waaronder actuatoren, motoren, sensoren, camera’s, LiDARs. Het kan humanoïde, wielen, tweebenig of vierbenig zijn – de vormfactor is secundair. Wat belangrijk is, is dat we op dit stadium eindigen met een functionerend maar nog “leeg” apparaat.

De volgende stap is het installeren van een basismodel dat dient als de basis voor zijn gedrag. In brede zin is het “model” de hele functionele besturingslaag. Het is verantwoordelijk voor de kernmogelijkheden: het behouden van evenwicht, staan en bewegen, navigeren van punt A naar punt B, obstakels vermijden, de omgeving niet beschadigen en veilig met mensen omgaan.

Dit is waar versterkingsleren een rol speelt. In dergelijke systemen worden miljarden simulaties uitgevoerd. We zien vaak video’s van robots die “leren” in complexe omgevingen: de meesten vallen, verliezen hun evenwicht of falen bij het voltooien van de taak. Maar degene die erin slagen om rechtop te blijven en te blijven bewegen, zijn degene die vooruitgang boeken.

Dit is de essentie van versterkingsleren: het selecteren van succesvol gedrag. De algoritmen van degene die “overleven” vormen de basis voor de volgende iteraties. Als gevolg daarvan ontstaat er, na een enorm aantal runs, een model dat obstakels met vertrouwen kan hanteren. Deze algoritme wordt vervolgens overgebracht naar het fysieke apparaat.

Het is een gefundeerd maar kritisch belangrijk stadium – vaak met weinig tot geen computervisie, die op dit punt niet nodig is. Wat we hier te maken hebben, is fundamentele fysica en mechanica die vanaf het begin in het systeem moeten worden ingebed.

Hoe robots de wereld beginnen te “voelen”

Dus, we hebben al het “hardware” – een robot met een basismodel geïnstalleerd: het kan staan, lopen en evenwicht behouden. Maar is dit genoeg voor taken in de echte wereld, bijvoorbeeld in industriële omgevingen? Duidelijk niet.

Het volgende niveau begint hier. We integreren sensoren en trainen het model om te handelen op basis van sensorische input. Een nieuwe laag van kernvaardigheden ontstaat – al veel complexer dan eenvoudige beweging.

Een analogie met menselijke ontwikkeling is hier nuttig. In het eerste stadium brachten we het systeem naar ongeveer het niveau van een eenjarig kind: het kan staan, zijn eerste stappen zetten en evenwicht behouden zonder te vallen. De volgende stap is meer in overeenstemming met het niveau van een achtjarig kind.

Op deze leeftijd gebruikt een kind actief zijn “sensoren”: hij kan risico’s waarnemen en de gevolgen van zijn acties evalueren. Hij begrijpt dat hij niets heets moet aanraken of iets erg kouds in zijn mond moet stoppen. Hij kan op een tafel klimmen, op een fiets rijden en met objecten omgaan. Hij is in staat om te grijpen, te dragen en voorwerpen te manipuleren en basisselfzorgacties uit te voeren.

We noemen dit stadium pretraining. En op dit punt zijn simulaties alleen niet langer voldoende.

Ja, sommige scenario’s kunnen nog steeds effectief worden gemodelleerd: hoe je een glas oppakt, of een batterij vervangt, bijvoorbeeld, door een onderdeel te verwijderen, op te laden, een ander te nemen en het terug te installeren.

Maar over het algemeen verschuift de balans: ongeveer 80% van de training kan nog steeds in simulatie plaatsvinden, terwijl ongeveer 20% van de gegevens uit de echte wereld moeten komen. En dit is waar we beginnen over egocentrische gegevens te praten.

Egocentrische gegevens als basis voor milieubegrip

Vandaag de dag worden egocentrische gegevens wereldwijd op grote schaal verzameld – omdat zonder hen het onmogelijk is om van basismechanica naar betekenisvolle interactie met de echte wereld over te gaan. Een collega van mij, die een netwerk van autoherstelbedrijven runt, heeft medewerkers die head-mounted camera’s gebruiken om het hele proces van autoherstel op te nemen. Een gebouweigenaar in New York City heeft een soortgelijke aanpak geïmplementeerd: schoonmaakpersoneel draagt voorhoofdsmontagecamera’s die vastleggen hoe ze ruimtes schoonmaken en hygiënische gebieden onderhouden.

Na verloop van tijd worden deze opnames een zelfstandig product – ze worden verpakt en verkocht. Hun belangrijkste waarde ligt in hun geschiktheid voor het pretrainingsstadium, waardoor een basisbegrip van omgevingen en actiesequenties ontstaat.

Er bestond bijvoorbeeld zo’n dienst op Keymakr, waar het team onafhankelijk complete collecties van egocentrische gegevens maakte van eenvoudige scenario’s zoals afwassen tot meer complexe.

Waarom is dit zo belangrijk? Omdat dergelijke gegevens iets bieden wat pure simulatie niet kan – de diversiteit van echte omgevingen. Kantoren, autoherstelbedrijven, bouwplaatsen, restaurants en hotels – elk van deze voegt zijn eigen context, scenario’s en nuances toe. Samen vormen ze een dataset die een systeem niet alleen in staat stelt om “te zien”, maar om langzaam de dynamiek van de echte wereld te begrijpen.

Op dit stadium is het doel niet langer om een robot te leren een specifieke actie perfect uit te voeren. Wat belangrijker is, is om hem in staat te stellen om zich in de eerste plaats te oriënteren in zijn omgeving.

Vandaag de dag zijn bijna alle bedrijven die in de robotica werken – van Tesla tot Unitree Robotics en Figure AI – gefocust op dit exacte stadium. Hun doel is om een basismodel te bouwen waarvan de mogelijkheden eerst lijken op die van een “achtjarig kind” en vervolgens naar een “twaalfjarig kind” gaan. Dit is ook waar we ons op focussen bij Introspector – het voorbereiden van de gegevens die nodig zijn voor pretraining, het meest kritieke stadium in de “opkomst” van de moderne robotica.

De laatste mijl van de training: waar universaliteit eindigt en specialisatie begint

Laten we ons voorstellen dat een robot al het pretrainingsstadium heeft doorlopen en vanaf het begin is gemaakt met een basisbegrip van de wereld en een vaardigheidsset die vergelijkbaar is met die van een tiener. Maar zelfs dit is niet genoeg voor echte zakelijke toepassingen. Bedrijven hebben niet alleen een “algemeen doel” robot nodig – ze hebben een specialist nodig.

Neem de automotive fabricage als voorbeeld. Sommige taken worden nog steeds door mensen uitgevoerd omdat ze gevoeligheid, precisie en continue visuele controle vereisen. Traditionele automatisering worstelt hiermee. Industriële manipulatoren excelleren in repetitieve, rigide taken – “pak, verplaats, plaats”. Maar taken die aanpassingsvermogen, drukdetectie en real-time aanpassingen vereisen, blijven in het domein van de mens.

Dit is waar een nieuwe vraag ontstaat: wat is precies nodig voor dit niveau van training? Als we een robot willen trainen om een specifieke operatie exact als een ervaren werknemer op een productielijn uit te voeren, moeten we dat menselijk gedrag zo precies mogelijk vastleggen. Bijvoorbeeld, de specialist op de fabrieksvloer zou een camera moeten dragen en, gedurende een lange periode, maanden of zelfs een jaar, opnemen hoe hij de taak uitvoert.

Wat het kost voor robots om in de menselijke wereld te “leven”

Een camera alleen is niet genoeg. Het is nodig om niet alleen het visuele perspectief, maar ook de fysica van de beweging vast te leggen. Dit gebeurt met behulp van speciale handschoenen met tactiele sensoren die de druk, de toegepaste kracht en de aard van de interactie met objecten meten. Dit is vooral belangrijk omdat de objecten zelf aanzienlijk kunnen variëren. Bijvoorbeeld, afdichtingsstrips kunnen in stijfheid verschillen per automodel, wat direct van invloed is op hoe de taak wordt uitgevoerd.

Als volgende komt kinematische tracking. Markers – visueel of sensorgebaseerd – worden op de polsen, ellebogen en soms schouders geplaatst. Deze kunnen bijvoorbeeld armbanden met identificeerbare markers (soortgelijk aan QR-codes) omvatten die het systeem in staat stellen om de handpositie in de ruimte vanuit video’s te volgen. Additionele sensoren, zoals gyroscoopen, worden gebruikt om de bewegingen van de gewrichten vast te leggen.

Het uiteindelijke doel is om de mechanica van de beweging volledig te reconstrueren: hoe de schouder beweegt, hoe de elleboog buigt, hoe de pols draait. Alles wordt essentieel voor het volgende stadium – post-training.

Als, tijdens pretraining, we nog gedeeltelijk konden vertrouwen op simulatie, werkt dit op dit stadium niet langer. Deze “laatste mijl” is bijna onmogelijk om nauwkeurig te modelleren. Je kunt bijvoorbeeld niet volledig simuleren hoe een chef deeg uitrolt – de toegepaste kracht, hoe de druk wordt verdeeld, hoe het materiaal wordt gevoeld.

Dat is waarom, tijdens post-training, bijna alle gegevens uit de echte wereld moeten komen. En dit is waar het duidelijk wordt: de belangrijkste uitdaging verschuift naar het praktische domein – hoe deze gegevens in werkelijkheid te verkrijgen. Het verzamelen van egocentrische gegevens op dit niveau is een complex, meerdere stappen proces dat toegang tot omgevingen, gespecialiseerde apparatuur, deelname van ervaren werknemers en vervolgens gegevensvoorbereiding omvat.

Verder dan theorie, dit is waar robots echt “tot leven komen” – nadat we erin geslaagd zijn om dit proces te organiseren, de beperkingen die teams in verschillende industrieën tegenkomen, te overwinnen en dergelijke datasets op grote schaal te annoteren. Dit zal in het volgende deel worden behandeld, waar we een nadere blik zullen werpen op alle uitdagingen die ontstaan tijdens het labelen en voorbereiden ervan.

Michael Abramov is de oprichter en CEO van Introspector, met meer dan 15 jaar ervaring in software-engineering en computer vision AI-systemen voor het bouwen van enterprise-grade labeltools.

Michael begon zijn carrière als software-engineer en R&D-manager, waar hij schaalbare datasystemen bouwde en cross-functionele engineersteams leidde. Tot 2025 was hij CEO van Keymakr, een datalabelingservicebedrijf, waar hij human-in-the-loop workflows, geavanceerde QA-systemen en maatwerktooling ontwikkelde om grote computer vision- en autonomiedatavisies te ondersteunen.

Hij heeft een B.Sc. in Computer Science en een achtergrond in engineering en creatieve kunst, waardoor hij een multidisciplinaire lens heeft om moeilijke problemen op te lossen. Michael leeft op het snijvlak van technologie-innovatie, strategisch productleiderschap en real-world impact, en hij stuwt de volgende frontier van autonome systemen en intelligente automatisering vooruit.